Claude Opus 4.5: 全球最先进的AI模型

重新定义AI的公告

2025年11月24日 — Anthropic发布了Claude Opus 4.5，这是迄今为止最先进的模型。Opus 4.5被介绍为“全球最适合coding、智能体（agents）和电脑使用的模型”，标志着AI系统进化得重要里程碑。

Introducing Claude Opus 4.5: the best model in the world for coding, agents, and computer use. Opus 4.5 is a step forward in what AI systems can do, and a preview of larger changes to how work gets done.

🇨🇳 隆重介绍Claude Opus 4.5：全球最适合coding、智能体和电脑使用的模型。Opus 4.5不仅是AI系统能力的一次飞跃，更预示着未来工作方式的重大变革。 — @claudeai on X

🔗 anthropic.com上的官方公告

为什么Opus 4.5改变了游戏规则

Claude Opus 4.5不仅仅是一次渐进式的更新。该模型在几个关键领域代表了质的飞跃：

智能推理

Opus 4.5擅长处理模糊性和权衡取舍。该模型展示了在存在多种有效方法的复杂情况下的导航能力，并能选择最适合上下文的方法。

扩展的上下文管理

得益于自动摘要（summarization），Opus 4.5消除了对话长度的限制。该模型可以在长时间的工作会话中保持上下文，而不会降低性能。

多智能体协调

最大的进步之一涉及编排多智能体系统的能力。Opus 4.5可以协调多个并行处理复杂任务的自主进程。

高级Computer Use

该模型现在可以直接操作：

电子表格 — 分析和修改Excel/Sheets数据
演示文稿 — 创建和编辑幻灯片
浏览器 — 自动化复杂的Web任务
桌面应用程序 — 与原生软件交互

基准测试：数据说话

软件工程性能

基准测试	Opus 4.5	提升幅度
SWE-bench Verified	State-of-the-art	绝对领先
SWE-bench Multilingual	7/8 种语言	在7种语言中表现最佳
Aider Polyglot	+10.6%	vs Sonnet 4.5
Vending-Bench	+29%	vs Sonnet 4.5
Terminal Bench	+15%	vs Sonnet 4.5
BrowseComp-Plus	显著收益	智能体研究

值得注意的事实

在Anthropic内部限时2小时的工程考试中，Opus 4.5的得分高于所有人类候选人。这是该模型达到这一水平的首例。

革命性的Token效率

Opus 4.5最令人印象深刻的方面之一是其Token效率。该模型能以显著更少的Token生成同等或更好的结果：

努力程度	性能	Token减少
中等努力	与Sonnet 4.5持平	-76% Tokens
最大努力	+4.3% vs Sonnet 4.5	-48% Tokens
长任务	保持	-65% Tokens

这具体意味着什么

降低成本 — 更少的Token = 更轻的API账单
更快的响应 — 更少的生成 = 降低延迟
更高效的推理 — 减少回溯和冗余探索

定价和可用性

API访问

参数	值
Model ID	`claude-opus-4-5-20251101`
Input 价格	$5 / 百万Token
Output 价格	$25 / 百万Token
Context window	200K Tokens
Thinking budget	64K Tokens

可用平台

Anthropic API — 直接访问
AWS Bedrock — Amazon云集成
Google Vertex AI — Google云集成
Claude 应用程序 — claude.ai、桌面、移动端

企业反馈

首批用户的反馈是一致的：

GitHub Copilot

该模型超越了我们的内部coding基准，同时将Token使用量减少了一半。 — Mario Rodriguez, Chief Product Officer

Windsurf AI

Clear winner… best frontier task planning and tool calling.

🇨🇳 明显的赢家……最佳的前沿任务规划和工具调用。 — Jeff Wang, CEO

Replit

Using fewer tokens to solve the same problems.

🇨🇳 使用更少的Token解决相同的问题。 — Michele Catasta, President

Warp

15% improvement over Sonnet 4.5 on Terminal Bench for autonomous tasks. — Zach Lloyd, Founder

Cursor

Notable improvement with improved pricing and intelligence.

🇨🇳 显著的改进，具有更好的定价和智能。 — Michael Truell, CEO

产品改进

Opus 4.5伴随着Claude生态系统中的几项新功能：

Claude Code — 增强的Plan Mode

执行前的澄清问题
用户可编辑的plan.md文件
更好的多文件修改协调

Claude Desktop

并行本地和远程会话
集成截图
通过点击窗口共享上下文
语音命令（Caps Lock说话）

Claude for Chrome（适用于所有付费计划）

Claude for Chrome最初处于测试阶段，自2025年12月18日起现已向所有付费计划（Pro、Team、Enterprise）开放。该扩展程序允许Claude直接在浏览器中交互：

自主导航 — 浏览网站、点击、填写表单
多标签页 — 同时在多个标签页上工作
自动化 — 提取指标、管理云文件、准备日历
集成 — Google Drive、Salesforce、Gmail、CRM
计划工作流 — 每日或每周自动化
安全 — 执行前审查敏感操作

🔗 了解更多关于Claude for Chrome的信息

其他集成

Claude for Excel — Beta扩展到Max、Team和Enterprise
扩展对话 — 得益于自动摘要，不再有长度限制

安全与对齐

Anthropic将Opus 4.5展示为其“迄今为止对齐最稳健的模型”：

抗攻击能力

Prompt注入 — 比任何竞争对手模型都更难欺骗
滥用类别 — “令人担忧的行为”得分降低

System Card

安全文档详细介绍了为确保即使在复杂的边缘情况下也能保持可靠和可预测的行为而采取的措施。

技术规格

规格	值
Context window	200K Tokens（默认）
Thinking budget	64K Tokens（交错）
评估方法	5次独立试验的平均值
努力参数	可配置（速度 vs 能力）
采样	标准温度和top-p

架构优势

减少回溯的高效多步推理
优化的上下文压缩
用于长会话中持续推理的记忆工具

结论

Claude Opus 4.5代表的不仅仅是模型更新，它展示了当效率和能力共同进步时AI可以取得的成就。

对于开发者来说，其含义是明确的：

在coding和自动化任务上获得更好的性能
得益于Token效率而降低成本
通过电脑使用和多智能体协调带来的新可能性