重新定义AI的公告
2025年11月24日 — Anthropic发布了Claude Opus 4.5,这是迄今为止最先进的模型。Opus 4.5被介绍为“全球最适合coding、智能体(agents)和电脑使用的模型”,标志着AI系统进化得重要里程碑。
Introducing Claude Opus 4.5: the best model in the world for coding, agents, and computer use. Opus 4.5 is a step forward in what AI systems can do, and a preview of larger changes to how work gets done.
🇨🇳 隆重介绍Claude Opus 4.5:全球最适合coding、智能体和电脑使用的模型。Opus 4.5不仅是AI系统能力的一次飞跃,更预示着未来工作方式的重大变革。 — @claudeai on X
为什么Opus 4.5改变了游戏规则
Claude Opus 4.5不仅仅是一次渐进式的更新。该模型在几个关键领域代表了质的飞跃:
智能推理
Opus 4.5擅长处理模糊性和权衡取舍。该模型展示了在存在多种有效方法的复杂情况下的导航能力,并能选择最适合上下文的方法。
扩展的上下文管理
得益于自动摘要(summarization),Opus 4.5消除了对话长度的限制。该模型可以在长时间的工作会话中保持上下文,而不会降低性能。
多智能体协调
最大的进步之一涉及编排多智能体系统的能力。Opus 4.5可以协调多个并行处理复杂任务的自主进程。
高级Computer Use
该模型现在可以直接操作:
- 电子表格 — 分析和修改Excel/Sheets数据
- 演示文稿 — 创建和编辑幻灯片
- 浏览器 — 自动化复杂的Web任务
- 桌面应用程序 — 与原生软件交互
基准测试:数据说话
软件工程性能
| 基准测试 | Opus 4.5 | 提升幅度 |
|---|---|---|
| SWE-bench Verified | State-of-the-art | 绝对领先 |
| SWE-bench Multilingual | 7/8 种语言 | 在7种语言中表现最佳 |
| Aider Polyglot | +10.6% | vs Sonnet 4.5 |
| Vending-Bench | +29% | vs Sonnet 4.5 |
| Terminal Bench | +15% | vs Sonnet 4.5 |
| BrowseComp-Plus | 显著收益 | 智能体研究 |
值得注意的事实
在Anthropic内部限时2小时的工程考试中,Opus 4.5的得分高于所有人类候选人。这是该模型达到这一水平的首例。
革命性的Token效率
Opus 4.5最令人印象深刻的方面之一是其Token效率。该模型能以显著更少的Token生成同等或更好的结果:
| 努力程度 | 性能 | Token减少 |
|---|---|---|
| 中等努力 | 与Sonnet 4.5持平 | -76% Tokens |
| 最大努力 | +4.3% vs Sonnet 4.5 | -48% Tokens |
| 长任务 | 保持 | -65% Tokens |
这具体意味着什么
- 降低成本 — 更少的Token = 更轻的API账单
- 更快的响应 — 更少的生成 = 降低延迟
- 更高效的推理 — 减少回溯和冗余探索
定价和可用性
API访问
| 参数 | 值 |
|---|---|
| Model ID | claude-opus-4-5-20251101 |
| Input 价格 | $5 / 百万Token |
| Output 价格 | $25 / 百万Token |
| Context window | 200K Tokens |
| Thinking budget | 64K Tokens |
可用平台
- Anthropic API — 直接访问
- AWS Bedrock — Amazon云集成
- Google Vertex AI — Google云集成
- Claude 应用程序 — claude.ai、桌面、移动端
企业反馈
首批用户的反馈是一致的:
GitHub Copilot
该模型超越了我们的内部coding基准,同时将Token使用量减少了一半。 — Mario Rodriguez, Chief Product Officer
Windsurf AI
Clear winner… best frontier task planning and tool calling.
🇨🇳 明显的赢家……最佳的前沿任务规划和工具调用。 — Jeff Wang, CEO
Replit
Using fewer tokens to solve the same problems.
🇨🇳 使用更少的Token解决相同的问题。 — Michele Catasta, President
Warp
15% improvement over Sonnet 4.5 on Terminal Bench for autonomous tasks. — Zach Lloyd, Founder
Cursor
Notable improvement with improved pricing and intelligence.
🇨🇳 显著的改进,具有更好的定价和智能。 — Michael Truell, CEO
产品改进
Opus 4.5伴随着Claude生态系统中的几项新功能:
Claude Code — 增强的Plan Mode
- 执行前的澄清问题
- 用户可编辑的
plan.md文件 - 更好的多文件修改协调
Claude Desktop
- 并行本地和远程会话
- 集成截图
- 通过点击窗口共享上下文
- 语音命令(Caps Lock说话)
Claude for Chrome(适用于所有付费计划)
Claude for Chrome最初处于测试阶段,自2025年12月18日起现已向所有付费计划(Pro、Team、Enterprise)开放。该扩展程序允许Claude直接在浏览器中交互:
- 自主导航 — 浏览网站、点击、填写表单
- 多标签页 — 同时在多个标签页上工作
- 自动化 — 提取指标、管理云文件、准备日历
- 集成 — Google Drive、Salesforce、Gmail、CRM
- 计划工作流 — 每日或每周自动化
- 安全 — 执行前审查敏感操作
其他集成
- Claude for Excel — Beta扩展到Max、Team和Enterprise
- 扩展对话 — 得益于自动摘要,不再有长度限制
安全与对齐
Anthropic将Opus 4.5展示为其“迄今为止对齐最稳健的模型”:
抗攻击能力
- Prompt注入 — 比任何竞争对手模型都更难欺骗
- 滥用类别 — “令人担忧的行为”得分降低
System Card
安全文档详细介绍了为确保即使在复杂的边缘情况下也能保持可靠和可预测的行为而采取的措施。
技术规格
| 规格 | 值 |
|---|---|
| Context window | 200K Tokens(默认) |
| Thinking budget | 64K Tokens(交错) |
| 评估方法 | 5次独立试验的平均值 |
| 努力参数 | 可配置(速度 vs 能力) |
| 采样 | 标准温度和top-p |
架构优势
- 减少回溯的高效多步推理
- 优化的上下文压缩
- 用于长会话中持续推理的记忆工具
结论
Claude Opus 4.5代表的不仅仅是模型更新,它展示了当效率和能力共同进步时AI可以取得的成就。
对于开发者来说,其含义是明确的:
- 在coding和自动化任务上获得更好的性能
- 得益于Token效率而降低成本
- 通过电脑使用和多智能体协调带来的新可能性