搜索

Claude Opus 4.6 和 GPT-5.3-Codex:双重发布,Gemini 3 更新

Claude Opus 4.6 和 GPT-5.3-Codex:双重发布,Gemini 3 更新

巅峰双重发布:Anthropic 发布了具有 100 万 token 上下文和代理团队的 Claude Opus 4.6,而 OpenAI 则以 GPT-5.3-Codex 和企业平台作为回应。Google 在各个方面都在推广 Gemini 3,GitHub 终于回应了一个 8 年前的请求。


Claude Opus 4.6:Agentic coding SOTA 和 1M 上下文

2 月 5 日 — Anthropic 推出了 Claude Opus 4.6,这是其最智能模型的重大更新。该模型在规划、长会话、代码审查方面取得了进步,并且首次在 Opus 模型的测试版中提供了 100 万 token 上下文

基准测试得分详情
Terminal-Bench 2.0SOTA最高 agentic coding 得分
Humanity’s Last ExamSOTA多学科推理
GDPval-AA+144 Elo vs GPT-5.2专业工作(金融、法律)
BrowseCompSOTA复杂信息检索
MRCR v2 (8-needle 1M)76%对比 Sonnet 4.5 的 18.5%

API 和产品新功能

功能描述
Agent teams并行多个 Claude Code 代理(研究预览)
Adaptive thinking模型选择何时使用深度思考
Effort controls4 个级别:低、中、高(默认)、最大
Context compaction长会话的自动上下文摘要
128k output tokens单个请求中的更长输出
Claude in PowerPoint研究预览(Max, Team, Enterprise)

定价: 保持不变,每百万 token 5/5/25(输入/输出)。超过 200k token 的溢价定价(10/10/37.50)。

可用性: claude.ai,API (claude-opus-4-6),以及所有主要云平台。

工程博客:基础设施噪声和 C 编译器

Anthropic 在同一天发布了两篇技术文章。第一篇量化了 agentic coding 基准测试中的基础设施噪声:在 Terminal-Bench 2.0 上,仅资源配置就可以在设置之间产生 6 个百分点的差距。第二篇记录了 16 个 Claude 代理并行使用 Rust 构建 C 编译器的过程:100,000 行代码,能够在 x86、ARM 和 RISC-V 上编译 Linux 6.9 内核,在大约 2,000 个 Claude Code 会话中完成,成本约为 $20,000。

GitHub Copilot 中的 Opus 4.6

同一天,在前一天宣布公开预览后,Claude Opus 4.6 通过 Agent HQ 在 GitHub Copilot 中正式发布(GA)。

🔗 Opus 4.6 公告 | 基础设施噪声 | 构建 C 编译器


GPT-5.3-Codex:编码前沿 + 专业知识

2 月 5 日 — OpenAI 推出了 GPT-5.3-Codex,它融合了 GPT-5.2-Codex 的编码性能和 GPT-5.2 的推理能力,整体速度提高了 25%

基准测试得分
SWE-Bench Pro (公开)56.8%
Terminal-Bench 2.077.3%
OSWorld-Verified64.7%
GDPval (胜或平)70.9%
Cybersecurity CTF77.6%
SWE-Lancer IC Diamond81.4%

GPT-5.3-Codex 是第一个为自身的创建做出贡献的模型:团队使用初步版本来调试训练、管理部署和分析测试结果。

超越代码

该模型生成演示文稿、电子表格、数据分析,并在桌面环境中处理生产力任务(OSWorld-Verified 上为 64.7%)。

网络安全:高能力

GPT-5.3-Codex 是第一个在 OpenAI 准备框架下被评为网络安全 高能力 (High Capability) 的模型,也是第一个专门训练用于识别软件漏洞的模型。

🔗 GPT-5.3-Codex 博客 | System Card


OpenAI:Frontier、MCP Apps、安全和生物技术

OpenAI Frontier:企业代理平台

2 月 5 日 — OpenAI 推出了 Frontier,这是一个用于在企业中开发、部署和管理 AI 代理的平台。代理接收共享的业务上下文、权限,并从经验中学习。

方面详情
首批客户HP, Intuit, Oracle, State Farm, Thermo Fisher, Uber
AI 合作伙伴Abridge, Clay, Ambience, Decagon, Harvey, Sierra
方法融入团队的前沿部署工程师 (FDE)
标准开放标准,兼容现有系统

ChatGPT:MCP Apps 测试版

2 月 5 日MCP Apps 在 ChatGPT Business、Enterprise 和 Edu 中推出测试版。新的合作伙伴连接器:Amplitude, Fireflies, Vercel, Monday.com, Stripe, Hex, Egnyte 等。组织可以通过开发者模式构建自定义 MCP 应用程序。

Trusted Access for Cyber

2 月 5 日 — OpenAI 推出了 Trusted Access for Cyber,这是一个针对高级网络功能的基于信任的访问试点计划。用户可以在 chatgpt.com/cyber 上验证身份。通过网络安全资助计划(Cybersecurity Grant Program),1000 万美元的 API 积分被分配用于网络防御。

GPT-5 降低蛋白质合成成本

2 月 5 日 — 通过与 Ginkgo Bioworks 合作,OpenAI 将 GPT-5 连接到机器人实验室以优化无细胞蛋白质合成 (CFPS)。结果:在六轮实验中,在 580 个自动化板上测试了 36,000 种组合后,生产成本降低了 40%,试剂成本改善了 57%

🔗 OpenAI Frontier | MCP Apps | Trusted Access for Cyber | GPT-5 蛋白质


Google:Gemini 3、超级碗和 NotebookLM

Gemini 3:更新和超级碗

2 月 5-6 日 — Google 在各个方面都在推广 Gemini 3。最近推出的 Gemini 3 Flash 以 Flash 的速度提供 Pro 级的推理:在 GPQA Diamond 上为 90.4%,在 Humanity’s Last Exam 上为 33.7%(无工具)。Gemini 3 成为 Google 搜索中 AI Overviews 的默认模型。

Google 还为 第 60 届超级碗(2 月 8 日)准备了一则 60 秒的 Gemini 广告 —— “New Home” 广告展示了一个孩子在 Gemini 的帮助下准备搬家,演示了 Google 相册中的搜索功能和图像生成。

NotebookLM:信息图表和幻灯片

现在基于 Gemini 3 构建的 NotebookLM 为免费和 Pro 用户推出了 信息图表和幻灯片 (Infographics and Slide Decks)。幻灯片已经是第二受欢迎的输出工作室。Ultra 用户可以去除水印。

🔗 Gemini 3 Flash | Gemini 3 App | NotebookLM Infographics


GitHub:Issues 上的固定评论

2 月 5 日 — GitHub 在 Issues 上推出了 固定评论 (pinned comments)。现在可以从上下文菜单将评论固定在 issue 的顶部。这是一个自 2017 年以来一直被要求的功能,用于在长线程中突出显示决定、更新和关键的后续步骤。

🔗 更新日志


这意味着什么

2026 年 2 月 5 日将成为一个值得纪念的日子:Anthropic 和 OpenAI 同时推出了他们最先进的编码模型。Claude Opus 4.6 在专业工作和信息检索基准测试中占据主导地位,而 GPT-5.3-Codex 在终端编码和计算机使用方面表现出色。这两个模型都在 Terminal-Bench 2.0 上声称达到了 SOTA(State Of The Art)—— Anthropic 关于基础设施噪声的文章完全讲得通。

除了模型之外,平台之战也在加剧:OpenAI Frontier 通过部署在 Oracle 和 Uber 的代理进攻企业市场,而 Anthropic 则押注于开发者生态系统(GitHub, Xcode, Claude Code)。Google 在搜索、Chrome 和 NotebookLM 中凭借 Gemini 3 全面推进,并准备利用超级碗将 Gemini 植入主流。


来源