Claude Opus 4.6 和 GPT-5.3-Codex：双重发布，Gemini 3 更新

巅峰双重发布：Anthropic 发布了具有 100 万 token 上下文和代理团队的 Claude Opus 4.6，而 OpenAI 则以 GPT-5.3-Codex 和企业平台作为回应。Google 在各个方面都在推广 Gemini 3，GitHub 终于回应了一个 8 年前的请求。

Claude Opus 4.6：Agentic coding SOTA 和 1M 上下文

2 月 5 日 — Anthropic 推出了 Claude Opus 4.6，这是其最智能模型的重大更新。该模型在规划、长会话、代码审查方面取得了进步，并且首次在 Opus 模型的测试版中提供了 100 万 token 上下文。

基准测试	得分	详情
Terminal-Bench 2.0	SOTA	最高 agentic coding 得分
Humanity’s Last Exam	SOTA	多学科推理
GDPval-AA	+144 Elo vs GPT-5.2	专业工作（金融、法律）
BrowseComp	SOTA	复杂信息检索
MRCR v2 (8-needle 1M)	76%	对比 Sonnet 4.5 的 18.5%

API 和产品新功能

功能	描述
Agent teams	并行多个 Claude Code 代理（研究预览）
Adaptive thinking	模型选择何时使用深度思考
Effort controls	4 个级别：低、中、高（默认）、最大
Context compaction	长会话的自动上下文摘要
128k output tokens	单个请求中的更长输出
Claude in PowerPoint	研究预览（Max, Team, Enterprise）

定价： 保持不变，每百万 token $5/$ 25（输入/输出）。超过 200k token 的溢价定价（ $10/$ 37.50）。

可用性： claude.ai，API (claude-opus-4-6)，以及所有主要云平台。

工程博客：基础设施噪声和 C 编译器

Anthropic 在同一天发布了两篇技术文章。第一篇量化了 agentic coding 基准测试中的基础设施噪声：在 Terminal-Bench 2.0 上，仅资源配置就可以在设置之间产生 6 个百分点的差距。第二篇记录了 16 个 Claude 代理并行使用 Rust 构建 C 编译器的过程：100,000 行代码，能够在 x86、ARM 和 RISC-V 上编译 Linux 6.9 内核，在大约 2,000 个 Claude Code 会话中完成，成本约为 $20,000。

GitHub Copilot 中的 Opus 4.6

同一天，在前一天宣布公开预览后，Claude Opus 4.6 通过 Agent HQ 在 GitHub Copilot 中正式发布（GA）。

🔗 Opus 4.6 公告 | 基础设施噪声 | 构建 C 编译器

GPT-5.3-Codex：编码前沿 + 专业知识

2 月 5 日 — OpenAI 推出了 GPT-5.3-Codex，它融合了 GPT-5.2-Codex 的编码性能和 GPT-5.2 的推理能力，整体速度提高了 25%。

基准测试	得分
SWE-Bench Pro (公开)	56.8%
Terminal-Bench 2.0	77.3%
OSWorld-Verified	64.7%
GDPval (胜或平)	70.9%
Cybersecurity CTF	77.6%
SWE-Lancer IC Diamond	81.4%

GPT-5.3-Codex 是第一个为自身的创建做出贡献的模型：团队使用初步版本来调试训练、管理部署和分析测试结果。

超越代码

该模型生成演示文稿、电子表格、数据分析，并在桌面环境中处理生产力任务（OSWorld-Verified 上为 64.7%）。

网络安全：高能力

GPT-5.3-Codex 是第一个在 OpenAI 准备框架下被评为网络安全 高能力 (High Capability) 的模型，也是第一个专门训练用于识别软件漏洞的模型。

🔗 GPT-5.3-Codex 博客 | System Card

OpenAI：Frontier、MCP Apps、安全和生物技术

OpenAI Frontier：企业代理平台

2 月 5 日 — OpenAI 推出了 Frontier，这是一个用于在企业中开发、部署和管理 AI 代理的平台。代理接收共享的业务上下文、权限，并从经验中学习。

方面	详情
首批客户	HP, Intuit, Oracle, State Farm, Thermo Fisher, Uber
AI 合作伙伴	Abridge, Clay, Ambience, Decagon, Harvey, Sierra
方法	融入团队的前沿部署工程师 (FDE)
标准	开放标准，兼容现有系统

ChatGPT：MCP Apps 测试版

2 月 5 日 — MCP Apps 在 ChatGPT Business、Enterprise 和 Edu 中推出测试版。新的合作伙伴连接器：Amplitude, Fireflies, Vercel, Monday.com, Stripe, Hex, Egnyte 等。组织可以通过开发者模式构建自定义 MCP 应用程序。

Trusted Access for Cyber

2 月 5 日 — OpenAI 推出了 Trusted Access for Cyber，这是一个针对高级网络功能的基于信任的访问试点计划。用户可以在 chatgpt.com/cyber 上验证身份。通过网络安全资助计划（Cybersecurity Grant Program），1000 万美元的 API 积分被分配用于网络防御。

GPT-5 降低蛋白质合成成本

2 月 5 日 — 通过与 Ginkgo Bioworks 合作，OpenAI 将 GPT-5 连接到机器人实验室以优化无细胞蛋白质合成 (CFPS)。结果：在六轮实验中，在 580 个自动化板上测试了 36,000 种组合后，生产成本降低了 40%，试剂成本改善了 57%。

🔗 OpenAI Frontier | MCP Apps | Trusted Access for Cyber | GPT-5 蛋白质

Google：Gemini 3、超级碗和 NotebookLM

Gemini 3：更新和超级碗

2 月 5-6 日 — Google 在各个方面都在推广 Gemini 3。最近推出的 Gemini 3 Flash 以 Flash 的速度提供 Pro 级的推理：在 GPQA Diamond 上为 90.4%，在 Humanity’s Last Exam 上为 33.7%（无工具）。Gemini 3 成为 Google 搜索中 AI Overviews 的默认模型。

Google 还为 第 60 届超级碗（2 月 8 日）准备了一则 60 秒的 Gemini 广告 —— “New Home” 广告展示了一个孩子在 Gemini 的帮助下准备搬家，演示了 Google 相册中的搜索功能和图像生成。

NotebookLM：信息图表和幻灯片

现在基于 Gemini 3 构建的 NotebookLM 为免费和 Pro 用户推出了 信息图表和幻灯片 (Infographics and Slide Decks)。幻灯片已经是第二受欢迎的输出工作室。Ultra 用户可以去除水印。

🔗 Gemini 3 Flash | Gemini 3 App | NotebookLM Infographics

GitHub：Issues 上的固定评论

2 月 5 日 — GitHub 在 Issues 上推出了 固定评论 (pinned comments)。现在可以从上下文菜单将评论固定在 issue 的顶部。这是一个自 2017 年以来一直被要求的功能，用于在长线程中突出显示决定、更新和关键的后续步骤。

🔗 更新日志

这意味着什么

2026 年 2 月 5 日将成为一个值得纪念的日子：Anthropic 和 OpenAI 同时推出了他们最先进的编码模型。Claude Opus 4.6 在专业工作和信息检索基准测试中占据主导地位，而 GPT-5.3-Codex 在终端编码和计算机使用方面表现出色。这两个模型都在 Terminal-Bench 2.0 上声称达到了 SOTA（State Of The Art）—— Anthropic 关于基础设施噪声的文章完全讲得通。

除了模型之外，平台之战也在加剧：OpenAI Frontier 通过部署在 Oracle 和 Uber 的代理进攻企业市场，而 Anthropic 则押注于开发者生态系统（GitHub, Xcode, Claude Code）。Google 在搜索、Chrome 和 NotebookLM 中凭借 Gemini 3 全面推进，并准备利用超级碗将 Gemini 植入主流。