巅峰双重发布:Anthropic 发布了具有 100 万 token 上下文和代理团队的 Claude Opus 4.6,而 OpenAI 则以 GPT-5.3-Codex 和企业平台作为回应。Google 在各个方面都在推广 Gemini 3,GitHub 终于回应了一个 8 年前的请求。
Claude Opus 4.6:Agentic coding SOTA 和 1M 上下文
2 月 5 日 — Anthropic 推出了 Claude Opus 4.6,这是其最智能模型的重大更新。该模型在规划、长会话、代码审查方面取得了进步,并且首次在 Opus 模型的测试版中提供了 100 万 token 上下文。
| 基准测试 | 得分 | 详情 |
|---|---|---|
| Terminal-Bench 2.0 | SOTA | 最高 agentic coding 得分 |
| Humanity’s Last Exam | SOTA | 多学科推理 |
| GDPval-AA | +144 Elo vs GPT-5.2 | 专业工作(金融、法律) |
| BrowseComp | SOTA | 复杂信息检索 |
| MRCR v2 (8-needle 1M) | 76% | 对比 Sonnet 4.5 的 18.5% |
API 和产品新功能
| 功能 | 描述 |
|---|---|
| Agent teams | 并行多个 Claude Code 代理(研究预览) |
| Adaptive thinking | 模型选择何时使用深度思考 |
| Effort controls | 4 个级别:低、中、高(默认)、最大 |
| Context compaction | 长会话的自动上下文摘要 |
| 128k output tokens | 单个请求中的更长输出 |
| Claude in PowerPoint | 研究预览(Max, Team, Enterprise) |
定价: 保持不变,每百万 token 25(输入/输出)。超过 200k token 的溢价定价(37.50)。
可用性: claude.ai,API (claude-opus-4-6),以及所有主要云平台。
工程博客:基础设施噪声和 C 编译器
Anthropic 在同一天发布了两篇技术文章。第一篇量化了 agentic coding 基准测试中的基础设施噪声:在 Terminal-Bench 2.0 上,仅资源配置就可以在设置之间产生 6 个百分点的差距。第二篇记录了 16 个 Claude 代理并行使用 Rust 构建 C 编译器的过程:100,000 行代码,能够在 x86、ARM 和 RISC-V 上编译 Linux 6.9 内核,在大约 2,000 个 Claude Code 会话中完成,成本约为 $20,000。
GitHub Copilot 中的 Opus 4.6
同一天,在前一天宣布公开预览后,Claude Opus 4.6 通过 Agent HQ 在 GitHub Copilot 中正式发布(GA)。
🔗 Opus 4.6 公告 | 基础设施噪声 | 构建 C 编译器
GPT-5.3-Codex:编码前沿 + 专业知识
2 月 5 日 — OpenAI 推出了 GPT-5.3-Codex,它融合了 GPT-5.2-Codex 的编码性能和 GPT-5.2 的推理能力,整体速度提高了 25%。
| 基准测试 | 得分 |
|---|---|
| SWE-Bench Pro (公开) | 56.8% |
| Terminal-Bench 2.0 | 77.3% |
| OSWorld-Verified | 64.7% |
| GDPval (胜或平) | 70.9% |
| Cybersecurity CTF | 77.6% |
| SWE-Lancer IC Diamond | 81.4% |
GPT-5.3-Codex 是第一个为自身的创建做出贡献的模型:团队使用初步版本来调试训练、管理部署和分析测试结果。
超越代码
该模型生成演示文稿、电子表格、数据分析,并在桌面环境中处理生产力任务(OSWorld-Verified 上为 64.7%)。
网络安全:高能力
GPT-5.3-Codex 是第一个在 OpenAI 准备框架下被评为网络安全 高能力 (High Capability) 的模型,也是第一个专门训练用于识别软件漏洞的模型。
🔗 GPT-5.3-Codex 博客 | System Card
OpenAI:Frontier、MCP Apps、安全和生物技术
OpenAI Frontier:企业代理平台
2 月 5 日 — OpenAI 推出了 Frontier,这是一个用于在企业中开发、部署和管理 AI 代理的平台。代理接收共享的业务上下文、权限,并从经验中学习。
| 方面 | 详情 |
|---|---|
| 首批客户 | HP, Intuit, Oracle, State Farm, Thermo Fisher, Uber |
| AI 合作伙伴 | Abridge, Clay, Ambience, Decagon, Harvey, Sierra |
| 方法 | 融入团队的前沿部署工程师 (FDE) |
| 标准 | 开放标准,兼容现有系统 |
ChatGPT:MCP Apps 测试版
2 月 5 日 — MCP Apps 在 ChatGPT Business、Enterprise 和 Edu 中推出测试版。新的合作伙伴连接器:Amplitude, Fireflies, Vercel, Monday.com, Stripe, Hex, Egnyte 等。组织可以通过开发者模式构建自定义 MCP 应用程序。
Trusted Access for Cyber
2 月 5 日 — OpenAI 推出了 Trusted Access for Cyber,这是一个针对高级网络功能的基于信任的访问试点计划。用户可以在 chatgpt.com/cyber 上验证身份。通过网络安全资助计划(Cybersecurity Grant Program),1000 万美元的 API 积分被分配用于网络防御。
GPT-5 降低蛋白质合成成本
2 月 5 日 — 通过与 Ginkgo Bioworks 合作,OpenAI 将 GPT-5 连接到机器人实验室以优化无细胞蛋白质合成 (CFPS)。结果:在六轮实验中,在 580 个自动化板上测试了 36,000 种组合后,生产成本降低了 40%,试剂成本改善了 57%。
🔗 OpenAI Frontier | MCP Apps | Trusted Access for Cyber | GPT-5 蛋白质
Google:Gemini 3、超级碗和 NotebookLM
Gemini 3:更新和超级碗
2 月 5-6 日 — Google 在各个方面都在推广 Gemini 3。最近推出的 Gemini 3 Flash 以 Flash 的速度提供 Pro 级的推理:在 GPQA Diamond 上为 90.4%,在 Humanity’s Last Exam 上为 33.7%(无工具)。Gemini 3 成为 Google 搜索中 AI Overviews 的默认模型。
Google 还为 第 60 届超级碗(2 月 8 日)准备了一则 60 秒的 Gemini 广告 —— “New Home” 广告展示了一个孩子在 Gemini 的帮助下准备搬家,演示了 Google 相册中的搜索功能和图像生成。
NotebookLM:信息图表和幻灯片
现在基于 Gemini 3 构建的 NotebookLM 为免费和 Pro 用户推出了 信息图表和幻灯片 (Infographics and Slide Decks)。幻灯片已经是第二受欢迎的输出工作室。Ultra 用户可以去除水印。
🔗 Gemini 3 Flash | Gemini 3 App | NotebookLM Infographics
GitHub:Issues 上的固定评论
2 月 5 日 — GitHub 在 Issues 上推出了 固定评论 (pinned comments)。现在可以从上下文菜单将评论固定在 issue 的顶部。这是一个自 2017 年以来一直被要求的功能,用于在长线程中突出显示决定、更新和关键的后续步骤。
🔗 更新日志
这意味着什么
2026 年 2 月 5 日将成为一个值得纪念的日子:Anthropic 和 OpenAI 同时推出了他们最先进的编码模型。Claude Opus 4.6 在专业工作和信息检索基准测试中占据主导地位,而 GPT-5.3-Codex 在终端编码和计算机使用方面表现出色。这两个模型都在 Terminal-Bench 2.0 上声称达到了 SOTA(State Of The Art)—— Anthropic 关于基础设施噪声的文章完全讲得通。
除了模型之外,平台之战也在加剧:OpenAI Frontier 通过部署在 Oracle 和 Uber 的代理进攻企业市场,而 Anthropic 则押注于开发者生态系统(GitHub, Xcode, Claude Code)。Google 在搜索、Chrome 和 NotebookLM 中凭借 Gemini 3 全面推进,并准备利用超级碗将 Gemini 植入主流。
来源
- Introducing Claude Opus 4.6
- Quantifying infrastructure noise
- Building a C compiler with parallel Claudes
- Introducing GPT-5.3-Codex
- GPT-5.3-Codex System Card
- Introducing OpenAI Frontier
- Introducing apps in ChatGPT
- Trusted Access for Cyber
- GPT-5 lowers protein synthesis cost
- Gemini 3 Flash
- NotebookLM Infographics
- Pinned comments on GitHub Issues