这一周以若干重要公告收尾:OpenAI 的 GPT-5.4 巩固了原生 computer use,OSWorld 得分 75%,上下文窗口扩展到一百万 tokens;NotebookLM 推出由 Gemini 担任“导演”的 Cinematic Video Overviews;Codex 将支持 Windows 并提供原生的代理沙箱(sandbox)。在开发者工具方面,Anthropic 改进了 skill-creator 并在 Claude Code 中推出 HTTP hooks,GitHub 将 Copilot Memory 对 Pro 用户默认开启。
GPT-5.4 — 原生 computer use、1M tokens、tool search
2026 年 3 月 5 日 — OpenAI 推出 GPT-5.4,面向专业工作的前沿模型。该模型在 ChatGPT 中以 GPT-5.4 Thinking 名义提供,亦可通过 API(标识 gpt-5.4)及在 Codex 中使用,它在单一架构内整合了此前模型的推理、编程与 agentic workflows 能力。
最显著的技术新功能是原生的 computer use:GPT-5.4 能通过屏幕截图和键盘/鼠标操作直接操纵图形界面,无需第三方插件。在用于真实软件界面交互的基准 OSWorld-Verified 上,GPT-5.4 达到 75.0 %,而 GPT-5.2 为 47.3%。Codex 与 API 的上下文窗口扩展到 100 万 tokens。
另一项重要改进是 tool search:模型不再在每次调用时接收完整的可用工具清单,而是先接收一个精简列表并按需检索工具。OpenAI 在多工具工作流(在 Scale MCP Atlas 上测试)中测得 token 消耗降低 47%。Codex 中的 /fast 模式在同等智能水平下速度提升 1.5 倍。
Benchmarks:
| Évaluation | GPT-5.4 | GPT-5.3-Codex | GPT-5.2 |
|---|---|---|---|
| GDPval (travail professionnel) | 83,0 % | 70,9 % | 70,9 % |
| SWE-Bench Pro | 57,7 % | 56,8 % | 55,6 % |
| OSWorld-Verified (computer use) | 75,0 % | 74,0 % | 47,3 % |
| BrowseComp (recherche web) | 82,7 % | 77,3 % | 65,8 % |
| Toolathlon (utilisation d’outils) | 54,6 % | 51,9 % | 46,3 % |
| ARC-AGI-2 (raisonnement abstrait) | 73,3 % | — | 52,9 % |
API 价格:
| 模型 | 输入 | 输出 |
|---|---|---|
| gpt-5.2 | 1.75 $ / M tokens | 14 $ / M tokens |
| gpt-5.4 | 2.50 $ / M tokens | 15 $ / M tokens |
| gpt-5.2-pro | 21 $ / M tokens | 168 $ / M tokens |
| gpt-5.4-pro | 30 $ / M tokens | 180 $ / M tokens |
GPT-5.4 Thinking 自即日起对 ChatGPT Plus、Team 与 Pro 订阅用户开放。GPT-5.2 Thinking 将作为 “Legacy Models” 保持可用至 2026 年 6 月 5 日。在安全性方面,OpenAI 将 GPT-5.4 列为其 Preparedness Framework 中的 “High cyber capability”。公司同时发布了开源评估套件 CoT-Control,用于衡量 13 个 frontier 模型的 chain-of-thought 可控性——得分偏低(0.1% 至 15.4%),表明对思维链的监控仍是一个可靠的安全工具。
NotebookLM — Cinematic Video Overviews
2026 年 3 月 4 日 — NotebookLM 在其 Studio 中推出 Cinematic Video Overviews。这类视频超越了 2024 年推出的 Audio Overviews(播客格式)和标准视频模板。
其工作原理:将 Gemini 定位为“导演”。模型分析用户来源材料,决定最合适的格式(教程、纪录片等)、选择视觉风格、生成画面,然后自我批评以改进并产出最终版本。结果是一段沉浸式、个性化的视频,对每组来源材料都是唯一的。
该功能自 2026 年 3 月 4 日起对 Google AI Ultra 订阅用户开放,语言为英语。当天确认已对所有 Ultra 用户完成部署。后续产品路线图计划向 Pro 用户开放,但未给出明确时间表。该条发布在 X 上的推文获得了 300 万次观看。
OpenAI — Codex 登陆 Windows、CoT-Control 研究
Codex 在 Windows 上可用
2026 年 3 月 4 日 — Codex 应用现已在 Windows 平台提供,包含原生的代理沙箱并支持通过 PowerShell 的 Windows 开发环境。新增两项 skill:$aspnet-core 面向 Blazor、ASP.NET MVC 与 Razor Pages 应用;$winui-app 面向使用 WinUI 3 的原生 Windows 应用。
研究 — 思维链的可控性
2026 年 3 月 5 日 — OpenAI 发布《Reasoning models struggle to control their chains of thought, and that’s good》(译:推理模型难以控制其思维链,但这是件好事)。开源评估套件 CoT-Control 测量了 13 个 frontier 模型的 chain-of-thought 可控性,得分在 0.1% 到 15.4% 之间,表明当前模型难以有意改变其推理以规避监控系统——这一结果被视为对安全有利。OpenAI 计划将这些指标纳入未来模型的 system cards。
Anthropic — Skill-creator 与 HTTP hooks
Skill-creator 改进
2026 年 3 月 3 日 — Anthropic 发布了其 skill-creator 工具的重大更新,覆盖 Claude Code 与 Claude.ai。公告引入了两种正式的 Agent Skills 类型:
| 类型 | 描述 | 持久性 |
|---|---|---|
| Capability uplift | 帮助 Claude 做一些其当前尚未擅长的任务 | 随模型能力提升可能会失效 |
| Encoded preference | 将团队的流程和偏好编码进去 | 持久,取决于与实际工作流的一致性 |
新功能包括:用于验证技能产出是否符合预期的 evals(自动化测试)、用于测量成功率、耗时与 token 消耗的 benchmark 模式、以及支持在并行环境下执行评估而避免测试间交叉污染的多 agent 支持。另有 A/B 比较器模式可用于对比两个技能版本。skill-creator 已在 Claude.ai 与 Cowork 可用;在 Claude Code 中以 plugin 形式安装。
🔗 Improving skill-creator: Test, measure, and refine Agent Skills
Claude Code 的 HTTP hooks
2026 年 3 月 4 日 — Claude Code 推出 HTTP hooks,作为现有命令 hooks(command hooks)的替代方案。Claude Code 不再执行本地 shell 脚本,而是向用户指定的 URL 发送事件并等待响应。典型用例包括:构建用于可视化进度的 web 应用、管理权限,或通过数据库在多个 Claude Code 实例间同步状态。HTTP hooks 可在插件、自定义 agent 及企业托管设置中使用。
Gemini CLI v0.32.0 — 默认启用 Generalist Agent
2026 年 3 月 3 日 — Gemini CLI 0.32.0 版本默认启用了 Generalist Agent,以改进任务委派与路由。更新还在 workspace 中引入了 Model Steering 控制,对 Plan Mode 做出改进(在外部编辑器中打开与修改计划、对复杂任务支持多选管理)、在 shell 中提供交互式自动补全,并并行加载扩展以改善启动性能。
GitHub Copilot — Memory 默认启用、移动端与指标
Copilot Memory 默认开启
2026 年 3 月 4 日 — GitHub 将 Copilot Memory 对所有 Pro 与 Pro+ 计划用户默认启用。此前该功能为自愿订阅的预览功能,允许 Copilot 在仓库级别保留持久信息:编码约定、架构模式、关键依赖项等。
这些记忆被严格限制在单个仓库,并在应用前与当前代码验证以避免使用过时上下文。记忆会在 28 天后自动过期。该功能在编码代理、代码审查与 Copilot CLI 中生效——由代理发现的知识会立即对其他使用者可见。用户可在设置中关闭 Copilot Memory(Settings > Features > Copilot Memory);Enterprise 管理员保留完全控制权。
🔗 Copilot Memory now on by default for Pro and Pro+ users
GitHub Mobile 中的 agent 实时通知
2026 年 3 月 4 日 — GitHub Mobile 为 Copilot agent 会话引入了实时通知。开发者能够跟踪其 agent 的进度,无论会话是从电脑还是手机发起。
🔗 GitHub Mobile | X 上的公告
Copilot Free Auto 中的 Grok Code Fast 1
2026 年 3 月 4 日 — GitHub 将 xAI 的 Grok Code Fast 1 纳入 Copilot Free 的自动模型选择(Auto)。在 Visual Studio Code、Visual Studio、JetBrains IDEs、Xcode 和 Eclipse 的聊天会话中,Copilot 可自动选择该模型。
🔗 Grok Code Fast 1 已加入 Copilot Free 自动模型选择
面向用户的 Copilot CLI 指标
2026 年 3 月 5 日 — GitHub 将 Copilot 使用指标扩展到用户级别的 CLI 活动。这一更新继上周的企业级发布之后,管理员现在可以识别 CLI 上的活跃用户、查看请求与会话数量,并跟踪按用户划分的 token 消耗。
Perplexity — GPT-5.4 与 Computer 的 Voice Mode
Perplexity 上可用的 GPT-5.4 Thinking
2026 年 3 月 5 日 — GPT-5.4 与 GPT-5.4 Thinking 已在 Perplexity 向 Pro 与 Max 订阅者开放。Thinking 版本启用了 GPT-5.4 的扩展推理,以便对复杂查询给出更深入的回答。
🔗 X 上的公告
Perplexity Computer 的 Voice Mode
2026 年 3 月 4 日 — Perplexity 在 Perplexity Computer 中引入了 Voice Mode。此前该界面已支持搜索、编码与部署项目,现可直接接受语音指令。
🔗 X 上的公告
Cohere × Aston Martin F1 — 多年期合作
2026 年 3 月 4 日 — Cohere 宣布与 Aston Martin Aramco F1 达成多年合作。车队每位成员都将能访问 Cohere 的企业级模型与 agentic 平台(North),在全球体育最严苛的数据环境之一中工作。Cohere 的标识将从 2026 年澳大利亚大奖赛开始出现在赛车上。
Black Forest Labs — Self-Flow,多模态研究
2026 年 3 月 4 日 — Black Forest Labs(FLUX 的创造者)以 research preview 形式发布 Self-Flow。该方法可在不依赖外部表示模型的情况下训练生成式多模态模型(图像、视频、音频、文本),采用自监督的 flow matching 方法。
展示结果包括:跨模态收敛速度提升至最多 2.8×、视频时间一致性更好、排版呈现更清晰。演示包含一个在 6M 视频上训练的 4B 参数视频模型、一个在 2 亿张图片上训练的 4B 参数图像模型,以及一个音视频联合模型。BFL 将 Self-Flow 视为迈向 world models 的一条路径:“Self-Flow opens a path toward world models: combining visual scalability with semantic abstraction for planning and understanding.”
简讯
Runway 于 3 月 3 日 推出了一个 统一模型中心(hub),在平台内集中接入第三方的图像、视频、音频与语言模型。🔗 公告
Claude 于 3 月 5 日同时在 14 个国家 的 iOS App Store 排名第一——澳大利亚、奥地利、比利时、加拿大、法国、德国、爱尔兰、意大利、新西兰、挪威、新加坡、瑞士、英国与美国。🔗 推文
Manus 在 3 月 5 日发布了其 周年信(成立一周年),分享了用户故事(包括一位母亲、86 岁语言学家与一位花店老板)。🔗 周年信
Grok 在美国 App Store 达成了 一百万条评价 的里程碑。🔗 推文 @grok
意味着什么
GPT-5.4 证明 computer use 已从实验阶段转向集成化功能,体现在 OSWorld-Verified 的 75% 得分与通过 tool search 实现的 47% token 降幅,这些都是范式转变的量化证据:AI agent 现在能够在无需专用基础设施的情况下操作复杂的软件界面。
在开发者工具生态中,本周显示出收敛趋势:Anthropic 改进了测试与监督 agent skills 的方式,GitHub 为其编码 agent 启用了持久记忆,Perplexity 为其 Computer agent 添加了语音交互。agentic runtimes 逐步引入记忆层、可观测性(HTTP hooks、移动通知)与更自然的交互(语音)。
NotebookLM 的 Cinematic Video Overviews 展示了另一条路线:基于个人来源材料生成长格式教学内容。将 Gemini 置为“导演”——分析、批评、重组——体现了将 AI 用作创意生产元工具的用法,而非仅仅是生成助手。
来源 - 推出 GPT-5.4 | OpenAI
- @OpenAI 在 X 上
- @OpenAIDevs 在 X — Windows 版 Codex
- Codex 适用于 Windows | OpenAI Developers
- 推理模型 CoT-Control | OpenAI
- NotebookLM 在 X 上的公告
- 改进 skill-creator | Anthropic
- HTTP 钩子 Claude Code — @dickson_tsai
- Claude 在 App Store 排名第一 — @RyD0ne
- Gemini CLI 更新日志
- Copilot Memory 现在默认开启 | GitHub
- GitHub Mobile 实时代理通知
- Grok Code Fast 1 在 Copilot Free 自动模型选择中 | GitHub
- Copilot CLI 用户级别指标 | GitHub
- GPT-5.4 在 Perplexity 上
- Perplexity Computer 的语音模式
- Cohere × Aston Martin F1 合作
- BFL Self-Flow
- Runway Hub 多模型
- Manus 周年纪念信
- Grok 在 App Store 上获得 100 万条评论
本文件使用模型 gpt-5-mini 将 fr 版本翻译为 zh 语言。有关翻译过程的更多信息,请参见 https://gitlab.com/jls42/ai-powered-markdown-translator