GPT-5.4 原生 computer use、NotebookLM 电影式视频、Codex 登陆 Windows

这一周以若干重要公告收尾：OpenAI 的 GPT-5.4 巩固了原生 computer use，OSWorld 得分 75%，上下文窗口扩展到一百万 tokens；NotebookLM 推出由 Gemini 担任“导演”的 Cinematic Video Overviews；Codex 将支持 Windows 并提供原生的代理沙箱（sandbox）。在开发者工具方面，Anthropic 改进了 skill-creator 并在 Claude Code 中推出 HTTP hooks，GitHub 将 Copilot Memory 对 Pro 用户默认开启。

GPT-5.4 — 原生 computer use、1M tokens、tool search

2026 年 3 月 5 日 — OpenAI 推出 GPT-5.4，面向专业工作的前沿模型。该模型在 ChatGPT 中以 GPT-5.4 Thinking 名义提供，亦可通过 API（标识 gpt-5.4）及在 Codex 中使用，它在单一架构内整合了此前模型的推理、编程与 agentic workflows 能力。

最显著的技术新功能是原生的 computer use：GPT-5.4 能通过屏幕截图和键盘/鼠标操作直接操纵图形界面，无需第三方插件。在用于真实软件界面交互的基准 OSWorld-Verified 上，GPT-5.4 达到 75.0 %，而 GPT-5.2 为 47.3%。Codex 与 API 的上下文窗口扩展到 100 万 tokens。

另一项重要改进是 tool search：模型不再在每次调用时接收完整的可用工具清单，而是先接收一个精简列表并按需检索工具。OpenAI 在多工具工作流（在 Scale MCP Atlas 上测试）中测得 token 消耗降低 47%。Codex 中的 /fast 模式在同等智能水平下速度提升 1.5 倍。

Benchmarks：

Évaluation	GPT-5.4	GPT-5.3-Codex	GPT-5.2
GDPval (travail professionnel)	83,0 %	70,9 %	70,9 %
SWE-Bench Pro	57,7 %	56,8 %	55,6 %
OSWorld-Verified (computer use)	75,0 %	74,0 %	47,3 %
BrowseComp (recherche web)	82,7 %	77,3 %	65,8 %
Toolathlon (utilisation d’outils)	54,6 %	51,9 %	46,3 %
ARC-AGI-2 (raisonnement abstrait)	73,3 %	—	52,9 %

API 价格：

模型	输入	输出
gpt-5.2	1.75 $ / M tokens	14 $ / M tokens
gpt-5.4	2.50 $ / M tokens	15 $ / M tokens
gpt-5.2-pro	21 $ / M tokens	168 $ / M tokens
gpt-5.4-pro	30 $ / M tokens	180 $ / M tokens

GPT-5.4 Thinking 自即日起对 ChatGPT Plus、Team 与 Pro 订阅用户开放。GPT-5.2 Thinking 将作为 “Legacy Models” 保持可用至 2026 年 6 月 5 日。在安全性方面，OpenAI 将 GPT-5.4 列为其 Preparedness Framework 中的 “High cyber capability”。公司同时发布了开源评估套件 CoT-Control，用于衡量 13 个 frontier 模型的 chain-of-thought 可控性——得分偏低（0.1% 至 15.4%），表明对思维链的监控仍是一个可靠的安全工具。

🔗 介绍 GPT-5.4 | OpenAI

NotebookLM — Cinematic Video Overviews

2026 年 3 月 4 日 — NotebookLM 在其 Studio 中推出 Cinematic Video Overviews。这类视频超越了 2024 年推出的 Audio Overviews（播客格式）和标准视频模板。

其工作原理：将 Gemini 定位为“导演”。模型分析用户来源材料，决定最合适的格式（教程、纪录片等）、选择视觉风格、生成画面，然后自我批评以改进并产出最终版本。结果是一段沉浸式、个性化的视频，对每组来源材料都是唯一的。

该功能自 2026 年 3 月 4 日起对 Google AI Ultra 订阅用户开放，语言为英语。当天确认已对所有 Ultra 用户完成部署。后续产品路线图计划向 Pro 用户开放，但未给出明确时间表。该条发布在 X 上的推文获得了 300 万次观看。

🔗 NotebookLM 在 X 的公告

OpenAI — Codex 登陆 Windows、CoT-Control 研究

Codex 在 Windows 上可用

2026 年 3 月 4 日 — Codex 应用现已在 Windows 平台提供，包含原生的代理沙箱并支持通过 PowerShell 的 Windows 开发环境。新增两项 skill：$aspnet-core 面向 Blazor、ASP.NET MVC 与 Razor Pages 应用；$winui-app 面向使用 WinUI 3 的原生 Windows 应用。

🔗 @OpenAIDevs 在 X

研究 — 思维链的可控性

2026 年 3 月 5 日 — OpenAI 发布《Reasoning models struggle to control their chains of thought, and that’s good》（译：推理模型难以控制其思维链，但这是件好事）。开源评估套件 CoT-Control 测量了 13 个 frontier 模型的 chain-of-thought 可控性，得分在 0.1% 到 15.4% 之间，表明当前模型难以有意改变其推理以规避监控系统——这一结果被视为对安全有利。OpenAI 计划将这些指标纳入未来模型的 system cards。

🔗 CoT-Control 研究 | OpenAI

Anthropic — Skill-creator 与 HTTP hooks

Skill-creator 改进

2026 年 3 月 3 日 — Anthropic 发布了其 skill-creator 工具的重大更新，覆盖 Claude Code 与 Claude.ai。公告引入了两种正式的 Agent Skills 类型：

类型	描述	持久性
Capability uplift	帮助 Claude 做一些其当前尚未擅长的任务	随模型能力提升可能会失效
Encoded preference	将团队的流程和偏好编码进去	持久，取决于与实际工作流的一致性

新功能包括：用于验证技能产出是否符合预期的 evals（自动化测试）、用于测量成功率、耗时与 token 消耗的 benchmark 模式、以及支持在并行环境下执行评估而避免测试间交叉污染的多 agent 支持。另有 A/B 比较器模式可用于对比两个技能版本。skill-creator 已在 Claude.ai 与 Cowork 可用；在 Claude Code 中以 plugin 形式安装。

🔗 Improving skill-creator: Test, measure, and refine Agent Skills

Claude Code 的 HTTP hooks

2026 年 3 月 4 日 — Claude Code 推出 HTTP hooks，作为现有命令 hooks（command hooks）的替代方案。Claude Code 不再执行本地 shell 脚本，而是向用户指定的 URL 发送事件并等待响应。典型用例包括：构建用于可视化进度的 web 应用、管理权限，或通过数据库在多个 Claude Code 实例间同步状态。HTTP hooks 可在插件、自定义 agent 及企业托管设置中使用。

🔗 推文 @dickson_tsai

Gemini CLI v0.32.0 — 默认启用 Generalist Agent

2026 年 3 月 3 日 — Gemini CLI 0.32.0 版本默认启用了 Generalist Agent，以改进任务委派与路由。更新还在 workspace 中引入了 Model Steering 控制，对 Plan Mode 做出改进（在外部编辑器中打开与修改计划、对复杂任务支持多选管理）、在 shell 中提供交互式自动补全，并并行加载扩展以改善启动性能。

🔗 Gemini CLI 更新日志

GitHub Copilot — Memory 默认启用、移动端与指标

Copilot Memory 默认开启

2026 年 3 月 4 日 — GitHub 将 Copilot Memory 对所有 Pro 与 Pro+ 计划用户默认启用。此前该功能为自愿订阅的预览功能，允许 Copilot 在仓库级别保留持久信息：编码约定、架构模式、关键依赖项等。

这些记忆被严格限制在单个仓库，并在应用前与当前代码验证以避免使用过时上下文。记忆会在 28 天后自动过期。该功能在编码代理、代码审查与 Copilot CLI 中生效——由代理发现的知识会立即对其他使用者可见。用户可在设置中关闭 Copilot Memory（Settings > Features > Copilot Memory）；Enterprise 管理员保留完全控制权。

🔗 Copilot Memory now on by default for Pro and Pro+ users

GitHub Mobile 中的 agent 实时通知

2026 年 3 月 4 日 — GitHub Mobile 为 Copilot agent 会话引入了实时通知。开发者能够跟踪其 agent 的进度，无论会话是从电脑还是手机发起。

🔗 GitHub Mobile | X 上的公告

Copilot Free Auto 中的 Grok Code Fast 1

2026 年 3 月 4 日 — GitHub 将 xAI 的 Grok Code Fast 1 纳入 Copilot Free 的自动模型选择（Auto）。在 Visual Studio Code、Visual Studio、JetBrains IDEs、Xcode 和 Eclipse 的聊天会话中，Copilot 可自动选择该模型。

🔗 Grok Code Fast 1 已加入 Copilot Free 自动模型选择

面向用户的 Copilot CLI 指标

2026 年 3 月 5 日 — GitHub 将 Copilot 使用指标扩展到用户级别的 CLI 活动。这一更新继上周的企业级发布之后，管理员现在可以识别 CLI 上的活跃用户、查看请求与会话数量，并跟踪按用户划分的 token 消耗。

🔗 Copilot 使用指标 — 用户级 CLI 活动

Perplexity — GPT-5.4 与 Computer 的 Voice Mode

Perplexity 上可用的 GPT-5.4 Thinking

2026 年 3 月 5 日 — GPT-5.4 与 GPT-5.4 Thinking 已在 Perplexity 向 Pro 与 Max 订阅者开放。Thinking 版本启用了 GPT-5.4 的扩展推理，以便对复杂查询给出更深入的回答。

🔗 X 上的公告

Perplexity Computer 的 Voice Mode

2026 年 3 月 4 日 — Perplexity 在 Perplexity Computer 中引入了 Voice Mode。此前该界面已支持搜索、编码与部署项目，现可直接接受语音指令。

🔗 X 上的公告

Cohere × Aston Martin F1 — 多年期合作

2026 年 3 月 4 日 — Cohere 宣布与 Aston Martin Aramco F1 达成多年合作。车队每位成员都将能访问 Cohere 的企业级模型与 agentic 平台（North），在全球体育最严苛的数据环境之一中工作。Cohere 的标识将从 2026 年澳大利亚大奖赛开始出现在赛车上。

🔗 Cohere 在 X 的公告

Black Forest Labs — Self-Flow，多模态研究

2026 年 3 月 4 日 — Black Forest Labs（FLUX 的创造者）以 research preview 形式发布 Self-Flow。该方法可在不依赖外部表示模型的情况下训练生成式多模态模型（图像、视频、音频、文本），采用自监督的 flow matching 方法。

展示结果包括：跨模态收敛速度提升至最多 2.8×、视频时间一致性更好、排版呈现更清晰。演示包含一个在 6M 视频上训练的 4B 参数视频模型、一个在 2 亿张图片上训练的 4B 参数图像模型，以及一个音视频联合模型。BFL 将 Self-Flow 视为迈向 world models 的一条路径：“Self-Flow opens a path toward world models: combining visual scalability with semantic abstraction for planning and understanding.”

🔗 推文 @bfl_ml

简讯

Runway 于 3 月 3 日 推出了一个 统一模型中心（hub），在平台内集中接入第三方的图像、视频、音频与语言模型。🔗 公告

Claude 于 3 月 5 日同时在 14 个国家 的 iOS App Store 排名第一——澳大利亚、奥地利、比利时、加拿大、法国、德国、爱尔兰、意大利、新西兰、挪威、新加坡、瑞士、英国与美国。🔗 推文

Manus 在 3 月 5 日发布了其 周年信（成立一周年），分享了用户故事（包括一位母亲、86 岁语言学家与一位花店老板）。🔗 周年信

Grok 在美国 App Store 达成了 一百万条评价 的里程碑。🔗 推文 @grok

意味着什么

GPT-5.4 证明 computer use 已从实验阶段转向集成化功能，体现在 OSWorld-Verified 的 75% 得分与通过 tool search 实现的 47% token 降幅，这些都是范式转变的量化证据：AI agent 现在能够在无需专用基础设施的情况下操作复杂的软件界面。

在开发者工具生态中，本周显示出收敛趋势：Anthropic 改进了测试与监督 agent skills 的方式，GitHub 为其编码 agent 启用了持久记忆，Perplexity 为其 Computer agent 添加了语音交互。agentic runtimes 逐步引入记忆层、可观测性（HTTP hooks、移动通知）与更自然的交互（语音）。

NotebookLM 的 Cinematic Video Overviews 展示了另一条路线：基于个人来源材料生成长格式教学内容。将 Gemini 置为“导演”——分析、批评、重组——体现了将 AI 用作创意生产元工具的用法，而非仅仅是生成助手。

来源 - 推出 GPT-5.4 | OpenAI

本文件使用模型 gpt-5-mini 将 fr 版本翻译为 zh 语言。有关翻译过程的更多信息，请参见 https://gitlab.com/jls42/ai-powered-markdown-translator