搜索

GPT-5.4 原生 computer use、NotebookLM 电影式视频、Codex 登陆 Windows

GPT-5.4 原生 computer use、NotebookLM 电影式视频、Codex 登陆 Windows

这一周以若干重要公告收尾:OpenAI 的 GPT-5.4 巩固了原生 computer use,OSWorld 得分 75%,上下文窗口扩展到一百万 tokens;NotebookLM 推出由 Gemini 担任“导演”的 Cinematic Video Overviews;Codex 将支持 Windows 并提供原生的代理沙箱(sandbox)。在开发者工具方面,Anthropic 改进了 skill-creator 并在 Claude Code 中推出 HTTP hooks,GitHub 将 Copilot Memory 对 Pro 用户默认开启。


2026 年 3 月 5 日 — OpenAI 推出 GPT-5.4,面向专业工作的前沿模型。该模型在 ChatGPT 中以 GPT-5.4 Thinking 名义提供,亦可通过 API(标识 gpt-5.4)及在 Codex 中使用,它在单一架构内整合了此前模型的推理、编程与 agentic workflows 能力。

最显著的技术新功能是原生的 computer use:GPT-5.4 能通过屏幕截图和键盘/鼠标操作直接操纵图形界面,无需第三方插件。在用于真实软件界面交互的基准 OSWorld-Verified 上,GPT-5.4 达到 75.0 %,而 GPT-5.2 为 47.3%。Codex 与 API 的上下文窗口扩展到 100 万 tokens

另一项重要改进是 tool search:模型不再在每次调用时接收完整的可用工具清单,而是先接收一个精简列表并按需检索工具。OpenAI 在多工具工作流(在 Scale MCP Atlas 上测试)中测得 token 消耗降低 47%。Codex 中的 /fast 模式在同等智能水平下速度提升 1.5 倍。

Benchmarks:

ÉvaluationGPT-5.4GPT-5.3-CodexGPT-5.2
GDPval (travail professionnel)83,0 %70,9 %70,9 %
SWE-Bench Pro57,7 %56,8 %55,6 %
OSWorld-Verified (computer use)75,0 %74,0 %47,3 %
BrowseComp (recherche web)82,7 %77,3 %65,8 %
Toolathlon (utilisation d’outils)54,6 %51,9 %46,3 %
ARC-AGI-2 (raisonnement abstrait)73,3 %52,9 %

API 价格:

模型输入输出
gpt-5.21.75 $ / M tokens14 $ / M tokens
gpt-5.42.50 $ / M tokens15 $ / M tokens
gpt-5.2-pro21 $ / M tokens168 $ / M tokens
gpt-5.4-pro30 $ / M tokens180 $ / M tokens

GPT-5.4 Thinking 自即日起对 ChatGPT Plus、Team 与 Pro 订阅用户开放。GPT-5.2 Thinking 将作为 “Legacy Models” 保持可用至 2026 年 6 月 5 日。在安全性方面,OpenAI 将 GPT-5.4 列为其 Preparedness Framework 中的 “High cyber capability”。公司同时发布了开源评估套件 CoT-Control,用于衡量 13 个 frontier 模型的 chain-of-thought 可控性——得分偏低(0.1% 至 15.4%),表明对思维链的监控仍是一个可靠的安全工具。

🔗 介绍 GPT-5.4 | OpenAI


NotebookLM — Cinematic Video Overviews

2026 年 3 月 4 日 — NotebookLM 在其 Studio 中推出 Cinematic Video Overviews。这类视频超越了 2024 年推出的 Audio Overviews(播客格式)和标准视频模板。

其工作原理:将 Gemini 定位为“导演”。模型分析用户来源材料,决定最合适的格式(教程、纪录片等)、选择视觉风格、生成画面,然后自我批评以改进并产出最终版本。结果是一段沉浸式、个性化的视频,对每组来源材料都是唯一的。

该功能自 2026 年 3 月 4 日起对 Google AI Ultra 订阅用户开放,语言为英语。当天确认已对所有 Ultra 用户完成部署。后续产品路线图计划向 Pro 用户开放,但未给出明确时间表。该条发布在 X 上的推文获得了 300 万次观看。

🔗 NotebookLM 在 X 的公告


OpenAI — Codex 登陆 Windows、CoT-Control 研究

Codex 在 Windows 上可用

2026 年 3 月 4 日 — Codex 应用现已在 Windows 平台提供,包含原生的代理沙箱并支持通过 PowerShell 的 Windows 开发环境。新增两项 skill:$aspnet-core 面向 Blazor、ASP.NET MVC 与 Razor Pages 应用;$winui-app 面向使用 WinUI 3 的原生 Windows 应用。

🔗 @OpenAIDevs 在 X

研究 — 思维链的可控性

2026 年 3 月 5 日 — OpenAI 发布《Reasoning models struggle to control their chains of thought, and that’s good》(译:推理模型难以控制其思维链,但这是件好事)。开源评估套件 CoT-Control 测量了 13 个 frontier 模型的 chain-of-thought 可控性,得分在 0.1% 到 15.4% 之间,表明当前模型难以有意改变其推理以规避监控系统——这一结果被视为对安全有利。OpenAI 计划将这些指标纳入未来模型的 system cards。

🔗 CoT-Control 研究 | OpenAI


Anthropic — Skill-creator 与 HTTP hooks

Skill-creator 改进

2026 年 3 月 3 日 — Anthropic 发布了其 skill-creator 工具的重大更新,覆盖 Claude Code 与 Claude.ai。公告引入了两种正式的 Agent Skills 类型:

类型描述持久性
Capability uplift帮助 Claude 做一些其当前尚未擅长的任务随模型能力提升可能会失效
Encoded preference将团队的流程和偏好编码进去持久,取决于与实际工作流的一致性

新功能包括:用于验证技能产出是否符合预期的 evals(自动化测试)、用于测量成功率、耗时与 token 消耗的 benchmark 模式、以及支持在并行环境下执行评估而避免测试间交叉污染的多 agent 支持。另有 A/B 比较器模式可用于对比两个技能版本。skill-creator 已在 Claude.ai 与 Cowork 可用;在 Claude Code 中以 plugin 形式安装。

🔗 Improving skill-creator: Test, measure, and refine Agent Skills

Claude Code 的 HTTP hooks

2026 年 3 月 4 日 — Claude Code 推出 HTTP hooks,作为现有命令 hooks(command hooks)的替代方案。Claude Code 不再执行本地 shell 脚本,而是向用户指定的 URL 发送事件并等待响应。典型用例包括:构建用于可视化进度的 web 应用、管理权限,或通过数据库在多个 Claude Code 实例间同步状态。HTTP hooks 可在插件、自定义 agent 及企业托管设置中使用。

🔗 推文 @dickson_tsai


Gemini CLI v0.32.0 — 默认启用 Generalist Agent

2026 年 3 月 3 日 — Gemini CLI 0.32.0 版本默认启用了 Generalist Agent,以改进任务委派与路由。更新还在 workspace 中引入了 Model Steering 控制,对 Plan Mode 做出改进(在外部编辑器中打开与修改计划、对复杂任务支持多选管理)、在 shell 中提供交互式自动补全,并并行加载扩展以改善启动性能。

🔗 Gemini CLI 更新日志


GitHub Copilot — Memory 默认启用、移动端与指标

Copilot Memory 默认开启

2026 年 3 月 4 日 — GitHub 将 Copilot Memory 对所有 Pro 与 Pro+ 计划用户默认启用。此前该功能为自愿订阅的预览功能,允许 Copilot 在仓库级别保留持久信息:编码约定、架构模式、关键依赖项等。

这些记忆被严格限制在单个仓库,并在应用前与当前代码验证以避免使用过时上下文。记忆会在 28 天后自动过期。该功能在编码代理、代码审查与 Copilot CLI 中生效——由代理发现的知识会立即对其他使用者可见。用户可在设置中关闭 Copilot Memory(Settings > Features > Copilot Memory);Enterprise 管理员保留完全控制权。

🔗 Copilot Memory now on by default for Pro and Pro+ users

GitHub Mobile 中的 agent 实时通知

2026 年 3 月 4 日 — GitHub Mobile 为 Copilot agent 会话引入了实时通知。开发者能够跟踪其 agent 的进度,无论会话是从电脑还是手机发起。

🔗 GitHub Mobile | X 上的公告

Copilot Free Auto 中的 Grok Code Fast 1

2026 年 3 月 4 日 — GitHub 将 xAI 的 Grok Code Fast 1 纳入 Copilot Free 的自动模型选择(Auto)。在 Visual Studio Code、Visual Studio、JetBrains IDEs、Xcode 和 Eclipse 的聊天会话中,Copilot 可自动选择该模型。

🔗 Grok Code Fast 1 已加入 Copilot Free 自动模型选择

面向用户的 Copilot CLI 指标

2026 年 3 月 5 日 — GitHub 将 Copilot 使用指标扩展到用户级别的 CLI 活动。这一更新继上周的企业级发布之后,管理员现在可以识别 CLI 上的活跃用户、查看请求与会话数量,并跟踪按用户划分的 token 消耗。

🔗 Copilot 使用指标 — 用户级 CLI 活动


Perplexity — GPT-5.4 与 Computer 的 Voice Mode

Perplexity 上可用的 GPT-5.4 Thinking

2026 年 3 月 5 日 — GPT-5.4 与 GPT-5.4 Thinking 已在 Perplexity 向 Pro 与 Max 订阅者开放。Thinking 版本启用了 GPT-5.4 的扩展推理,以便对复杂查询给出更深入的回答。

🔗 X 上的公告

Perplexity Computer 的 Voice Mode

2026 年 3 月 4 日 — Perplexity 在 Perplexity Computer 中引入了 Voice Mode。此前该界面已支持搜索、编码与部署项目,现可直接接受语音指令。

🔗 X 上的公告


Cohere × Aston Martin F1 — 多年期合作

2026 年 3 月 4 日 — Cohere 宣布与 Aston Martin Aramco F1 达成多年合作。车队每位成员都将能访问 Cohere 的企业级模型与 agentic 平台(North),在全球体育最严苛的数据环境之一中工作。Cohere 的标识将从 2026 年澳大利亚大奖赛开始出现在赛车上。

🔗 Cohere 在 X 的公告


Black Forest Labs — Self-Flow,多模态研究

2026 年 3 月 4 日 — Black Forest Labs(FLUX 的创造者)以 research preview 形式发布 Self-Flow。该方法可在不依赖外部表示模型的情况下训练生成式多模态模型(图像、视频、音频、文本),采用自监督的 flow matching 方法。

展示结果包括:跨模态收敛速度提升至最多 2.8×、视频时间一致性更好、排版呈现更清晰。演示包含一个在 6M 视频上训练的 4B 参数视频模型、一个在 2 亿张图片上训练的 4B 参数图像模型,以及一个音视频联合模型。BFL 将 Self-Flow 视为迈向 world models 的一条路径:“Self-Flow opens a path toward world models: combining visual scalability with semantic abstraction for planning and understanding.”

🔗 推文 @bfl_ml


简讯

Runway3 月 3 日 推出了一个 统一模型中心(hub),在平台内集中接入第三方的图像、视频、音频与语言模型。🔗 公告

Claude 于 3 月 5 日同时在 14 个国家 的 iOS App Store 排名第一——澳大利亚、奥地利、比利时、加拿大、法国、德国、爱尔兰、意大利、新西兰、挪威、新加坡、瑞士、英国与美国。🔗 推文

Manus 在 3 月 5 日发布了其 周年信(成立一周年),分享了用户故事(包括一位母亲、86 岁语言学家与一位花店老板)。🔗 周年信

Grok 在美国 App Store 达成了 一百万条评价 的里程碑。🔗 推文 @grok


意味着什么

GPT-5.4 证明 computer use 已从实验阶段转向集成化功能,体现在 OSWorld-Verified 的 75% 得分与通过 tool search 实现的 47% token 降幅,这些都是范式转变的量化证据:AI agent 现在能够在无需专用基础设施的情况下操作复杂的软件界面。

在开发者工具生态中,本周显示出收敛趋势:Anthropic 改进了测试与监督 agent skills 的方式,GitHub 为其编码 agent 启用了持久记忆,Perplexity 为其 Computer agent 添加了语音交互。agentic runtimes 逐步引入记忆层、可观测性(HTTP hooks、移动通知)与更自然的交互(语音)。

NotebookLM 的 Cinematic Video Overviews 展示了另一条路线:基于个人来源材料生成长格式教学内容。将 Gemini 置为“导演”——分析、批评、重组——体现了将 AI 用作创意生产元工具的用法,而非仅仅是生成助手。


来源 - 推出 GPT-5.4 | OpenAI

本文件使用模型 gpt-5-mini 将 fr 版本翻译为 zh 语言。有关翻译过程的更多信息,请参见 https://gitlab.com/jls42/ai-powered-markdown-translator