搜索

OpenAI 推出 GPT-5.4 mini 和 nano,Mistral 加入 NVIDIA Nemotron 联盟,Perplexity Comet Enterprise 上线

OpenAI 推出 GPT-5.4 mini 和 nano,Mistral 加入 NVIDIA Nemotron 联盟,Perplexity Comet Enterprise 上线

2026年3月17日的焦点是 NVIDIA GTC 以及多项重大发布。OpenAI 发布了 GPT-5.4 mini 和 nano,这是其迄今最强大的紧凑型模型,在多个基准测试中已接近完整模型。NVIDIA Nemotron 联盟随着 Mistral AI 和 Perplexity 的加入而扩大。Perplexity 同时为企业版推出 Comet Enterprise,并提供完整的 MDM 治理;Claude Code v2.1.77 将 Opus 4.6 的生成上限翻倍;GitHub、Anthropic、Google 和 OpenAI 也联合出资 1250 万美元支持开源安全。


GPT-5.4 mini 和 nano:OpenAI 的紧凑型模型

3月17日 — OpenAI 推出 GPT-5.4 miniGPT-5.4 nano,这是其迄今最强大的紧凑型模型。这两个版本将 GPT-5.4 的能力带入为高吞吐工作负载优化的形态,具有更低延迟和更低成本。

GPT-5.4 mini 在代码、推理、多模态理解和工具使用方面显著提升了 GPT-5 mini,同时运行速度快了一倍多。它在多个关键评估上已接近完整的 GPT-5.4 模型,包括 SWE-Bench Pro 和 OSWorld-Verified。

GPT-5.4 nano 是 GPT-5.4 系列中最小、成本最低的版本,专为速度和成本优先的任务设计:分类、数据提取、排序以及简单的代码子代理。

评估GPT-5.4GPT-5.4 miniGPT-5.4 nanoGPT-5 mini
SWE-Bench Pro (public)57,7 %54,4 %52,4 %45,7 %
Terminal-Bench 2.075,1 %60,0 %46,3 %38,2 %
Toolathlon54,6 %42,9 %35,5 %26,9 %
GPQA Diamond93,0 %88,0 %82,8 %81,6 %
OSWorld-Verified75,0 %72,1 %39,0 %42,0 %

使用场景分为三类:代码助手(GPT-5.4 mini 在快速编码工作流、调试循环、前端生成方面表现出色)、子代理(在 Codex 中,GPT-5.4 可以仅使用 GPT-5.4 配额的 30% 将子任务委派给 GPT-5.4 mini),以及 界面控制computer use),其中 GPT-5.4 mini 能快速解读复杂界面的截图。

模型可用性输入价格输出价格上下文
GPT-5.4 miniAPI、Codex、ChatGPT Free/Go0,75 $/million tokens4,50 $/million tokens400 000 tokens
GPT-5.4 nano仅限 API0,20 $/million tokens1,25 $/million tokens

在 ChatGPT 中,GPT-5.4 mini 可通过 + 菜单里的 “Thinking” 功能供 Free 和 Go 用户使用。对于付费计划,它在 GPT-5.4 Thinking 达到速率限制时充当备用模型。

🔗 介绍 GPT-5.4 mini 和 nano


NVIDIA GTC 2026:Nemotron 联盟与 Dynamo 1.0

NVIDIA 的 GTC 大会于 3 月 16 日起举行,成为多项行业重大公告的催化剂:围绕开放式 frontier 模型组建联盟、将一个推理操作系统投入生产,以及宣布面向物理 AI 的数据蓝图。

Mistral 加入 NVIDIA Nemotron 联盟

3月16日 — Mistral AI 宣布与 NVIDIA 建立战略合作伙伴关系,共同开发开放式 frontier AI 模型。Mistral 成为 NVIDIA Nemotron 联盟的创始成员,将其 frontier 架构与 NVIDIA 的计算基础设施及开发工具结合起来。

方面详情
Mistral 角色创始成员,frontier 架构 + 全栈 AI 产品
NVIDIA 贡献GPU 基础设施 + 开发工具
目标共同开发达到 frontier 水平的开放模型

🔗 Mistral 在 X 上的公告

Perplexity 也加入了联盟

3月16日 — Perplexity 宣布加入同一个 NVIDIA Nemotron 联盟。要点:Perplexity 为其回答流水线的每个阶段(查询分析、推理、最终回答)分别微调不同的开放模型。Nemotron 3 Super(1200 亿参数,MoE 架构)现已可在 Perplexity 搜索栏、Agent API 和 Perplexity Computer 中使用。

🔗 Perplexity 博客 – Nemotron 联盟 🔗 NVIDIA 公告

Dynamo 1.0:推理操作系统进入生产

3月16日 — NVIDIA 在 GTC 上宣布将 Dynamo 1.0 投入生产,称其为面向 AI 工厂(AI factories)的“推理操作系统”(inference operating system)。与未优化部署相比,Dynamo 可将 Blackwell GPU 上的推理性能提升高达 7 倍。升级到 v1.0 标志着它从实验阶段进入工业生产。

🔗 NVIDIA Dynamo 1.0 公告

Physical AI Data Factory Blueprint

3月16日 — NVIDIA 发布 Physical AI Data Factory Blueprint:一种参考架构,用于将加速计算转化为高质量训练数据,面向机器人、AI 视觉代理和自动驾驶汽车。该蓝图使企业能够大规模合成物理 AI 的训练数据。

🔗 NVIDIA Physical AI 公告

Cohere + NVIDIA:DGX Spark 上的主权 AI

3月16日 — Cohere 与 NVIDIA 达成合作,共同开发安全、高效的主权 AI,此事也在 GTC 上公布。主要有两个方向:NVIDIA ecosystem-native 模型(针对最新 NVIDIA 架构优化的定制模型,面向专用 enterprise 工作负载)以及 DGX Spark 上的 North(Cohere 的 North 代理平台将可在 NVIDIA DGX Spark 上运行,本地部署、低延迟,适用于敏感数据)。目标行业包括金融、医疗和公共部门。

🔗 Cohere 博客 – NVIDIA 主权 AI


Perplexity Comet Enterprise:MDM 治理与 CrowdStrike 集成

3月17日 — Perplexity 为所有 Enterprise 订阅用户推出 Comet Enterprise。这款 AI 浏览器升级为企业版,具备完整的部署治理能力。

功能描述
MDM 部署静默安装程序、部署到数千台机器、审计日志
精细遥测按用户跟踪
CrowdStrike Falcon防钓鱼保护、外泄检测(截图、下载)
实时干预可通过 CrowdStrike 集成实现
隐私Perplexity 从不使用 enterprise 数据训练其模型

首批用户包括 Fortune 榜单企业、AWS、AlixPartners、Gunderson Dettmer 和 Bessemer Venture Partners。已记录的使用场景涵盖客户会议准备(实时新闻)、SOW 合同分析、财务计算和行业研究。

🔗 Perplexity 博客 – Comet Enterprise


Claude Code v2.1.77:Opus 4.6 默认 64k tokens

3月17日 — Claude Code v2.1.77 发布,带来生成上限的大幅提升以及多项关键 bug 修复。

模型默认上限最大上限
Claude Opus 4.664 000 tokens128 000 tokens
Claude Sonnet 4.6128 000 tokens

Opus 4.6 的默认上限翻倍(从 32k 到 64k tokens),无需额外配置即可生成长得多的回复。

新功能:

  • allowRead 在 sandbox 中:新的 filesystem 配置参数,允许重新授权读取受 denyRead 规则覆盖的区域。适用于细粒度安全配置。
  • /copy N/copy 命令现在接受可选索引——/copy 2 可在不浏览历史记录的情况下复制助手的前一个第二条回复。

重要修复:

  • 复合 bash 命令上的 “Always Allow”:该规则原本被保存为完整字符串(cd src && npm test),而不是按子命令保存。已修复。
  • Auto-updater:在窗口反复打开和关闭时会启动并行下载,可能在内存中累积数十 GB。已修复。
  • --resume 截断历史:内存提取写入与主 transcript 之间的竞争条件(race condition)可能导致静默截断。已修复。
  • 绕过 deny 规则的 PreToolUse:返回 "allow" 的 hook 会绕过 deny 权限规则,包括企业管理的设置。这是一次重要的安全修复。

🔗 Claude Code 变更日志


技术文章:Claude Code 团队如何使用 Skills

3月17日 — Anthropic 的 Claude Code 团队工程师 Thariq(@trq212)发布 “Lessons from Building Claude Code: How We Use Skills”,这是继 “Seeing like an Agent”(2月27日,360 万次浏览)之后的第二篇系列文章。

文章记录了 Skills 如何成为 Claude Code 最常用的扩展点之一——灵活、易维护,并允许团队直接在开发环境中定义可复用的工作流。Claude Code 负责人 Boris Cherny(@bcherny)转发该文,并称其为“Really great writeup”。作者还宣布即将开源一个 iMessage skill 作为具体示例。

“Using Skills well is a skill issue. I didn’t quite realize how much until I wrote this.”

🇨🇳 善用 Skills 是一门技艺。在写这篇文章之前,我并没有意识到这一点有多深。@trq212 在 X 上

🔗 发布推文


Codex Security:为什么不包含 SAST 报告

3月16日 — OpenAI 发布一篇技术文章,解释 Codex Security 背后的设计选择:为什么系统不以静态分析(SAST)作为起点。

该方法建立在四大支柱之上:上下文读取(结合仓库上下文分析完整代码路径)、定向微型 fuzzing(缩小到最小可测试片段以编写微型 fuzzers)、约束推理(使用带有 z3-solver 的 Python 环境来形式化复杂问题),以及 sandbox 验证(借助编译后的 PoC 区分“这可能是个问题”和“这确实是个问题”)。文章以 CVE-2024-29041(Express)为例说明这些原则,这是一个开放重定向漏洞,其中格式错误的 URL 绕过了 allowlist 实现。

🔗 为什么 Codex Security 不包含 SAST 报告


Gemini Personal Intelligence:在美国免费扩展

3月17日 — Google 将 Personal Intelligence 免费扩展给更多美国用户。此前仅面向付费订阅者的这一功能,现在可通过三个入口向免费账户(free-tier)开放:Google Search 的 AI Mode、Gemini 应用(iOS/Android)以及 Chrome 中的 Gemini 扩展。

Personal Intelligence 会安全地连接用户的 Google 应用(Gmail、Google Photos、YouTube、Search),以提供个性化回答。示例包括:根据过去购买记录定制的购物推荐、针对用户购买的确切设备提供技术支持(从 Gmail 收据中提取)、基于酒店确认信息生成的个性化旅行路线。用户可选择连接哪些应用,并可随时关闭。仅适用于个人 Google 账户,不适用于 Workspace 企业/教育账户。

🔗 Google 博客 – Personal Intelligence


AlphaFold Database:新增数百万种蛋白复合体结构

3月17日 — Google DeepMind 宣布扩展 AlphaFold Database (AFDB),新增数百万种由 AI 预测的蛋白复合体结构,并与 EMBL-EBI(欧洲生物信息学研究所)、NVIDIA 和首尔国立大学合作完成。新增结构尤其覆盖 WHO 列出的重点细菌病原体——这些是最危险且最耐抗生素的细菌。此次扩展将范围从单个蛋白提升到蛋白复合体(多个蛋白之间的相互作用),对医学和制药研究来说是一次质的飞跃。

🔗 Pushmeet Kohli 在 X 上的公告


xAI:Grok 的 API Text-to-Speech 与视频编辑第一名

API Text-to-Speech

3月16日 — xAI 宣布推出 Grok 的 API Text-to-Speech,为开发者提供自然且富有表现力的语音。LiveKit 在发布时就已将此 TTS 集成到 LiveKit Inference 中。

🔗 xAI 在 X 上的公告

Grok Imagine 视频编辑排名第一

3月15日 — Grok Imagine 在 Design Arena 排行榜上达到 视频编辑第一名,Elo 分数为 1290。 Grok Imagine 现已向开发者开放。该功能涵盖在视频场景中添加、删除和替换对象。

🔗 Grok 在 X 上的公告


Perplexity Computer:全面控制 Comet 和 Android

Computer 无需 MCP 即可控制 Comet

3月16日 — Computer 现在可以全面接管 Comet 浏览器来执行自主任务:浏览器代理可以访问任何网站或已连接应用,无需连接器或 MCP。向所有在 Comet 上使用 Computer 的用户开放。

🔗 Perplexity 推文

Android 上的 Computer

3月16日 — Perplexity Computer 现已登陆 Android,将 3 月 13 日推出的 iOS 版本扩展到所有移动平台。

🔗 Perplexity Android 推文


Manus:本地桌面与 Google Workspace 达到开发者级别

Manus “My Computer” 现身 macOS 与 Windows

3月16日 — Manus 发布 “My Computer”,这是新版 Manus Desktop 应用(macOS 和 Windows)的核心功能。此前仅限于云端沙盒,如今 Manus 可以直接在本地机器上运行,通过本地终端中的命令行指令执行操作——并且每一步都需要用户明确批准。

用例范围很广:整理并重命名成千上万的文件,创建原生桌面应用(文中举例:一款用于实时翻译和字幕的 Mac 应用,在 20 分钟内完成,且未打开 Xcode),或使用本地 GPU 训练机器学习模型。My Computer 是对现有云端连接器(Google Calendar、Gmail)的补充,而不是替代。

🔗 Manus 推文 · 🔗 Manus 博客

Manus 精准驾驭 Google Workspace

3月17日 — Manus 推出其 Google Workspace 连接器的重大更新,基于 Google Workspace CLI(Google 团队的开源工具)。旧版本把 Google 文件当作单体块处理;新版本支持细粒度操作:

领域新能力
Google Docs精确替换文本、回复特定评论
Google Sheets跨多个工作表读取、更新精确单元格、复制标签页
Google Slides编辑现有演示文稿(幻灯片标题、时间线更新)
Google Drive重新整理文件夹

此次更新免费且向后兼容。

🔗 Manus 推文 · 🔗 Manus 博客


GitHub:用于批量维护的 /fleet 与 1250 万美元的开源支持

Copilot /fleet:跨整个仓库舰队的维护

3月15日 — GitHub 演示了 GitHub Copilot 中的 /fleet 命令。开发者只需一条指令,就能把重复性的维护任务(配置更新、依赖修复)委派给代理,让其在整个仓库舰队上执行,而不是逐个仓库处理。

🔗 GitHub 推文

1250 万美元用于开源安全

3月17日 — GitHub、Anthropic、AWS、Google 和 OpenAI 联合承诺向 Linux Foundation 的 Alpha-Omega 计划提供 1250 万美元,该计划致力于加强开源生态系统安全。

GitHub 方面的关键点:分布在数亿个公开仓库中的 28 万+ 维护者 将有资格免费使用 GitHub Copilot Pro。GitHub 还投入 550 万美元 Azure credits 用于培训。GitHub Secure Open Source Fund 已支持 138 个项目,第四轮申请将于 2026 年 4 月底开启。

背景很重要:AI 极大加速了漏洞发现,也因此加重了维护者负担。公开目标是让 AI 减轻而不是增加这份负担。

🔗 GitHub 博客文章 🔗 Linux Foundation 公告


Z.ai GLM-5-Turbo:面向 agent 环境的高速版本

3月15日 — Z.ai 发布 GLM-5-Turbo,这是针对 agent 环境(尤其是 OpenClaw)优化的 GLM-5 高速变体。当天,GLM Coding Plan 订阅者的使用限额提高到原来的三倍。可通过 OpenRouter 以及直接 API 使用。

🔗 Z.ai 在 X 上的公告


Kimi 发布关于 Attention Residuals 的论文

3月16-17日 — Moonshot AI 在 arXiv 上发布了一篇关于 Attention Residuals 的研究论文:这是一种新的深度聚合方法,用受时间/深度二元性启发的递归机制取代标准残差连接(depth-wise aggregation)。分析表明,这种方法能自然缓解隐藏状态幅度增长的问题。Elon Musk 在公告推文下回复了 “Impressive work from Kimi”(浏览量 450 万)。

🔗 Kimi 推文 · 🔗 arXiv 2603.15031


ElevenLabs × Deloitte:面向企业的全渠道 agents

3月14日 — ElevenLabs 和 Deloitte 宣布建立战略合作伙伴关系,将 ElevenLabs Agents 平台与 Deloitte 的行业专长结合起来,帮助大型企业部署全渠道会话 agents。该合作面向受监管行业的企业(金融、医疗、公共服务)。Deloitte 负责业务集成,ElevenLabs 提供 AI 音频基础设施(语音、转录、agents)。

🔗 ElevenLabs 博客


简讯

Tongyi Fun-CineForge(阿里巴巴,3月16日) — Tongyi Lab 开源 Fun-CineForge,一套接近专业电影质量的 AI 电影配音系统。可在 GitHub、HuggingFace 和 ModelScope 上获取。🔗 X 上的公告


这意味着什么

NVIDIA GTC 2026 凝聚出一个重要趋势:多家顶尖 AI 实验室(Mistral、Perplexity、Cohere)正围绕 NVIDIA 基础设施协同开发开放 frontier 模型或主权部署。这种围绕开放联盟的汇聚,与近期的碎片化形成鲜明对比——也表明大规模预训练已经贵到不能再各自为战。

GPT-5.4 mini 进一步确认了一个大趋势:小型号模型不再只是降级版,而是具备竞争力的替代方案。SWE-Bench Pro 上 54.4%,而完整模型为 57.7%,但成本低 19 倍,GPT-5.4 mini 正在重塑编码工作流中的性能/价格比。

3 月 17 日这一天也体现了本地与桌面 agents 的崛起:Manus “My Computer” 走出云端,开始访问本地机器;Perplexity Computer 在无需 MCP 的情况下接管 Comet;Claude Code 将 Opus 4.6 的默认生成窗口翻倍。那个只负责提出建议的 agent 时代,正在让位于真正执行任务的 agent 时代。


来源

此文档已使用模型 gpt-5.4-mini 从 fr 版本翻译为 zh 语言。有关翻译过程的更多信息,请参阅 https://gitlab.com/jls42/ai-powered-markdown-translator