OpenAI 推出 GPT-5.4 mini 和 nano，Mistral 加入 NVIDIA Nemotron 联盟，Perplexity Comet Enterprise 上线

2026年3月17日的焦点是 NVIDIA GTC 以及多项重大发布。OpenAI 发布了 GPT-5.4 mini 和 nano，这是其迄今最强大的紧凑型模型，在多个基准测试中已接近完整模型。NVIDIA Nemotron 联盟随着 Mistral AI 和 Perplexity 的加入而扩大。Perplexity 同时为企业版推出 Comet Enterprise，并提供完整的 MDM 治理；Claude Code v2.1.77 将 Opus 4.6 的生成上限翻倍；GitHub、Anthropic、Google 和 OpenAI 也联合出资 1250 万美元支持开源安全。

GPT-5.4 mini 和 nano：OpenAI 的紧凑型模型

3月17日 — OpenAI 推出 GPT-5.4 mini 和 GPT-5.4 nano，这是其迄今最强大的紧凑型模型。这两个版本将 GPT-5.4 的能力带入为高吞吐工作负载优化的形态，具有更低延迟和更低成本。

GPT-5.4 mini 在代码、推理、多模态理解和工具使用方面显著提升了 GPT-5 mini，同时运行速度快了一倍多。它在多个关键评估上已接近完整的 GPT-5.4 模型，包括 SWE-Bench Pro 和 OSWorld-Verified。

GPT-5.4 nano 是 GPT-5.4 系列中最小、成本最低的版本，专为速度和成本优先的任务设计：分类、数据提取、排序以及简单的代码子代理。

评估	GPT-5.4	GPT-5.4 mini	GPT-5.4 nano	GPT-5 mini
SWE-Bench Pro (public)	57,7 %	54,4 %	52,4 %	45,7 %
Terminal-Bench 2.0	75,1 %	60,0 %	46,3 %	38,2 %
Toolathlon	54,6 %	42,9 %	35,5 %	26,9 %
GPQA Diamond	93,0 %	88,0 %	82,8 %	81,6 %
OSWorld-Verified	75,0 %	72,1 %	39,0 %	42,0 %

使用场景分为三类：代码助手（GPT-5.4 mini 在快速编码工作流、调试循环、前端生成方面表现出色）、子代理（在 Codex 中，GPT-5.4 可以仅使用 GPT-5.4 配额的 30% 将子任务委派给 GPT-5.4 mini），以及 界面控制（computer use），其中 GPT-5.4 mini 能快速解读复杂界面的截图。

模型	可用性	输入价格	输出价格	上下文
GPT-5.4 mini	API、Codex、ChatGPT Free/Go	0,75 $/million tokens	4,50 $/million tokens	400 000 tokens
GPT-5.4 nano	仅限 API	0,20 $/million tokens	1,25 $/million tokens	—

在 ChatGPT 中，GPT-5.4 mini 可通过 + 菜单里的 “Thinking” 功能供 Free 和 Go 用户使用。对于付费计划，它在 GPT-5.4 Thinking 达到速率限制时充当备用模型。

🔗 介绍 GPT-5.4 mini 和 nano

NVIDIA GTC 2026：Nemotron 联盟与 Dynamo 1.0

NVIDIA 的 GTC 大会于 3 月 16 日起举行，成为多项行业重大公告的催化剂：围绕开放式 frontier 模型组建联盟、将一个推理操作系统投入生产，以及宣布面向物理 AI 的数据蓝图。

Mistral 加入 NVIDIA Nemotron 联盟

3月16日 — Mistral AI 宣布与 NVIDIA 建立战略合作伙伴关系，共同开发开放式 frontier AI 模型。Mistral 成为 NVIDIA Nemotron 联盟的创始成员，将其 frontier 架构与 NVIDIA 的计算基础设施及开发工具结合起来。

方面	详情
Mistral 角色	创始成员，frontier 架构 + 全栈 AI 产品
NVIDIA 贡献	GPU 基础设施 + 开发工具
目标	共同开发达到 frontier 水平的开放模型

🔗 Mistral 在 X 上的公告

Perplexity 也加入了联盟

3月16日 — Perplexity 宣布加入同一个 NVIDIA Nemotron 联盟。要点：Perplexity 为其回答流水线的每个阶段（查询分析、推理、最终回答）分别微调不同的开放模型。Nemotron 3 Super（1200 亿参数，MoE 架构）现已可在 Perplexity 搜索栏、Agent API 和 Perplexity Computer 中使用。

🔗 Perplexity 博客 – Nemotron 联盟 🔗 NVIDIA 公告

Dynamo 1.0：推理操作系统进入生产

3月16日 — NVIDIA 在 GTC 上宣布将 Dynamo 1.0 投入生产，称其为面向 AI 工厂（AI factories）的“推理操作系统”（inference operating system）。与未优化部署相比，Dynamo 可将 Blackwell GPU 上的推理性能提升高达 7 倍。升级到 v1.0 标志着它从实验阶段进入工业生产。

🔗 NVIDIA Dynamo 1.0 公告

Physical AI Data Factory Blueprint

3月16日 — NVIDIA 发布 Physical AI Data Factory Blueprint：一种参考架构，用于将加速计算转化为高质量训练数据，面向机器人、AI 视觉代理和自动驾驶汽车。该蓝图使企业能够大规模合成物理 AI 的训练数据。

🔗 NVIDIA Physical AI 公告

Cohere + NVIDIA：DGX Spark 上的主权 AI

3月16日 — Cohere 与 NVIDIA 达成合作，共同开发安全、高效的主权 AI，此事也在 GTC 上公布。主要有两个方向：NVIDIA ecosystem-native 模型（针对最新 NVIDIA 架构优化的定制模型，面向专用 enterprise 工作负载）以及 DGX Spark 上的 North（Cohere 的 North 代理平台将可在 NVIDIA DGX Spark 上运行，本地部署、低延迟，适用于敏感数据）。目标行业包括金融、医疗和公共部门。

🔗 Cohere 博客 – NVIDIA 主权 AI

Perplexity Comet Enterprise：MDM 治理与 CrowdStrike 集成

3月17日 — Perplexity 为所有 Enterprise 订阅用户推出 Comet Enterprise。这款 AI 浏览器升级为企业版，具备完整的部署治理能力。

功能	描述
MDM 部署	静默安装程序、部署到数千台机器、审计日志
精细遥测	按用户跟踪
CrowdStrike Falcon	防钓鱼保护、外泄检测（截图、下载）
实时干预	可通过 CrowdStrike 集成实现
隐私	Perplexity 从不使用 enterprise 数据训练其模型

首批用户包括 Fortune 榜单企业、AWS、AlixPartners、Gunderson Dettmer 和 Bessemer Venture Partners。已记录的使用场景涵盖客户会议准备（实时新闻）、SOW 合同分析、财务计算和行业研究。

🔗 Perplexity 博客 – Comet Enterprise

Claude Code v2.1.77：Opus 4.6 默认 64k tokens

3月17日 — Claude Code v2.1.77 发布，带来生成上限的大幅提升以及多项关键 bug 修复。

模型	默认上限	最大上限
Claude Opus 4.6	64 000 tokens	128 000 tokens
Claude Sonnet 4.6	—	128 000 tokens

Opus 4.6 的默认上限翻倍（从 32k 到 64k tokens），无需额外配置即可生成长得多的回复。

新功能：

allowRead 在 sandbox 中：新的 filesystem 配置参数，允许重新授权读取受 denyRead 规则覆盖的区域。适用于细粒度安全配置。
/copy N：/copy 命令现在接受可选索引——/copy 2 可在不浏览历史记录的情况下复制助手的前一个第二条回复。

重要修复：

复合 bash 命令上的 “Always Allow”：该规则原本被保存为完整字符串（cd src && npm test），而不是按子命令保存。已修复。
Auto-updater：在窗口反复打开和关闭时会启动并行下载，可能在内存中累积数十 GB。已修复。
--resume 截断历史：内存提取写入与主 transcript 之间的竞争条件（race condition）可能导致静默截断。已修复。
绕过 deny 规则的 PreToolUse：返回 "allow" 的 hook 会绕过 deny 权限规则，包括企业管理的设置。这是一次重要的安全修复。

🔗 Claude Code 变更日志

技术文章：Claude Code 团队如何使用 Skills

3月17日 — Anthropic 的 Claude Code 团队工程师 Thariq（@trq212）发布 “Lessons from Building Claude Code: How We Use Skills”，这是继 “Seeing like an Agent”（2月27日，360 万次浏览）之后的第二篇系列文章。

文章记录了 Skills 如何成为 Claude Code 最常用的扩展点之一——灵活、易维护，并允许团队直接在开发环境中定义可复用的工作流。Claude Code 负责人 Boris Cherny（@bcherny）转发该文，并称其为“Really great writeup”。作者还宣布即将开源一个 iMessage skill 作为具体示例。

“Using Skills well is a skill issue. I didn’t quite realize how much until I wrote this.”

🇨🇳 善用 Skills 是一门技艺。在写这篇文章之前，我并没有意识到这一点有多深。 — @trq212 在 X 上

🔗 发布推文

Codex Security：为什么不包含 SAST 报告

3月16日 — OpenAI 发布一篇技术文章，解释 Codex Security 背后的设计选择：为什么系统不以静态分析（SAST）作为起点。

该方法建立在四大支柱之上：上下文读取（结合仓库上下文分析完整代码路径）、定向微型 fuzzing（缩小到最小可测试片段以编写微型 fuzzers）、约束推理（使用带有 z3-solver 的 Python 环境来形式化复杂问题），以及 sandbox 验证（借助编译后的 PoC 区分“这可能是个问题”和“这确实是个问题”）。文章以 CVE-2024-29041（Express）为例说明这些原则，这是一个开放重定向漏洞，其中格式错误的 URL 绕过了 allowlist 实现。

🔗 为什么 Codex Security 不包含 SAST 报告

Gemini Personal Intelligence：在美国免费扩展

3月17日 — Google 将 Personal Intelligence 免费扩展给更多美国用户。此前仅面向付费订阅者的这一功能，现在可通过三个入口向免费账户（free-tier）开放：Google Search 的 AI Mode、Gemini 应用（iOS/Android）以及 Chrome 中的 Gemini 扩展。

Personal Intelligence 会安全地连接用户的 Google 应用（Gmail、Google Photos、YouTube、Search），以提供个性化回答。示例包括：根据过去购买记录定制的购物推荐、针对用户购买的确切设备提供技术支持（从 Gmail 收据中提取）、基于酒店确认信息生成的个性化旅行路线。用户可选择连接哪些应用，并可随时关闭。仅适用于个人 Google 账户，不适用于 Workspace 企业/教育账户。

🔗 Google 博客 – Personal Intelligence

AlphaFold Database：新增数百万种蛋白复合体结构

3月17日 — Google DeepMind 宣布扩展 AlphaFold Database (AFDB)，新增数百万种由 AI 预测的蛋白复合体结构，并与 EMBL-EBI（欧洲生物信息学研究所）、NVIDIA 和首尔国立大学合作完成。新增结构尤其覆盖 WHO 列出的重点细菌病原体——这些是最危险且最耐抗生素的细菌。此次扩展将范围从单个蛋白提升到蛋白复合体（多个蛋白之间的相互作用），对医学和制药研究来说是一次质的飞跃。

🔗 Pushmeet Kohli 在 X 上的公告

xAI：Grok 的 API Text-to-Speech 与视频编辑第一名

API Text-to-Speech

3月16日 — xAI 宣布推出 Grok 的 API Text-to-Speech，为开发者提供自然且富有表现力的语音。LiveKit 在发布时就已将此 TTS 集成到 LiveKit Inference 中。

🔗 xAI 在 X 上的公告

Grok Imagine 视频编辑排名第一

3月15日 — Grok Imagine 在 Design Arena 排行榜上达到 视频编辑第一名，Elo 分数为 1290。 Grok Imagine 现已向开发者开放。该功能涵盖在视频场景中添加、删除和替换对象。

🔗 Grok 在 X 上的公告

Perplexity Computer：全面控制 Comet 和 Android

Computer 无需 MCP 即可控制 Comet

3月16日 — Computer 现在可以全面接管 Comet 浏览器来执行自主任务：浏览器代理可以访问任何网站或已连接应用，无需连接器或 MCP。向所有在 Comet 上使用 Computer 的用户开放。

🔗 Perplexity 推文

Android 上的 Computer

3月16日 — Perplexity Computer 现已登陆 Android，将 3 月 13 日推出的 iOS 版本扩展到所有移动平台。

🔗 Perplexity Android 推文

Manus：本地桌面与 Google Workspace 达到开发者级别

Manus “My Computer” 现身 macOS 与 Windows

3月16日 — Manus 发布 “My Computer”，这是新版 Manus Desktop 应用（macOS 和 Windows）的核心功能。此前仅限于云端沙盒，如今 Manus 可以直接在本地机器上运行，通过本地终端中的命令行指令执行操作——并且每一步都需要用户明确批准。

用例范围很广：整理并重命名成千上万的文件，创建原生桌面应用（文中举例：一款用于实时翻译和字幕的 Mac 应用，在 20 分钟内完成，且未打开 Xcode），或使用本地 GPU 训练机器学习模型。My Computer 是对现有云端连接器（Google Calendar、Gmail）的补充，而不是替代。

🔗 Manus 推文 · 🔗 Manus 博客

Manus 精准驾驭 Google Workspace

3月17日 — Manus 推出其 Google Workspace 连接器的重大更新，基于 Google Workspace CLI（Google 团队的开源工具）。旧版本把 Google 文件当作单体块处理；新版本支持细粒度操作：

领域	新能力
Google Docs	精确替换文本、回复特定评论
Google Sheets	跨多个工作表读取、更新精确单元格、复制标签页
Google Slides	编辑现有演示文稿（幻灯片标题、时间线更新）
Google Drive	重新整理文件夹

此次更新免费且向后兼容。

🔗 Manus 推文 · 🔗 Manus 博客

GitHub：用于批量维护的 `/fleet` 与 1250 万美元的开源支持

Copilot `/fleet`：跨整个仓库舰队的维护

3月15日 — GitHub 演示了 GitHub Copilot 中的 /fleet 命令。开发者只需一条指令，就能把重复性的维护任务（配置更新、依赖修复）委派给代理，让其在整个仓库舰队上执行，而不是逐个仓库处理。

🔗 GitHub 推文

1250 万美元用于开源安全

3月17日 — GitHub、Anthropic、AWS、Google 和 OpenAI 联合承诺向 Linux Foundation 的 Alpha-Omega 计划提供 1250 万美元，该计划致力于加强开源生态系统安全。

GitHub 方面的关键点：分布在数亿个公开仓库中的 28 万+ 维护者 将有资格免费使用 GitHub Copilot Pro。GitHub 还投入 550 万美元 Azure credits 用于培训。GitHub Secure Open Source Fund 已支持 138 个项目，第四轮申请将于 2026 年 4 月底开启。

背景很重要：AI 极大加速了漏洞发现，也因此加重了维护者负担。公开目标是让 AI 减轻而不是增加这份负担。

🔗 GitHub 博客文章 🔗 Linux Foundation 公告

Z.ai GLM-5-Turbo：面向 agent 环境的高速版本

3月15日 — Z.ai 发布 GLM-5-Turbo，这是针对 agent 环境（尤其是 OpenClaw）优化的 GLM-5 高速变体。当天，GLM Coding Plan 订阅者的使用限额提高到原来的三倍。可通过 OpenRouter 以及直接 API 使用。

🔗 Z.ai 在 X 上的公告

Kimi 发布关于 Attention Residuals 的论文

3月16-17日 — Moonshot AI 在 arXiv 上发布了一篇关于 Attention Residuals 的研究论文：这是一种新的深度聚合方法，用受时间/深度二元性启发的递归机制取代标准残差连接（depth-wise aggregation）。分析表明，这种方法能自然缓解隐藏状态幅度增长的问题。Elon Musk 在公告推文下回复了 “Impressive work from Kimi”（浏览量 450 万）。

🔗 Kimi 推文 · 🔗 arXiv 2603.15031

ElevenLabs × Deloitte：面向企业的全渠道 agents

3月14日 — ElevenLabs 和 Deloitte 宣布建立战略合作伙伴关系，将 ElevenLabs Agents 平台与 Deloitte 的行业专长结合起来，帮助大型企业部署全渠道会话 agents。该合作面向受监管行业的企业（金融、医疗、公共服务）。Deloitte 负责业务集成，ElevenLabs 提供 AI 音频基础设施（语音、转录、agents）。

🔗 ElevenLabs 博客

简讯

Tongyi Fun-CineForge（阿里巴巴，3月16日） — Tongyi Lab 开源 Fun-CineForge，一套接近专业电影质量的 AI 电影配音系统。可在 GitHub、HuggingFace 和 ModelScope 上获取。🔗 X 上的公告

这意味着什么

NVIDIA GTC 2026 凝聚出一个重要趋势：多家顶尖 AI 实验室（Mistral、Perplexity、Cohere）正围绕 NVIDIA 基础设施协同开发开放 frontier 模型或主权部署。这种围绕开放联盟的汇聚，与近期的碎片化形成鲜明对比——也表明大规模预训练已经贵到不能再各自为战。

GPT-5.4 mini 进一步确认了一个大趋势：小型号模型不再只是降级版，而是具备竞争力的替代方案。SWE-Bench Pro 上 54.4%，而完整模型为 57.7%，但成本低 19 倍，GPT-5.4 mini 正在重塑编码工作流中的性能/价格比。

3 月 17 日这一天也体现了本地与桌面 agents 的崛起：Manus “My Computer” 走出云端，开始访问本地机器；Perplexity Computer 在无需 MCP 的情况下接管 Comet；Claude Code 将 Opus 4.6 的默认生成窗口翻倍。那个只负责提出建议的 agent 时代，正在让位于真正执行任务的 agent 时代。

来源

此文档已使用模型 gpt-5.4-mini 从 fr 版本翻译为 zh 语言。有关翻译过程的更多信息，请参阅 https://gitlab.com/jls42/ai-powered-markdown-translator