2026年3月17日的焦点是 NVIDIA GTC 以及多项重大发布。OpenAI 发布了 GPT-5.4 mini 和 nano,这是其迄今最强大的紧凑型模型,在多个基准测试中已接近完整模型。NVIDIA Nemotron 联盟随着 Mistral AI 和 Perplexity 的加入而扩大。Perplexity 同时为企业版推出 Comet Enterprise,并提供完整的 MDM 治理;Claude Code v2.1.77 将 Opus 4.6 的生成上限翻倍;GitHub、Anthropic、Google 和 OpenAI 也联合出资 1250 万美元支持开源安全。
GPT-5.4 mini 和 nano:OpenAI 的紧凑型模型
3月17日 — OpenAI 推出 GPT-5.4 mini 和 GPT-5.4 nano,这是其迄今最强大的紧凑型模型。这两个版本将 GPT-5.4 的能力带入为高吞吐工作负载优化的形态,具有更低延迟和更低成本。
GPT-5.4 mini 在代码、推理、多模态理解和工具使用方面显著提升了 GPT-5 mini,同时运行速度快了一倍多。它在多个关键评估上已接近完整的 GPT-5.4 模型,包括 SWE-Bench Pro 和 OSWorld-Verified。
GPT-5.4 nano 是 GPT-5.4 系列中最小、成本最低的版本,专为速度和成本优先的任务设计:分类、数据提取、排序以及简单的代码子代理。
| 评估 | GPT-5.4 | GPT-5.4 mini | GPT-5.4 nano | GPT-5 mini |
|---|---|---|---|---|
| SWE-Bench Pro (public) | 57,7 % | 54,4 % | 52,4 % | 45,7 % |
| Terminal-Bench 2.0 | 75,1 % | 60,0 % | 46,3 % | 38,2 % |
| Toolathlon | 54,6 % | 42,9 % | 35,5 % | 26,9 % |
| GPQA Diamond | 93,0 % | 88,0 % | 82,8 % | 81,6 % |
| OSWorld-Verified | 75,0 % | 72,1 % | 39,0 % | 42,0 % |
使用场景分为三类:代码助手(GPT-5.4 mini 在快速编码工作流、调试循环、前端生成方面表现出色)、子代理(在 Codex 中,GPT-5.4 可以仅使用 GPT-5.4 配额的 30% 将子任务委派给 GPT-5.4 mini),以及 界面控制(computer use),其中 GPT-5.4 mini 能快速解读复杂界面的截图。
| 模型 | 可用性 | 输入价格 | 输出价格 | 上下文 |
|---|---|---|---|---|
| GPT-5.4 mini | API、Codex、ChatGPT Free/Go | 0,75 $/million tokens | 4,50 $/million tokens | 400 000 tokens |
| GPT-5.4 nano | 仅限 API | 0,20 $/million tokens | 1,25 $/million tokens | — |
在 ChatGPT 中,GPT-5.4 mini 可通过 + 菜单里的 “Thinking” 功能供 Free 和 Go 用户使用。对于付费计划,它在 GPT-5.4 Thinking 达到速率限制时充当备用模型。
NVIDIA GTC 2026:Nemotron 联盟与 Dynamo 1.0
NVIDIA 的 GTC 大会于 3 月 16 日起举行,成为多项行业重大公告的催化剂:围绕开放式 frontier 模型组建联盟、将一个推理操作系统投入生产,以及宣布面向物理 AI 的数据蓝图。
Mistral 加入 NVIDIA Nemotron 联盟
3月16日 — Mistral AI 宣布与 NVIDIA 建立战略合作伙伴关系,共同开发开放式 frontier AI 模型。Mistral 成为 NVIDIA Nemotron 联盟的创始成员,将其 frontier 架构与 NVIDIA 的计算基础设施及开发工具结合起来。
| 方面 | 详情 |
|---|---|
| Mistral 角色 | 创始成员,frontier 架构 + 全栈 AI 产品 |
| NVIDIA 贡献 | GPU 基础设施 + 开发工具 |
| 目标 | 共同开发达到 frontier 水平的开放模型 |
Perplexity 也加入了联盟
3月16日 — Perplexity 宣布加入同一个 NVIDIA Nemotron 联盟。要点:Perplexity 为其回答流水线的每个阶段(查询分析、推理、最终回答)分别微调不同的开放模型。Nemotron 3 Super(1200 亿参数,MoE 架构)现已可在 Perplexity 搜索栏、Agent API 和 Perplexity Computer 中使用。
🔗 Perplexity 博客 – Nemotron 联盟 🔗 NVIDIA 公告
Dynamo 1.0:推理操作系统进入生产
3月16日 — NVIDIA 在 GTC 上宣布将 Dynamo 1.0 投入生产,称其为面向 AI 工厂(AI factories)的“推理操作系统”(inference operating system)。与未优化部署相比,Dynamo 可将 Blackwell GPU 上的推理性能提升高达 7 倍。升级到 v1.0 标志着它从实验阶段进入工业生产。
Physical AI Data Factory Blueprint
3月16日 — NVIDIA 发布 Physical AI Data Factory Blueprint:一种参考架构,用于将加速计算转化为高质量训练数据,面向机器人、AI 视觉代理和自动驾驶汽车。该蓝图使企业能够大规模合成物理 AI 的训练数据。
Cohere + NVIDIA:DGX Spark 上的主权 AI
3月16日 — Cohere 与 NVIDIA 达成合作,共同开发安全、高效的主权 AI,此事也在 GTC 上公布。主要有两个方向:NVIDIA ecosystem-native 模型(针对最新 NVIDIA 架构优化的定制模型,面向专用 enterprise 工作负载)以及 DGX Spark 上的 North(Cohere 的 North 代理平台将可在 NVIDIA DGX Spark 上运行,本地部署、低延迟,适用于敏感数据)。目标行业包括金融、医疗和公共部门。
Perplexity Comet Enterprise:MDM 治理与 CrowdStrike 集成
3月17日 — Perplexity 为所有 Enterprise 订阅用户推出 Comet Enterprise。这款 AI 浏览器升级为企业版,具备完整的部署治理能力。
| 功能 | 描述 |
|---|---|
| MDM 部署 | 静默安装程序、部署到数千台机器、审计日志 |
| 精细遥测 | 按用户跟踪 |
| CrowdStrike Falcon | 防钓鱼保护、外泄检测(截图、下载) |
| 实时干预 | 可通过 CrowdStrike 集成实现 |
| 隐私 | Perplexity 从不使用 enterprise 数据训练其模型 |
首批用户包括 Fortune 榜单企业、AWS、AlixPartners、Gunderson Dettmer 和 Bessemer Venture Partners。已记录的使用场景涵盖客户会议准备(实时新闻)、SOW 合同分析、财务计算和行业研究。
🔗 Perplexity 博客 – Comet Enterprise
Claude Code v2.1.77:Opus 4.6 默认 64k tokens
3月17日 — Claude Code v2.1.77 发布,带来生成上限的大幅提升以及多项关键 bug 修复。
| 模型 | 默认上限 | 最大上限 |
|---|---|---|
| Claude Opus 4.6 | 64 000 tokens | 128 000 tokens |
| Claude Sonnet 4.6 | — | 128 000 tokens |
Opus 4.6 的默认上限翻倍(从 32k 到 64k tokens),无需额外配置即可生成长得多的回复。
新功能:
allowRead在 sandbox 中:新的 filesystem 配置参数,允许重新授权读取受denyRead规则覆盖的区域。适用于细粒度安全配置。/copy N:/copy命令现在接受可选索引——/copy 2可在不浏览历史记录的情况下复制助手的前一个第二条回复。
重要修复:
- 复合 bash 命令上的 “Always Allow”:该规则原本被保存为完整字符串(
cd src && npm test),而不是按子命令保存。已修复。 - Auto-updater:在窗口反复打开和关闭时会启动并行下载,可能在内存中累积数十 GB。已修复。
--resume截断历史:内存提取写入与主 transcript 之间的竞争条件(race condition)可能导致静默截断。已修复。- 绕过
deny规则的PreToolUse:返回"allow"的 hook 会绕过deny权限规则,包括企业管理的设置。这是一次重要的安全修复。
技术文章:Claude Code 团队如何使用 Skills
3月17日 — Anthropic 的 Claude Code 团队工程师 Thariq(@trq212)发布 “Lessons from Building Claude Code: How We Use Skills”,这是继 “Seeing like an Agent”(2月27日,360 万次浏览)之后的第二篇系列文章。
文章记录了 Skills 如何成为 Claude Code 最常用的扩展点之一——灵活、易维护,并允许团队直接在开发环境中定义可复用的工作流。Claude Code 负责人 Boris Cherny(@bcherny)转发该文,并称其为“Really great writeup”。作者还宣布即将开源一个 iMessage skill 作为具体示例。
“Using Skills well is a skill issue. I didn’t quite realize how much until I wrote this.”
🇨🇳 善用 Skills 是一门技艺。在写这篇文章之前,我并没有意识到这一点有多深。 — @trq212 在 X 上
🔗 发布推文
Codex Security:为什么不包含 SAST 报告
3月16日 — OpenAI 发布一篇技术文章,解释 Codex Security 背后的设计选择:为什么系统不以静态分析(SAST)作为起点。
该方法建立在四大支柱之上:上下文读取(结合仓库上下文分析完整代码路径)、定向微型 fuzzing(缩小到最小可测试片段以编写微型 fuzzers)、约束推理(使用带有 z3-solver 的 Python 环境来形式化复杂问题),以及 sandbox 验证(借助编译后的 PoC 区分“这可能是个问题”和“这确实是个问题”)。文章以 CVE-2024-29041(Express)为例说明这些原则,这是一个开放重定向漏洞,其中格式错误的 URL 绕过了 allowlist 实现。
🔗 为什么 Codex Security 不包含 SAST 报告
Gemini Personal Intelligence:在美国免费扩展
3月17日 — Google 将 Personal Intelligence 免费扩展给更多美国用户。此前仅面向付费订阅者的这一功能,现在可通过三个入口向免费账户(free-tier)开放:Google Search 的 AI Mode、Gemini 应用(iOS/Android)以及 Chrome 中的 Gemini 扩展。
Personal Intelligence 会安全地连接用户的 Google 应用(Gmail、Google Photos、YouTube、Search),以提供个性化回答。示例包括:根据过去购买记录定制的购物推荐、针对用户购买的确切设备提供技术支持(从 Gmail 收据中提取)、基于酒店确认信息生成的个性化旅行路线。用户可选择连接哪些应用,并可随时关闭。仅适用于个人 Google 账户,不适用于 Workspace 企业/教育账户。
🔗 Google 博客 – Personal Intelligence
AlphaFold Database:新增数百万种蛋白复合体结构
3月17日 — Google DeepMind 宣布扩展 AlphaFold Database (AFDB),新增数百万种由 AI 预测的蛋白复合体结构,并与 EMBL-EBI(欧洲生物信息学研究所)、NVIDIA 和首尔国立大学合作完成。新增结构尤其覆盖 WHO 列出的重点细菌病原体——这些是最危险且最耐抗生素的细菌。此次扩展将范围从单个蛋白提升到蛋白复合体(多个蛋白之间的相互作用),对医学和制药研究来说是一次质的飞跃。
xAI:Grok 的 API Text-to-Speech 与视频编辑第一名
API Text-to-Speech
3月16日 — xAI 宣布推出 Grok 的 API Text-to-Speech,为开发者提供自然且富有表现力的语音。LiveKit 在发布时就已将此 TTS 集成到 LiveKit Inference 中。
Grok Imagine 视频编辑排名第一
3月15日 — Grok Imagine 在 Design Arena 排行榜上达到 视频编辑第一名,Elo 分数为 1290。 Grok Imagine 现已向开发者开放。该功能涵盖在视频场景中添加、删除和替换对象。
Perplexity Computer:全面控制 Comet 和 Android
Computer 无需 MCP 即可控制 Comet
3月16日 — Computer 现在可以全面接管 Comet 浏览器来执行自主任务:浏览器代理可以访问任何网站或已连接应用,无需连接器或 MCP。向所有在 Comet 上使用 Computer 的用户开放。
Android 上的 Computer
3月16日 — Perplexity Computer 现已登陆 Android,将 3 月 13 日推出的 iOS 版本扩展到所有移动平台。
Manus:本地桌面与 Google Workspace 达到开发者级别
Manus “My Computer” 现身 macOS 与 Windows
3月16日 — Manus 发布 “My Computer”,这是新版 Manus Desktop 应用(macOS 和 Windows)的核心功能。此前仅限于云端沙盒,如今 Manus 可以直接在本地机器上运行,通过本地终端中的命令行指令执行操作——并且每一步都需要用户明确批准。
用例范围很广:整理并重命名成千上万的文件,创建原生桌面应用(文中举例:一款用于实时翻译和字幕的 Mac 应用,在 20 分钟内完成,且未打开 Xcode),或使用本地 GPU 训练机器学习模型。My Computer 是对现有云端连接器(Google Calendar、Gmail)的补充,而不是替代。
Manus 精准驾驭 Google Workspace
3月17日 — Manus 推出其 Google Workspace 连接器的重大更新,基于 Google Workspace CLI(Google 团队的开源工具)。旧版本把 Google 文件当作单体块处理;新版本支持细粒度操作:
| 领域 | 新能力 |
|---|---|
| Google Docs | 精确替换文本、回复特定评论 |
| Google Sheets | 跨多个工作表读取、更新精确单元格、复制标签页 |
| Google Slides | 编辑现有演示文稿(幻灯片标题、时间线更新) |
| Google Drive | 重新整理文件夹 |
此次更新免费且向后兼容。
GitHub:用于批量维护的 /fleet 与 1250 万美元的开源支持
Copilot /fleet:跨整个仓库舰队的维护
3月15日 — GitHub 演示了 GitHub Copilot 中的 /fleet 命令。开发者只需一条指令,就能把重复性的维护任务(配置更新、依赖修复)委派给代理,让其在整个仓库舰队上执行,而不是逐个仓库处理。
1250 万美元用于开源安全
3月17日 — GitHub、Anthropic、AWS、Google 和 OpenAI 联合承诺向 Linux Foundation 的 Alpha-Omega 计划提供 1250 万美元,该计划致力于加强开源生态系统安全。
GitHub 方面的关键点:分布在数亿个公开仓库中的 28 万+ 维护者 将有资格免费使用 GitHub Copilot Pro。GitHub 还投入 550 万美元 Azure credits 用于培训。GitHub Secure Open Source Fund 已支持 138 个项目,第四轮申请将于 2026 年 4 月底开启。
背景很重要:AI 极大加速了漏洞发现,也因此加重了维护者负担。公开目标是让 AI 减轻而不是增加这份负担。
🔗 GitHub 博客文章 🔗 Linux Foundation 公告
Z.ai GLM-5-Turbo:面向 agent 环境的高速版本
3月15日 — Z.ai 发布 GLM-5-Turbo,这是针对 agent 环境(尤其是 OpenClaw)优化的 GLM-5 高速变体。当天,GLM Coding Plan 订阅者的使用限额提高到原来的三倍。可通过 OpenRouter 以及直接 API 使用。
Kimi 发布关于 Attention Residuals 的论文
3月16-17日 — Moonshot AI 在 arXiv 上发布了一篇关于 Attention Residuals 的研究论文:这是一种新的深度聚合方法,用受时间/深度二元性启发的递归机制取代标准残差连接(depth-wise aggregation)。分析表明,这种方法能自然缓解隐藏状态幅度增长的问题。Elon Musk 在公告推文下回复了 “Impressive work from Kimi”(浏览量 450 万)。
🔗 Kimi 推文 · 🔗 arXiv 2603.15031
ElevenLabs × Deloitte:面向企业的全渠道 agents
3月14日 — ElevenLabs 和 Deloitte 宣布建立战略合作伙伴关系,将 ElevenLabs Agents 平台与 Deloitte 的行业专长结合起来,帮助大型企业部署全渠道会话 agents。该合作面向受监管行业的企业(金融、医疗、公共服务)。Deloitte 负责业务集成,ElevenLabs 提供 AI 音频基础设施(语音、转录、agents)。
简讯
Tongyi Fun-CineForge(阿里巴巴,3月16日) — Tongyi Lab 开源 Fun-CineForge,一套接近专业电影质量的 AI 电影配音系统。可在 GitHub、HuggingFace 和 ModelScope 上获取。🔗 X 上的公告
这意味着什么
NVIDIA GTC 2026 凝聚出一个重要趋势:多家顶尖 AI 实验室(Mistral、Perplexity、Cohere)正围绕 NVIDIA 基础设施协同开发开放 frontier 模型或主权部署。这种围绕开放联盟的汇聚,与近期的碎片化形成鲜明对比——也表明大规模预训练已经贵到不能再各自为战。
GPT-5.4 mini 进一步确认了一个大趋势:小型号模型不再只是降级版,而是具备竞争力的替代方案。SWE-Bench Pro 上 54.4%,而完整模型为 57.7%,但成本低 19 倍,GPT-5.4 mini 正在重塑编码工作流中的性能/价格比。
3 月 17 日这一天也体现了本地与桌面 agents 的崛起:Manus “My Computer” 走出云端,开始访问本地机器;Perplexity Computer 在无需 MCP 的情况下接管 Comet;Claude Code 将 Opus 4.6 的默认生成窗口翻倍。那个只负责提出建议的 agent 时代,正在让位于真正执行任务的 agent 时代。
来源
- Introducing GPT-5.4 mini and nano – OpenAI
- Why Codex Security Doesn’t Include a SAST Report – OpenAI
- Mistral × NVIDIA – X 上的公告
- Perplexity 加入 NVIDIA Nemotron Coalition
- NVIDIA Nemotron Coalition
- NVIDIA Dynamo 1.0 – X
- NVIDIA Physical AI Data Factory Blueprint – X
- Cohere + NVIDIA 主权 AI
- Perplexity Comet Enterprise
- Claude Code v2.1.77 更新日志
- Thariq – Skills 文章
- Google Personal Intelligence 扩展
- AlphaFold Database 扩展 – X
- xAI TTS API – X
- Grok Imagine #1 Design Arena – X
- Perplexity Computer 控制 Comet – X
- Perplexity Computer Android – X
- Manus My Computer
- Manus Google Workspace CLI
- GitHub Copilot /fleet – X
- GitHub + Alpha-Omega 1250 万美元
- Linux Foundation – 开源安全基金
- Z.ai GLM-5-Turbo – X
- Kimi Attention Residuals – X
- Kimi Attention Residuals – arXiv
- ElevenLabs × Deloitte
- Tongyi Fun-CineForge – X
此文档已使用模型 gpt-5.4-mini 从 fr 版本翻译为 zh 语言。有关翻译过程的更多信息,请参阅 https://gitlab.com/jls42/ai-powered-markdown-translator