本周在三个同步推进的战线上出现了明显加速:开放模型(Mistral Medium 3.5、NVIDIA Nemotron 3 Nano Omni)、硬件基础设施(Google 第 8 代 TPU),以及 agent 生态系统(Vibe Remote Agents、Claude for Creative Work、GitHub Copilot)。此外,ElevenLabs 也迈过了一个关键门槛,把其 AI 音乐引擎转变为面向大众、带有变现能力的平台。
Mistral Medium 3.5、Vibe Remote Agents 与 Le Chat Work Mode
4 月 29 日 — Mistral AI 同时发布三项重大发布:Mistral Medium 3.5 模型、Vibe 远程 agents(remote agents),以及 Le Chat 中的 Work Mode(Work Mode)。
Mistral Medium 3.5 公共预览
Medium 3.5 是一个拥有 1280 亿参数的 dense 模型,将指令跟随、推理与代码统一到一套权重中,具备 256,000 token 的上下文窗口。它仅需四块 GPU 即可本地运行。
| 特性 | 数值 |
|---|---|
| 架构 | Dense 128B |
| 上下文 | 256,000 tokens |
| SWE-Bench Verified | 77.6% |
| τ³-Telecom | 91.4 |
| 许可证 | 修改版 MIT(open weights) |
| API — 输入 tokens | $1.50 / 百万 |
| API — 输出 tokens | $7.50 / 百万 |
| 自托管(最少 GPU) | 4 GPU |
该模型在 SWE-Bench Verified 上超过 Devstral 2 和 Qwen3.5-397B-A17B,使其在发布时成为 open weights 代码模型中的基准之一。它可通过 Mistral API、Le Chat、Vibe、NVIDIA 终端(build.nvidia.com)以及 NVIDIA NIM 微服务使用。
Vibe 中的远程 agents(remote agents)
Vibe 的代码会话现在可以在云端运行,无需保持本地打开。多个会话可并行运行,开发者则可以去处理其他事情。一个本地会话可以连同其完整历史和状态一起“传送”到云端。任务完成后,agent 会自动在 GitHub 上发起一个拉取请求(pull request)并通知开发者。
Vibe 原生集成 GitHub(代码 + PR)、Linear 和 Jira(工单)、Sentry(事件)、Slack 和 Teams(通知)。每个会话都在隔离环境中运行。
Le Chat 中的 Work Mode(Work Mode)(预览)
Le Chat 中面向复杂任务的新 agentic 模式:多源检索、文档综合、邮箱整理、创建 Jira 工单、在 Slack 上发送摘要。连接器在 Work Mode 下默认启用。每个可见操作在涉及敏感事务时都需要明确批准。
Google 第 8 代 TPU — TPU 8t 与 TPU 8i
4 月 29 日 — Google 公布其第八代 TPU(Tensor Processing Unit)芯片,该消息于前一周在 Google Cloud Next ‘26 上宣布。这一代包含两种不同芯片,分别针对 AI 生命周期中的不同阶段进行了优化。
A decade in the making, the chips for the agentic era have arrived. At @GoogleCloud’s Next ‘26 event last week, we unveiled our eighth-generation TPUs. TPU 8t: 3x more powerful than previous gen, 10x faster data movement, 97% productive resource utilization, training time from months to weeks. TPU 8i: tripled internal memory, 80% better perf/dollar, 5x latency reduction.
🇨🇳 历经十年打造,面向 agentic 时代的芯片终于到来。在上周 @GoogleCloud 的 Next ‘26 活动上,我们发布了第八代 TPU。TPU 8t:性能比上一代提升 3 倍,数据传输速度提升 10 倍,资源有效利用率达到 97%,训练时间从数月缩短到数周。TPU 8i:内部内存提升至 3 倍,单位美元性能提升 80%,延迟降低 5 倍。 — @GoogleAI 在 X 上
TPU 8t — 模型训练
| 改进 | 细节 |
|---|---|
| 原始算力 | 比上一代高 3× |
| 数据吞吐 | 提升 10×(存储 → 芯片) |
| 有效利用率 | 97% 的资源(自动检测并重路由故障) |
| 影响 | 训练时间从数月缩短到数周 |
TPU 8i — 面向 AI agents 的推理
| 改进 | 细节 |
|---|---|
| 内部内存 | 提升至 3 倍,以处理复杂的多步推理 |
| 成本效率 | 每美元性能提升 80% |
| 延迟 | 借助新的集成引擎降低 5× |
这些芯片是为 agentic 时代设计的:TPU 8t 加速模型创建,TPU 8i 则让这些模型能够以接近实时的方式执行操作(预订航班、管理日程)。Google 将这种双架构定位为未来十年的技术基石。
Claude for Creative Work — Blender、Autodesk Fusion、Adobe 与另外 5 个 MCP 连接器
4 月 28 日 — Anthropic 推出一系列面向创意行业专业人士的官方 MCP(Model Context Protocol)连接器,并与 Blender、Autodesk、Adobe、Ableton 和 Splice 合作。
| 工具 | 用途 |
|---|---|
| Blender | 3D 场景调试、工具创建、对所有对象进行批量修改 |
| Autodesk Fusion | 通过自然语言创建和修改 3D 模型 |
| Adobe Creative Cloud | 通过 50+ 个 CC 工具实现图像、视频与设计 |
| Ableton Live 和 Push | 探索产品官方文档 |
| Splice | 直接从 Claude 中搜索免版权 sample |
| Canva Affinity | 自动化重复性制作任务 |
| SketchUp | 通过文本描述开始 3D 建模 |
| Resolume / Touchdesigner | 面向 VJ 和视觉艺术家的自然语言实时控制 |
“Claude now connects to the tools creative professionals already use. With the new Blender connector, you can debug a scene, build new tools, or batch-apply changes across every object, directly from Claude.”
🇨🇳 Claude 现在可以连接到创意专业人士已经在使用的工具。借助新的 Blender 连接器,你可以直接在 Claude 中调试场景、创建新工具,或对所有对象应用批量修改。 — @claudeai 在 X 上
Anthropic 还以赞助 patron 的身份加入了 Blender Development Fund,支持这一自由软件的发展。主推文在不到 24 小时内获得了超过 1000 万次浏览(Autodesk Fusion 那条推文达到 1100 万),使其成为 Anthropic 近几个月来传播度最高的公告之一。
重点展示的使用场景包括:学习复杂软件、通过代码扩展工具(脚本、plugin、通过 Claude Code 构建的生成式系统)、在工作流中打通多个工具、自动化重复性任务(批处理、scaffolding)。
NVIDIA Nemotron 3 Nano Omni — 30B 开源全模态模型
4 月 28 日 — NVIDIA 发布 Nemotron 3 Nano Omni,这是一款将视觉、音频和语言统一到单一架构中的开源全模态模型。
| 参数 | 数值 |
|---|---|
| 架构 | 混合 MoE 30B-A3B(总计 30B,激活 3B) |
| 上下文 | 256K tokens |
| 模态(输入) | 文本、图像、音频、视频、文档、图表、界面 |
| 模态(输出) | 文本 |
| 效率 | 吞吐量比其他开放全模态模型高 9× |
| 可用性 | Hugging Face、OpenRouter、build.nvidia.com、25+ 合作伙伴平台 |
该模型在三个使用场景中表现突出:computer use(以原生 1920×1080 分辨率导航图形界面)、文档智能(解析 PDF、表格、图表、截图)以及在统一推理流中保持音视频上下文。
Aible、H Company、Palantir、Foxconn 和 Oracle 等组织在发布时即开始评估该模型。H Company 已将其集成到自己的 computer use agent 中。
“To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.”
🇨🇳 为了构建真正有用的 agents,你不能等待一个模型花上几秒钟去理解屏幕。基于 Nemotron 3 Nano Omni,我们的 agents 可以快速理解全高清屏幕录制——而这在以前并不现实。 — H Company 首席执行官 Gautier Cloix
此外,Nemotron 系列在一年内,Nano/Super/Ultra 各变体的累计下载量已达到 5000 万次。
ElevenMusic — AI 音乐平台(发现、remix、创作、变现)
4 月 29 日 — ElevenLabs 推出 ElevenMusic,这是一个 AI 音乐平台,在单一系统中打通聆听、remix 与原创创作,并为艺术家提供直接变现能力。
| 功能 | 描述 |
|---|---|
| 发现 | 4,000+ 独立艺术家,精选目录 |
| Remix | 改变风格、节奏,重新演绎一首曲目 |
| 创作 | 基于歌词、旋律或氛围 |
| 发布 | 通过粉丝互动实现分发 + 变现 |
其商业模式灵感来自 ElevenLabs 的 Voice Library,该产品已向创作者分成 $1100 万。艺术家可以发布作品,并根据听众参与度获利,无需中间唱片公司。
ElevenMusic 上线时同步推出 Eleven Album Vol. 2,这是一张收录 Danger Twins 与 Justin Love 的合辑,专为在平台中体验和 remix 而设计。Kevin Jonas Sr.(Jonas Group Entertainment)和 Amy Stroup(Danger Twins)是上线时的艺术合作伙伴之一。
“Fans want to feel like they’re part of the music, the songwriters, and the artists. ElevenMusic gives them a way in, turning a song into something people can step into, not just listen to.”
🇨🇳 粉丝们希望感觉自己是音乐、词曲作者和艺术家的一部分。ElevenMusic 为他们打开了一条通道,把一首歌变成一种人们可以走进去的体验,而不只是去聆听。 — Jonas Group Entertainment 创始人兼总裁 Kevin Jonas Sr.
该平台自 2026 年 4 月 29 日起已可通过移动应用和网页使用。
🔗 @ElevenLabs 在 X 上的公告 — 🔗 ElevenLabs 博客
GitHub Copilot code review — 自 2026 年 6 月 1 日起双重计费
4 月 27 日 — GitHub 宣布,自 2026 年 6 月 1 日 起,每次由 GitHub Copilot 自动执行的代码审查,除了会消耗新按量模型中已规定的 AI 积分外,还将额外消耗 GitHub Actions 分钟数。
此前,Copilot 的代码审查仅消耗高级请求单位(premium request units, PRU)。从 6 月 1 日开始,对于私有仓库,将同时启用两个计数器:
| 计数器 | 细节 |
|---|---|
| AI Credits | 所有 Copilot 使用(包括 code review)都按照按量模型计入 AI 积分 |
| GitHub Actions Minutes | 每次私有仓库审查都将从套餐额度中消耗;额外分钟数按 Actions 标准价格计费 |
这种双重计数源于 Copilot code review 的 agentic 架构:该工具依赖 GitHub-hosted runners 来分析仓库的扩展上下文,从而生成更相关的反馈。
涉及套餐: Copilot Pro、Pro+、Business、Enterprise —— 包括由未授权用户发起、但直接向组织计费的审查。
公共仓库: 无变化,Actions 分钟数仍然免费。
为 6 月 1 日前做好准备:
- 在计费设置中检查当前 Actions 使用情况
- 如有必要,调整 Actions 的支出上限(spending limits)
- 通知组织内负责计费的人员
OpenAI DevDay 2026 —— 9月29日,旧金山
4月29日 —— OpenAI 宣布其年度开发者活动回归:OpenAI DevDay 2026 将于 9月29日在旧金山举行。官方报名尚未开启。
为鼓励开发者提前参与,OpenAI 发起了一项竞赛:使用 GPT-5.5 和图像生成功能构建项目的开发者,有机会赢得提前邀请。参与方式:提交项目链接,并附上一段说明其构建方式的说明文字,同时带上官方话题标签 #OpenAIDevDay2026。
| 详情 | 数值 |
|---|---|
| 日期 | 2026年9月29日 |
| 地点 | 旧金山 |
| 官方话题标签 | #OpenAIDevDay2026 |
| 推文浏览量(前几小时) | 239,000+ |
这一公告提前了五个月发布,对于 DevDay 来说异常之早。往届活动曾是 OpenAI 面向开发者社区发布最具结构性产品更新的舞台:2023 年,GPT-4 Turbo 和 Assistants API 都是在该活动上发布的。随着当前发布节奏持续加快——GPT-5.5、图像生成、Codex CLI——DevDay 2026 正在成为将 OpenAI 模型集成到生产环境中的技术团队日历上的一个重要节点。
另一条 thread 也邀请开发者从现在开始分享他们的作品。@OpenAIDevs 账号在主公告发布后的几分钟内就转发了这一消息。
Agent 生态与新集成
Claude Code CLI v2.1.120–2.1.123 —— 50+ 项修复
4月28日 —— Claude Code 团队详细说明了 CLI 最近四个版本(v2.1.120 到 v2.1.123)中的修复内容:超过 50 项稳定性和性能改进。
| 指标 | 数值 |
|---|---|
| 涉及版本 | v2.1.120, v2.1.121, v2.1.122, v2.1.123 |
| 修复数量 | 50+ |
/resume 性能提升 | 最快可提升 67% |
| @ClaudeDevs thread 浏览量 | 493 k |
五个重点方向包括:长会话加速(/resume 最快可快 67%)、macOS 身份验证稳定性提升(十余项 keychain 修复)、Linux 内存占用降低、WebFetch 在大型页面上不再卡死,以及从 Windows 和 Xcode 复制粘贴时保留换行。
OpenAI × AWS —— Amazon Bedrock 上的 Codex 和 Managed Agents
4月28日 —— OpenAI 与 AWS 将其战略合作扩展到三个方向:在 AWS 环境中访问 OpenAI 模型、Bedrock 上的 Codex(有限预览,面向希望将数据保留在 Amazon 基础设施中的组织),以及由 OpenAI 驱动的 Bedrock Managed Agents(立即可用)。Codex 每周用户已超过 400 万。
Copilot cloud agent 启动速度提升 20%
4月27日 —— GitHub Copilot cloud agent 现在通过 GitHub Actions 自定义镜像提供的预配置 runner 环境,实现了超过 20% 的启动速度提升。这项改进是在 2026 年 3 月已交付的 50% 启动时间缩减基础上进一步实现的。
Gemini —— 可下载文件生成
4月29日 —— Gemini 现在可以直接在聊天中创建可下载文件:PDF、Word(.docx)、Excel(.xlsx)、Google Docs/Sheets/Slides、CSV、LaTeX、RTF 和 Markdown。网页端和移动端所有用户立即可用。
Mistral Workflows 进入公开预览
4月27日 —— Mistral AI 推出 Workflows 公开预览,这是构建在 Temporal 持久执行引擎(durable execution engine)之上的企业编排层(与 Netflix、Stripe、Salesforce 使用的是同一基础设施)。工作流可通过 Mistral v3.0 SDK 用 Python 编写,然后由业务团队从 Le Chat 中触发。ASML、France Travail 和 La Banque Postale 已在使用。
Qwen FlashQLA —— 线性注意力 kernels
4月29日 —— Qwen 发布 FlashQLA,这是一个基于 TileLang 构建的高性能线性注意力 kernels 库,面向个人设备上的 agentic AI:前向(forward)提速 2–3×,反向(backward)提速 2×。已在 GitHub 上开源发布。
GPT Image 2 集成到 Manus Slides
4月29日 —— Manus 将 GPT Image 2 集成到 Manus Slides 中:支持点选式视觉编辑、通过 prompt 替换内容、生成演讲备注,并可导出到 Google Slides、PowerPoint、PDF、Google Drive 和 OneDrive。
🔗 Manus 公告
Salesforce 已连接到 Genspark
4月29日 —— Genspark 将 Salesforce 集成进其 agent 生态:可通过 Genspark Claw(通过指令安装 CLI)或 Super Agent(直接连接)完成连接。使用场景包括:自动处理客户请求、季度仪表盘、销售管道自动化管理。
GPT-5.5 和 ChatGPT Images 2.0 登陆 Genspark
4月28日 —— Genspark 将 GPT-5.5 集成进其 AI 聊天,并将 ChatGPT Images 2.0(GPT Image 2)集成进其图像生成器,分别可在 genspark.ai/agents 和 genspark.ai/ai_image 使用。
Pika Agents —— 创意对话式界面
4月28日 —— Pika 推出 Pika Agents:一种视频创作界面,用定制 AI agent(声音、面孔、个性均由用户配置)取代传统 prompt 输入框。该 agent 能理解自然语言中的创意意图,并在一次对话中完成组装、细化和生成。
🔗 Pika 公告
ChatGPT Business 用户可在 6 月底前以 $0 添加 Codex seats
4月29日 —— OpenAI 允许符合条件的 ChatGPT Business 订阅用户在 2026 年 6 月底前添加 Codex 席位而无需支付席位费用,此举与 Codex 在 AWS 上的扩展同步推进。
借助 GPT-5.5 解决了一个有 60 年历史的 Erdős 问题
4月28日 —— OpenAI 发布了一期 podcast,在节目中 Sébastien Bubeck 和 Ernest Ryu 回顾了一个悬而未决 60 年、归于 Paul Erdős 名下的数学问题是如何在 GPT-5.5 的帮助下被解决的。该推文浏览量已超过 399,000。
简讯
-
DeepSeek-V4-Pro:-75% 优惠延长 —— DeepSeek-V4-Pro API 的 75% 折扣延长至 2026 年 5 月 31 日。促销价格:输入 $0.003625/M tokens(cache hit)、$0.435(cache miss)、输出 $0.87。🔗 DeepSeek 推文
-
Google DeepMind —— Experience AI 进入拉丁美洲 —— 教育项目 Experience AI(Raspberry Pi Foundation)扩展至拉丁美洲,目标是在 2028 年前培训 24,000 名教师、覆盖 125 万名学生,并由 Google.org 提供 $460 万资助。🔗 Google DeepMind 推文
-
GPT-5.3-Codex 从 Copilot Student 模型选择器中移除 —— 自 2026 年 4 月 27 日起,GPT-5.3-Codex 不再能在 Copilot Student 计划中手动选择;但仍可通过自动选择机制访问。🔗 GitHub 更新日志
-
Responses API —— 可为网页搜索屏蔽域名 —— OpenAI 的 Responses API 现在允许在保持网页搜索启用的同时屏蔽特定域名,从而将某些来源排除在结果之外。🔗 @charlierguo 推文
-
OpenAI —— 社区安全承诺 —— OpenAI 发布了一篇文章,详细介绍其在 ChatGPT 中的安全实践:模型内风险缓解、自动化监测、与帮助资源对接,以及在严重情况下向有关部门报告。这是一篇透明度说明文章,没有新增功能。🔗 OpenAI 公告
这意味着什么
开放模型竞赛正在加剧。 Mistral Medium 3.5(128B,SWE-Bench 77.6%)和 NVIDIA Nemotron 3 Nano Omni(30B,效率比其他开放全模态模型高 9×)同时到来,并附带宽松许可。这两个模型都在被定位为封闭前沿模型的可信替代方案:Mistral 主打代码与推理,Nemotron 主打 agentic 多模态。这种压力使专有模型与 open weights 模型之间的差距越来越小。
硬件基础设施仍然是战略瓶颈。 Google 第 8 代 TPU(训练 3×、推理延迟降低 5×)说明,AI 竞赛也发生在芯片层面。Google Cloud Next ‘26 的公告将 Google 基础设施定位为相对于 NVIDIA GPU 的持久竞争优势——即使两者在真实部署中通常是共存的。
agentic 生态正在分化为垂直专业化。 本周,AI agents 正进入创意工具(Claude for Creative Work,含 8+ 个 MCP 连接器)、软件开发(Vibe Remote Agents、Copilot cloud agent 提速 20%)、音乐(ElevenMusic)、视频(Pika Agents)、CRM(Genspark 中的 Salesforce)以及企业工作流(Mistral Workflows)。问题已经不再是“AI 能不能做这件事?”,而是“它会在哪个专业工具里实现,以及采用什么计费模式?”
按使用量计费正在改变开发者的商业模式。 GitHub Copilot code review 将从 6 月 1 日起改为双重计费(AI 积分 + Actions 分钟),再加上 ChatGPT Business 的 Codex seats $0 方案,这说明了一种趋势:平台方先通过补贴使用(临时免费、DeepSeek -75% 优惠)培养习惯,再逐步转向标准化的按量计费。技术团队最好在 6 月前审计自己的 AI 支出项。
来源
- Mistral Medium 3.5 + Vibe Remote Agents
- X 上的 @mistralvibe 公告
- Mistral Workflows
- Google 第 8 代 TPU —— X 上的 @GoogleAI
- Claude for Creative Work —— Anthropic
- NVIDIA Nemotron 3 Nano Omni —— NVIDIA 博客
- ElevenMusic —— ElevenLabs 博客
- GitHub Copilot code review → Actions 分钟
- Copilot cloud agent 提速 20%
- OpenAI DevDay 2026 —— X 上的 @OpenAI
- OpenAI × AWS
- Codex seats $0 —— X 上的 @OpenAIDevs
- Erdős 问题 —— X 上的 @OpenAI
- Gemini 文件生成 —— Google 博客
- Qwen FlashQLA —— GitHub
- Manus Slides 中的 GPT Image 2
- Genspark 中的 Salesforce
- Genspark 上的 GPT-5.5 和 ChatGPT Images 2.0
- Pika Agents
- Claude Code CLI v2.1.123 —— X 上的 @ClaudeDevs
- DeepSeek-V4-Pro 优惠延长
- Google DeepMind Experience AI 拉丁美洲
- GPT-5.3-Codex 从 Copilot Student 移除
- Responses API 屏蔽域名
- OpenAI 社区安全承诺
本文档已使用 gpt-5.4 模型从 fr 版本翻译为 zh 语言。有关翻译过程的更多信息,请参阅 https://gitlab.com/jls42/ai-powered-markdown-translator