DiffusionGemma 快 4 倍，Claude Code 动态工作流 GA，Grok Voice #1 EVA-Bench

2026年6月10日 是信息密集的一天：Google DeepMind 推出 DiffusionGemma，这是一种新的基于扩散的文本生成架构，在 H100 上可达到每秒 1,000 个 tokens，并由 NVIDIA 立即针对本地硬件进行了优化。开发者工具方面，Anthropic 将 Claude Code 的动态工作流提升为正式可用，并支持最多 5 层的代理递归；xAI 则将 Grok Voice Think Fast 1.0 定位为 EVA-Bench 基准的第一名。GitHub、OpenAI、Perplexity 和 Cohere 也带来了丰富的发布消息。

DiffusionGemma：256 tokens 块的并行生成，GPU 上快 4 倍

6月10日 — Google DeepMind 推出 DiffusionGemma，这是一款 260 亿参数的实验性开放模型（专家混合架构，Mixture of Experts），采用 Apache 2.0 许可证发布。它的独特之处在于：不像传统自回归模型那样一次生成一个 token，而是应用与图像扩散模型相同的迭代去噪原理，同时生成整个 256 tokens 的文本块。

结果：在专用 GPU 上 最高快 4 倍。该模型在推理时仅激活 38 亿参数，使其在量化后可占用 18 GB VRAM——普通高端消费级 GPU 也能运行。双向注意力开启了自回归模型难以处理的场景：在线编辑、代码补全、氨基酸序列、数学图结构。

NVIDIA 立即利用张量计算核心（Tensor Cores）对 DiffusionGemma 进行了 GPU 优化，而自回归架构往往受限于内存带宽。不同硬件上的实测性能如下：

硬件	性能
NVIDIA H100（服务器）	1,000 tokens/s
NVIDIA DGX Station	最高 800 tokens/s
NVIDIA DGX Spark（本地）	150 tokens/s
GeForce RTX 5090（量化）	700+ tokens/s
GeForce RTX 4090（量化）	即将支持 llama.cpp

权重已在 Hugging Face 上提供，并可立即在 HF Transformers、vLLM 和 Unsloth 中使用。该模型也可在 build.nvidia.com 上免费试用。

重要： Google 明确指出，输出质量仍低于标准 Gemma 4 模型。DiffusionGemma 面向探索本地交互式工作流的开发者——快速迭代、在线编辑——而非生产环境。

“DiffusionGemma is our new experimental open model with up to 4x faster output on dedicated GPUs. Instead of predicting word-by-word, it generates entire blocks of text simultaneously.”

🇨🇳 DiffusionGemma 是我们新的实验性开放模型，在专用 GPU 上可提供最高快 4 倍的输出速度。它不是逐词预测，而是同时生成整块文本。 — @GoogleDeepMind 在 X 上

🔗 Google DeepMind 公告 · 🔗 NVIDIA 优化

Claude Code v2.1.172：动态工作流正式可用，递归子代理最多 5 层

6月10日 — Anthropic 宣布 Claude Code 的动态工作流（dynamic workflows）进入 正式可用。该功能于 5 月 28 日以研究预览形式发布，允许 Claude 自行设计编排，并并行启动数十到数百个子代理，以端到端处理复杂任务。

同日发布的 v2.1.172 CLI 版本引入了关键能力：子代理现在可以创建自己的子代理，最多 5 层嵌套。这是让动态工作流在大规模场景下落地的技术基础。

主要用例：

面向整个仓库范围的漏洞排查、安全审计
影响数千个文件的代码迁移（例如：Bun 的 Zig→Rust 移植，耗时 11 天）
在交付前对结果进行对抗性验证

可用性与条件：

项目	详情
方案	Max、Team、Enterprise（如管理员启用）、Claude API
云平台	Amazon Bedrock、Vertex AI、Microsoft Foundry
启用方式	命令 `Create a workflow` 或参数 `ultracode`（effort `xhigh`）
子代理深度	最多 5 层
CLI 版本	v2.1.172

请注意： 动态工作流会消耗比标准 Claude Code 会话多得多的 tokens。Claude Code 会在首次启动前显示确认提示。Enterprise 管理员可以通过受管设置禁用该功能。

v2.1.172 的其他变更： 修复了在 1M 上下文且无 credits 时会话永久卡住的 bug，浏览器中的搜索栏 /plugin，Amazon Bedrock 现在会在未定义 AWS_REGION 时从 ~/.aws 读取 AWS 区域，还包含大量用于后台代理的稳定性修复。

🔗 @claudeai 公告 · 🔗 动态工作流博客 · 🔗 更新日志

Grok Voice Think Fast 1.0 —— EVA-Bench 第一名

6月10日 — xAI 宣布 Grok Voice Think Fast 1.0，其语音模型在 ServiceNow AI Research 的 EVA-Bench 排行中位于 帕累托前沿。帕累托前沿意味着，在该评测中，没有其他系统能同时在准确性和用户体验质量上超过它。

xAI 强调了三个特性：自然的时序、契合上下文的语调，以及类似人类的温暖感。该模型可通过 xAI 语音 API 在 x.ai/api/voice 使用，定价被描述为明显低于竞争对手。

指标	数值
EVA-Bench 排名	帕累托前沿（第 1 名）
可用性	API `x.ai/api/voice`
定价定位	竞争对手价格的一小部分（据 xAI）

“Grok Voice offers state-of-the-art performance with human-like timing, tone, and warmth. And it’s a fraction the price of competitors.”

🇨🇳 Grok Voice 提供行业领先的表现，具有人类般的时序、语调和温暖感。而且它的价格只是竞争对手的一小部分。 — @xai 在 X 上

🔗 EVA-Bench 结果

NVIDIA Confidential Computing 融入 Apple Private Cloud Compute（WWDC 2026）

6月9日 — 在 WWDC 2026 上公布的这一 Apple–NVIDIA–Google 三方集成，标志着云端 AI 隐私迈出了结构性一步。搭载 Confidential Computing 的 NVIDIA Blackwell GPU 现已集成到 Apple 的 Private Cloud Compute（PCC） 基础设施中，并从 Apple 数据中心扩展至 Google Cloud。

目标是：在服务器端处理 Apple Intelligence 请求时，提供绝对的加密隐私保证——任何人，甚至系统构建者本人，都无法访问用户数据、对话或聊天内容。

保护机制：

基于硬件的信任（hardware-rooted trust）：验证基础设施未被篡改
组件之间采用加密通信路径
远程证明（remote attestation）：软件在传输任何敏感数据前先验证平台安全状态
在不牺牲 GPU 性能的前提下支持加速推理

这种架构使 Apple 能在保持隐私承诺的同时，将 Apple Intelligence 扩展到 Google Cloud——这在行业中相当罕见。对 NVIDIA 而言，这意味着 Blackwell Confidential Computing 在消费级部署中的大规模采用。

🔗 NVIDIA 博客

Anthropic：计划型代理、秘密保险库，以及监管框架

Claude Managed Agents —— 计划部署与变量保险库

6月9日 — 在 Code with Claude Tokyo 活动上宣布的两项新功能，现已进入 Claude Managed Agents 的 公开测试版：

计划部署（scheduled deployments）：代理现在可以按计划自动运行，无需人工干预——每日报告、定期检查、常规数据管道。

保险库中的变量（vaults）：代理通过受管保险库访问其密钥和配置，而不会将密钥暴露在代码或会话配置中。

功能	状态
计划部署	公开测试版
保险库中的变量	公开测试版
平台	Claude Managed Agents

🔗 Claude Managed Agents 新功能

Policy on the AI Exponential —— Anthropic 的监管框架

6月10日 — Anthropic 发布 Policy on the AI Exponential，这是一个公共政策框架，并附有 Dario Amodei 的一篇文章。核心观点是：AI 能力正以指数级速度进步，而立法流程并非为追赶这种速度而设计。

该文件针对训练使用超过 10²⁵ 浮点运算（FLOP）的模型，且这些模型由年营收超过 5 亿美元 的 AI 企业开发，或由在 AI 研发上花费超过 10 亿美元 的企业开发。它识别出四类灾难性风险：生物风险、网络风险、AI 系统失控，以及 AI 研发本身的自动化。

建议义务	描述
透明度	强制测试、公开结果
独立评估	至少一名合格的外部评估者
安全	保护权重免受国家级行为体攻击
政府权力	有权阻止或延后危险模型

“AI is advancing at a pace our policymaking institutions were never built for—and the gap between the two is becoming the central challenge of the technology.”

🇨🇳 AI 正以我们的立法机构从未被设计来应对的速度前进——而两者之间的差距正在成为这项技术带来的核心挑战。 — @AnthropicAI 在 X 上

🔗 Policy on the AI Exponential

GitHub Copilot：面向所有人的应用、可见的代理会话，以及 CLI 安全审查

Copilot App —— 无等待名单的公开技术预览

6月10日 — GitHub Copilot 应用的技术预览现已面向所有 Copilot Pro、Pro+、Max、Business 和 Enterprise 订阅者开放，无需等待名单。这款为代理设计的桌面应用集中管理代理会话、创建 pull request，并从桌面推动开发任务——从工单到 PR，一站式完成。

🔗 @github 公告

Copilot Chat 现在能看到代理会话

6月10日 — GitHub 改进了 Copilot Chat 与云端代理之间的衔接。Copilot Chat 现在提供两个新工具：Get agent logs（用于查看 pull request 上某次代理会话的日志，可直接在对话中查询）和 Session search（按主题、标题或日期搜索并总结过往会话）。正在进行中的会话状态现在也会实时反映在聊天中。

🔗 更新日志

Copilot CLI — `/security-review` 命令（实验性公开预览）

6月10日 — GitHub Copilot CLI 现已在实验性公开预览中提供新的斜杠命令 /security-review。它会直接从终端分析本地代码改动：注入（SQL、命令）、XSS、不安全的数据处理、路径穿越、弱加密。结果会按严重程度和置信度评分，并给出无需离开终端即可应用的建议。该命令独立于 GitHub code scanning 和 Dependabot——它以按需轻量分析对二者形成补充。

🔗 更新日志

Manus —— Zoom Connector

6月9日 — Manus 推出 Zoom 连接器，使代理能够自动分析来自已连接账户、可访问的会议内容：摘要、转录、录音、笔记、议程、白板、参与者信息。三种主要用例：按需分析某次会议、通过 Slack 或 email 报告的定期自动复盘，以及跨多次会议的趋势分析。限制：Manus 只能访问该已连接 Zoom 账户被授权查看的资源。

🔗 Manus 博客

xAI 和 Kimi：合作与 swarm 代理

Grok + eToro —— 由 X 实时数据驱动的 Tori 代理

6月10日 — xAI 和 eToro 宣布，eToro 的 AI 代理 Tori（覆盖 75 个国家、4000 万用户）现在整合了 xAI 模型和平台 X 的实时数据，以分析市场情绪（market sentiment）。Tori 可以实时读取情绪变化、跟踪直播信号并分析信息。所有开发者都可以通过 xAI API 控制台访问同样的实时智能。

🔗 xAI 新闻

Kimi Agent Swarm —— 预测 2026 年世界杯 104 场比赛

6月9日 — Kimi（Moonshot AI）部署 300 个并行子代理，用于预测 2026 年 FIFA 世界杯的 104 场比赛。每个代理都有自己的分析角度：战术、球员状态、历史数据、公众情绪、天气、心理因素、赔率变动。系统使用 Elo/FIFA 模型、Poisson/Dixon-Coles、Monte-Carlo 模拟以及动态贝叶斯更新。识别出的信号：德国夺冠概率估计为 约 11.3%，而博彩市场约为 7.4%。

🔗 @Kimi_Moonshot 公告

OpenAI Codex：从 Claude Code 迁移与 Ableton 展示

Codex app 26.608 —— 从 Claude Code 迁移与插件重构

6月9日 — Codex app 26.608 更新引入了 Migrate to Codex 迁移流程，可自动导入来自 Claude Code 和 Claude Cowork 的配置，包括应用首次启动时。插件界面也已彻底重做，提供独立标签页、按类别筛选的市场，以及更好的键盘导航。设置搜索范围扩展到了 Git 和视觉自定义项。

功能	详情
Claude Code/Cowork 迁移	自动导入，包括入门引导阶段
插件界面	标签页、市场、类别筛选
设置搜索	扩展到 Git、视觉自定义项

🔗 Codex 更新日志

Perplexity 和 Cohere：多模型编排与语音基准

Perplexity Computer 将 Claude Fable 5 作为编排器

6月10日 — Perplexity 宣布将 Claude Fable 5 作为编排模型集成到 Perplexity Computer 中，这是其多步骤代理式界面。该集成仅面向 Pro 和 Max 订阅者。

🔗 @perplexity_ai 公告

Cohere Transcribe 在 Hugging Face 的 Far-Field ASR 基准中位列第一

6月10日 — Cohere Transcribe，Cohere 的开源语音识别模型，在 Hugging Face 全新的 Far-Field ASR 基准上排名第一。该基准旨在测试真实音频环境中的鲁棒性（会议室、呼叫中心、电话通话）。

模型	Far-Field ASR WER
Cohere Transcribe	17,9
IBM Granite Speech	~19,8
NVIDIA Parakeet	~21,5

该模型仍采用 Apache 2.0 许可，并且可以在本地运行。它早在 2026 年 3 月就已经在通用 OpenASR 排行榜上位列第一。

🔗 公告 @cohere

Gemini App：面向小型企业的新功能

6月10日 — 在圣保罗举行的 Google for Brazil 活动中，Google 宣布了两项面向小型企业的 Gemini App 功能，计划于 2026 年 6 月全球推出。

连接 Google Business Profile：用户可以将自己的资料直接连接到 Gemini 应用中。连接后，Gemini 可访问客户评价、问题和绩效数据，从而提供个性化建议：每月绩效分析、以品牌语气撰写回复评价、更新营业时间和资料。

Business notebooks：一个集中化空间，企业可在其中整理交流记录、来源和 Google Business 资料。Gemini 将其作为知识库，以保持对话连续性，并提供主动提醒（客户问题未回复、节假日营业时间未填写）。

🔗 Google 博客

简讯

6月10日 Gemini 故障 — 产品总监 Josh Woodward 表示，服务于 19:31 发生故障，部分修复已部署。🔗 @joshwoodward
GitHub Enterprise — 500 个 cost centers — 每家企业的成本中心上限从 250 提升至 500，自动生效，无需配置。🔗 更新日志
Dependabot 支持 Deno — Deno 版本更新现已通过 deno 中的 .github/dependabot.yml 条目支持（目前不包含安全更新）。🔗 更新日志
npm v12 — 2026 年 7 月的不兼容变更 — 安装脚本、Git 依赖和远程 URL 将默认被阻止。建议更新到 npm 11.16.0+ 以提前适配。🔗 更新日志
Alibaba Wan — 鱼眼镜头 — 新工具可将标准图像转换为鱼眼风格的超广角圆形视图，已添加到 Wan 的视觉技能库。🔗 @Alibaba_Wan
Z-Image-Engineer-V6 — Z-Image-Turbo（Tongyi Lab / Alibaba）的可替换文本编码器，可将简单提示词转换为电影感描述。可在 Hugging Face 上获取。🔗 @Ali_TongyiLab
Qwen-Image-Edit-2511 + LoRA — 面向 Qwen-Image-Edit-2511 的全新 Hugging Face 社区空间，配备多功能 LoRA 矩阵（换脸、姿势、虚拟试穿、多角度渲染）。🔗 @Ali_TongyiLab
ChatGPT for iOS 1.2026.153 — Codex Mobile 新功能 — worktrees，/goal。
Ableton Live 中的 Codex — @OpenAIDevs 重点介绍音乐人 @sound4movement，他使用 Codex 根据曲目描述自动配置 Ableton Live。🔗 @OpenAIDevs
Cohere Labs — 人工智能与工作未来 — 发布了一份关于人工智能对就业影响争论中证据缺口的报告，开启了新的研究方向。🔗 @cohere

这意味着什么

新的推理架构：token-by-token 的终结？ DiffusionGemma 是首个大规模公开展示的开放文本扩散架构，NVIDIA 在发布当天就对其进行优化并表现出即时兴趣，说明这一方向已被工业界认真看待。在专用 GPU 上实现 4 倍提升并非小事：它将瓶颈从内存带宽（自回归模型的痛点）转移到了张量计算核心。当前限制（质量低于 Gemma 4）以及明确面向开发者而非生产环境，表明这仍是一条研究路径，而非立即替代方案——但在另一个领域（语音）里，Grok Voice 在 EVA-Bench 上的 Pareto 基准显示，效率竞赛如今已在多个架构前沿同时展开。

代理自主性：从愿景到基础设施。 Claude Code 动态工作流 GA 支持最高 5 层递归，结合 Claude Managed Agents 的计划部署和密钥保险库，标志着一种范式转变：代理不再是一次性工具，而是可持久运行、可调度、并能安全访问密钥的流程。Kimi Agent Swarm（104 场比赛中使用 300 个子代理）的举措展示了 Moonshot AI 侧的同一趋势。而 Perplexity Computer 将 Claude Fable 5 作为编排器集成，则说明代理竞争既发生在工具层面，也发生在模型本身。

隐私与信任：Apple–NVIDIA–Google 轴心。 将 NVIDIA Confidential Computing 集成到运行于 Google Cloud 的 Apple PCC 中，在结构上意义重大：它表明，面向大众的部署可以同时结合 GPU 加速、加密隐私保障和第三方云基础设施。这并非小众场景——Apple Intelligence 覆盖数亿设备。如果这一架构走向标准化，它可能成为处理敏感个人数据的 AI 服务事实上的标准。

开发者生态：工具链整合与竞争。 Codex 26.608 提供从 Claude Code 迁移的路径，这一点并不平凡：这说明开发者已经把配置投入到竞争对手工具中，因此必须降低迁移成本。另一方面，GitHub Copilot 正在加速推进“agent-native”路线（无等待名单 App、聊天中可见的 agent 会话、CLI 安全审查）。6 月 10 日这一天描绘出一个生态：差异化竞争越来越少取决于模型的原始能力，而越来越取决于其在日常开发者工作流中的集成深度。