搜索

DiffusionGemma 快 4 倍,Claude Code 动态工作流 GA,Grok Voice #1 EVA-Bench

ai-powered-markdown-translator

使用 gpt-5.4-mini 从法语翻译成中文的文章。

在 GitHub 上查看项目 ↗

2026年6月10日 是信息密集的一天:Google DeepMind 推出 DiffusionGemma,这是一种新的基于扩散的文本生成架构,在 H100 上可达到每秒 1,000 个 tokens,并由 NVIDIA 立即针对本地硬件进行了优化。开发者工具方面,Anthropic 将 Claude Code 的动态工作流提升为正式可用,并支持最多 5 层的代理递归;xAI 则将 Grok Voice Think Fast 1.0 定位为 EVA-Bench 基准的第一名。GitHub、OpenAI、Perplexity 和 Cohere 也带来了丰富的发布消息。


DiffusionGemma:256 tokens 块的并行生成,GPU 上快 4 倍

6月10日 — Google DeepMind 推出 DiffusionGemma,这是一款 260 亿参数的实验性开放模型(专家混合架构,Mixture of Experts),采用 Apache 2.0 许可证发布。它的独特之处在于:不像传统自回归模型那样一次生成一个 token,而是应用与图像扩散模型相同的迭代去噪原理,同时生成整个 256 tokens 的文本块。

结果:在专用 GPU 上 最高快 4 倍。该模型在推理时仅激活 38 亿参数,使其在量化后可占用 18 GB VRAM——普通高端消费级 GPU 也能运行。双向注意力开启了自回归模型难以处理的场景:在线编辑、代码补全、氨基酸序列、数学图结构。

NVIDIA 立即利用张量计算核心(Tensor Cores)对 DiffusionGemma 进行了 GPU 优化,而自回归架构往往受限于内存带宽。不同硬件上的实测性能如下:

硬件性能
NVIDIA H100(服务器)1,000 tokens/s
NVIDIA DGX Station最高 800 tokens/s
NVIDIA DGX Spark(本地)150 tokens/s
GeForce RTX 5090(量化)700+ tokens/s
GeForce RTX 4090(量化)即将支持 llama.cpp

权重已在 Hugging Face 上提供,并可立即在 HF Transformers、vLLM 和 Unsloth 中使用。该模型也可在 build.nvidia.com 上免费试用。

重要: Google 明确指出,输出质量仍低于标准 Gemma 4 模型。DiffusionGemma 面向探索本地交互式工作流的开发者——快速迭代、在线编辑——而非生产环境。

“DiffusionGemma is our new experimental open model with up to 4x faster output on dedicated GPUs. Instead of predicting word-by-word, it generates entire blocks of text simultaneously.”

🇨🇳 DiffusionGemma 是我们新的实验性开放模型,在专用 GPU 上可提供最高快 4 倍的输出速度。它不是逐词预测,而是同时生成整块文本。@GoogleDeepMind 在 X 上

🔗 Google DeepMind 公告 · 🔗 NVIDIA 优化


Claude Code v2.1.172:动态工作流正式可用,递归子代理最多 5 层

6月10日 — Anthropic 宣布 Claude Code 的动态工作流(dynamic workflows)进入 正式可用。该功能于 5 月 28 日以研究预览形式发布,允许 Claude 自行设计编排,并并行启动数十到数百个子代理,以端到端处理复杂任务。

同日发布的 v2.1.172 CLI 版本引入了关键能力:子代理现在可以创建自己的子代理,最多 5 层嵌套。这是让动态工作流在大规模场景下落地的技术基础。

主要用例:

  • 面向整个仓库范围的漏洞排查、安全审计
  • 影响数千个文件的代码迁移(例如:Bun 的 Zig→Rust 移植,耗时 11 天)
  • 在交付前对结果进行对抗性验证

可用性与条件:

项目详情
方案Max、Team、Enterprise(如管理员启用)、Claude API
云平台Amazon Bedrock、Vertex AI、Microsoft Foundry
启用方式命令 Create a workflow 或参数 ultracode(effort xhigh
子代理深度最多 5 层
CLI 版本v2.1.172

请注意: 动态工作流会消耗比标准 Claude Code 会话多得多的 tokens。Claude Code 会在首次启动前显示确认提示。Enterprise 管理员可以通过受管设置禁用该功能。

v2.1.172 的其他变更: 修复了在 1M 上下文且无 credits 时会话永久卡住的 bug,浏览器中的搜索栏 /plugin,Amazon Bedrock 现在会在未定义 AWS_REGION 时从 ~/.aws 读取 AWS 区域,还包含大量用于后台代理的稳定性修复。

🔗 @claudeai 公告 · 🔗 动态工作流博客 · 🔗 更新日志


Grok Voice Think Fast 1.0 —— EVA-Bench 第一名

6月10日 — xAI 宣布 Grok Voice Think Fast 1.0,其语音模型在 ServiceNow AI Research 的 EVA-Bench 排行中位于 帕累托前沿。帕累托前沿意味着,在该评测中,没有其他系统能同时在准确性和用户体验质量上超过它。

xAI 强调了三个特性:自然的时序、契合上下文的语调,以及类似人类的温暖感。该模型可通过 xAI 语音 API 在 x.ai/api/voice 使用,定价被描述为明显低于竞争对手。

指标数值
EVA-Bench 排名帕累托前沿(第 1 名)
可用性API x.ai/api/voice
定价定位竞争对手价格的一小部分(据 xAI)

“Grok Voice offers state-of-the-art performance with human-like timing, tone, and warmth. And it’s a fraction the price of competitors.”

🇨🇳 Grok Voice 提供行业领先的表现,具有人类般的时序、语调和温暖感。而且它的价格只是竞争对手的一小部分。@xai 在 X 上

🔗 EVA-Bench 结果


NVIDIA Confidential Computing 融入 Apple Private Cloud Compute(WWDC 2026)

6月9日 — 在 WWDC 2026 上公布的这一 Apple–NVIDIA–Google 三方集成,标志着云端 AI 隐私迈出了结构性一步。搭载 Confidential ComputingNVIDIA Blackwell GPU 现已集成到 Apple 的 Private Cloud Compute(PCC) 基础设施中,并从 Apple 数据中心扩展至 Google Cloud

目标是:在服务器端处理 Apple Intelligence 请求时,提供绝对的加密隐私保证——任何人,甚至系统构建者本人,都无法访问用户数据、对话或聊天内容。

保护机制:

  • 基于硬件的信任(hardware-rooted trust):验证基础设施未被篡改
  • 组件之间采用加密通信路径
  • 远程证明(remote attestation):软件在传输任何敏感数据前先验证平台安全状态
  • 在不牺牲 GPU 性能的前提下支持加速推理

这种架构使 Apple 能在保持隐私承诺的同时,将 Apple Intelligence 扩展到 Google Cloud——这在行业中相当罕见。对 NVIDIA 而言,这意味着 Blackwell Confidential Computing 在消费级部署中的大规模采用。

🔗 NVIDIA 博客


Anthropic:计划型代理、秘密保险库,以及监管框架

Claude Managed Agents —— 计划部署与变量保险库

6月9日 — 在 Code with Claude Tokyo 活动上宣布的两项新功能,现已进入 Claude Managed Agents 的 公开测试版

计划部署(scheduled deployments:代理现在可以按计划自动运行,无需人工干预——每日报告、定期检查、常规数据管道。

保险库中的变量(vaults:代理通过受管保险库访问其密钥和配置,而不会将密钥暴露在代码或会话配置中。

功能状态
计划部署公开测试版
保险库中的变量公开测试版
平台Claude Managed Agents

🔗 Claude Managed Agents 新功能

Policy on the AI Exponential —— Anthropic 的监管框架

6月10日 — Anthropic 发布 Policy on the AI Exponential,这是一个公共政策框架,并附有 Dario Amodei 的一篇文章。核心观点是:AI 能力正以指数级速度进步,而立法流程并非为追赶这种速度而设计。

该文件针对训练使用超过 10²⁵ 浮点运算(FLOP)的模型,且这些模型由年营收超过 5 亿美元 的 AI 企业开发,或由在 AI 研发上花费超过 10 亿美元 的企业开发。它识别出四类灾难性风险:生物风险、网络风险、AI 系统失控,以及 AI 研发本身的自动化。

建议义务描述
透明度强制测试、公开结果
独立评估至少一名合格的外部评估者
安全保护权重免受国家级行为体攻击
政府权力有权阻止或延后危险模型

“AI is advancing at a pace our policymaking institutions were never built for—and the gap between the two is becoming the central challenge of the technology.”

🇨🇳 AI 正以我们的立法机构从未被设计来应对的速度前进——而两者之间的差距正在成为这项技术带来的核心挑战。@AnthropicAI 在 X 上

🔗 Policy on the AI Exponential


GitHub Copilot:面向所有人的应用、可见的代理会话,以及 CLI 安全审查

Copilot App —— 无等待名单的公开技术预览

6月10日 — GitHub Copilot 应用的技术预览现已面向所有 Copilot Pro、Pro+、Max、Business 和 Enterprise 订阅者开放,无需等待名单。这款为代理设计的桌面应用集中管理代理会话、创建 pull request,并从桌面推动开发任务——从工单到 PR,一站式完成。

🔗 @github 公告

Copilot Chat 现在能看到代理会话

6月10日 — GitHub 改进了 Copilot Chat 与云端代理之间的衔接。Copilot Chat 现在提供两个新工具:Get agent logs(用于查看 pull request 上某次代理会话的日志,可直接在对话中查询)和 Session search(按主题、标题或日期搜索并总结过往会话)。正在进行中的会话状态现在也会实时反映在聊天中。

🔗 更新日志

Copilot CLI — /security-review 命令(实验性公开预览)

6月10日 — GitHub Copilot CLI 现已在实验性公开预览中提供新的斜杠命令 /security-review。它会直接从终端分析本地代码改动:注入(SQL、命令)、XSS、不安全的数据处理、路径穿越、弱加密。结果会按严重程度和置信度评分,并给出无需离开终端即可应用的建议。该命令独立于 GitHub code scanning 和 Dependabot——它以按需轻量分析对二者形成补充。

🔗 更新日志

Manus —— Zoom Connector

6月9日 — Manus 推出 Zoom 连接器,使代理能够自动分析来自已连接账户、可访问的会议内容:摘要、转录、录音、笔记、议程、白板、参与者信息。三种主要用例:按需分析某次会议、通过 Slack 或 email 报告的定期自动复盘,以及跨多次会议的趋势分析。限制:Manus 只能访问该已连接 Zoom 账户被授权查看的资源。

🔗 Manus 博客


xAI 和 Kimi:合作与 swarm 代理

Grok + eToro —— 由 X 实时数据驱动的 Tori 代理

6月10日 — xAI 和 eToro 宣布,eToro 的 AI 代理 Tori(覆盖 75 个国家、4000 万用户)现在整合了 xAI 模型和平台 X 的实时数据,以分析市场情绪(market sentiment)。Tori 可以实时读取情绪变化、跟踪直播信号并分析信息。所有开发者都可以通过 xAI API 控制台访问同样的实时智能。

🔗 xAI 新闻

Kimi Agent Swarm —— 预测 2026 年世界杯 104 场比赛

6月9日 — Kimi(Moonshot AI)部署 300 个并行子代理,用于预测 2026 年 FIFA 世界杯的 104 场比赛。每个代理都有自己的分析角度:战术、球员状态、历史数据、公众情绪、天气、心理因素、赔率变动。系统使用 Elo/FIFA 模型、Poisson/Dixon-Coles、Monte-Carlo 模拟以及动态贝叶斯更新。识别出的信号:德国夺冠概率估计为 约 11.3%,而博彩市场约为 7.4%。

🔗 @Kimi_Moonshot 公告


OpenAI Codex:从 Claude Code 迁移与 Ableton 展示

Codex app 26.608 —— 从 Claude Code 迁移与插件重构

6月9日Codex app 26.608 更新引入了 Migrate to Codex 迁移流程,可自动导入来自 Claude CodeClaude Cowork 的配置,包括应用首次启动时。插件界面也已彻底重做,提供独立标签页、按类别筛选的市场,以及更好的键盘导航。设置搜索范围扩展到了 Git 和视觉自定义项。

功能详情
Claude Code/Cowork 迁移自动导入,包括入门引导阶段
插件界面标签页、市场、类别筛选
设置搜索扩展到 Git、视觉自定义项

🔗 Codex 更新日志


Perplexity 和 Cohere:多模型编排与语音基准

Perplexity Computer 将 Claude Fable 5 作为编排器

6月10日 — Perplexity 宣布将 Claude Fable 5 作为编排模型集成到 Perplexity Computer 中,这是其多步骤代理式界面。该集成仅面向 ProMax 订阅者。

🔗 @perplexity_ai 公告

Cohere Transcribe 在 Hugging Face 的 Far-Field ASR 基准中位列第一

6月10日Cohere Transcribe,Cohere 的开源语音识别模型,在 Hugging Face 全新的 Far-Field ASR 基准上排名第一。该基准旨在测试真实音频环境中的鲁棒性(会议室、呼叫中心、电话通话)。

模型Far-Field ASR WER
Cohere Transcribe17,9
IBM Granite Speech~19,8
NVIDIA Parakeet~21,5

该模型仍采用 Apache 2.0 许可,并且可以在本地运行。它早在 2026 年 3 月就已经在通用 OpenASR 排行榜上位列第一。

🔗 公告 @cohere


Gemini App:面向小型企业的新功能

6月10日 — 在圣保罗举行的 Google for Brazil 活动中,Google 宣布了两项面向小型企业的 Gemini App 功能,计划于 2026 年 6 月全球推出。

连接 Google Business Profile:用户可以将自己的资料直接连接到 Gemini 应用中。连接后,Gemini 可访问客户评价、问题和绩效数据,从而提供个性化建议:每月绩效分析、以品牌语气撰写回复评价、更新营业时间和资料。

Business notebooks:一个集中化空间,企业可在其中整理交流记录、来源和 Google Business 资料。Gemini 将其作为知识库,以保持对话连续性,并提供主动提醒(客户问题未回复、节假日营业时间未填写)。

🔗 Google 博客


简讯

  • 6月10日 Gemini 故障 — 产品总监 Josh Woodward 表示,服务于 19:31 发生故障,部分修复已部署。🔗 @joshwoodward
  • GitHub Enterprise — 500 个 cost centers — 每家企业的成本中心上限从 250 提升至 500,自动生效,无需配置。🔗 更新日志
  • Dependabot 支持 Deno — Deno 版本更新现已通过 deno 中的 .github/dependabot.yml 条目支持(目前不包含安全更新)。🔗 更新日志
  • npm v12 — 2026 年 7 月的不兼容变更 — 安装脚本、Git 依赖和远程 URL 将默认被阻止。建议更新到 npm 11.16.0+ 以提前适配。🔗 更新日志
  • Alibaba Wan — 鱼眼镜头 — 新工具可将标准图像转换为鱼眼风格的超广角圆形视图,已添加到 Wan 的视觉技能库。🔗 @Alibaba_Wan
  • Z-Image-Engineer-V6 — Z-Image-Turbo(Tongyi Lab / Alibaba)的可替换文本编码器,可将简单提示词转换为电影感描述。可在 Hugging Face 上获取。🔗 @Ali_TongyiLab
  • Qwen-Image-Edit-2511 + LoRA — 面向 Qwen-Image-Edit-2511 的全新 Hugging Face 社区空间,配备多功能 LoRA 矩阵(换脸、姿势、虚拟试穿、多角度渲染)。🔗 @Ali_TongyiLab
  • ChatGPT for iOS 1.2026.153 — Codex Mobile 新功能 — worktrees,/goal
  • Ableton Live 中的 Codex — @OpenAIDevs 重点介绍音乐人 @sound4movement,他使用 Codex 根据曲目描述自动配置 Ableton Live。🔗 @OpenAIDevs
  • Cohere Labs — 人工智能与工作未来 — 发布了一份关于人工智能对就业影响争论中证据缺口的报告,开启了新的研究方向。🔗 @cohere

这意味着什么

新的推理架构:token-by-token 的终结? DiffusionGemma 是首个大规模公开展示的开放文本扩散架构,NVIDIA 在发布当天就对其进行优化并表现出即时兴趣,说明这一方向已被工业界认真看待。在专用 GPU 上实现 4 倍提升并非小事:它将瓶颈从内存带宽(自回归模型的痛点)转移到了张量计算核心。当前限制(质量低于 Gemma 4)以及明确面向开发者而非生产环境,表明这仍是一条研究路径,而非立即替代方案——但在另一个领域(语音)里,Grok Voice 在 EVA-Bench 上的 Pareto 基准显示,效率竞赛如今已在多个架构前沿同时展开。

代理自主性:从愿景到基础设施。 Claude Code 动态工作流 GA 支持最高 5 层递归,结合 Claude Managed Agents 的计划部署和密钥保险库,标志着一种范式转变:代理不再是一次性工具,而是可持久运行、可调度、并能安全访问密钥的流程。Kimi Agent Swarm(104 场比赛中使用 300 个子代理)的举措展示了 Moonshot AI 侧的同一趋势。而 Perplexity Computer 将 Claude Fable 5 作为编排器集成,则说明代理竞争既发生在工具层面,也发生在模型本身。

隐私与信任:Apple–NVIDIA–Google 轴心。 将 NVIDIA Confidential Computing 集成到运行于 Google Cloud 的 Apple PCC 中,在结构上意义重大:它表明,面向大众的部署可以同时结合 GPU 加速、加密隐私保障和第三方云基础设施。这并非小众场景——Apple Intelligence 覆盖数亿设备。如果这一架构走向标准化,它可能成为处理敏感个人数据的 AI 服务事实上的标准。

开发者生态:工具链整合与竞争。 Codex 26.608 提供从 Claude Code 迁移的路径,这一点并不平凡:这说明开发者已经把配置投入到竞争对手工具中,因此必须降低迁移成本。另一方面,GitHub Copilot 正在加速推进“agent-native”路线(无等待名单 App、聊天中可见的 agent 会话、CLI 安全审查)。6 月 10 日这一天描绘出一个生态:差异化竞争越来越少取决于模型的原始能力,而越来越取决于其在日常开发者工作流中的集成深度。


来源