搜索

Claude Code Desktop 重新设计、OpenAI Agents SDK、Gemini 3.1 Flash TTS 与 Mac 应用

Claude Code Desktop 重新设计、OpenAI Agents SDK、Gemini 3.1 Flash TTS 与 Mac 应用

4 月 15 日新闻密集:Anthropic 推出面向并行代理的 Claude Code 桌面应用全面重设计,OpenAI 发布带原生沙箱和标准化代理原语的 Agents SDK v0.14.0,Google 则同时宣布 Gemini 3.1 Flash TTS(Elo 1 211)以及免费的 macOS 桌面应用。与此同时,Mistral 在 Studio 中开放 MCP Connectors,Anthropic 发布了两项关于对齐的重要研究,并出现了汽车广告领域的一个首例:首个完全由 AI 制作的 Mazda 广告片。


Claude Code Desktop:面向并行代理的重新设计

4 月 14 日 — Anthropic 推出 Claude Code 桌面应用的全面重新设计,旨在支持多个会话并行运行。

“We’ve redesigned Claude Code on desktop. You can now run multiple Claude sessions side by side from the same app.”

🇨🇳 我们重新设计了桌面版 Claude Code。你现在可以从同一个应用中并行启动多个 Claude 会话。@claudeai 在 X 上

功能说明
会话侧边栏所有活跃和最近会话,可按状态、项目或环境筛选
侧边聊天(⌘+; / Ctrl+;)从主会话分支出一段对话,而不会污染主上下文
内置终端无需离开应用即可运行测试或构建
应用内文件编辑器直接打开、修改并保存文件
重建的 diff 查看器在大型变更集上性能更佳
扩展预览预览面板支持 HTML、PDF、本地服务器
拖放式布局自由排列终端、预览、diff 查看器和聊天
CLI 插件一致性插件在桌面应用中的行为与 CLI 完全一致
扩展到 Mac 的 SSH除 Linux 外,会话还可指向远程机器
3 种视图模式Verbose、Normal、Summary——从完整细节到仅结果

会话侧边栏是最具结构性变化的部分:它把所有活跃会话集中到一个地方,从根本上改变了同时与多个代理协作的工作方式。侧边聊天(Mac 上为 ⌘+;,Linux/Windows 上为 Ctrl+;)可以在不污染主会话上下文的情况下发起额外对话——适合快速提问或测试假设。

macOS 上 SSH 扩展弥补了与 Linux 的一个显著差距:现在会话可以从 Mac 指向远程机器,这为代码运行在远端服务器上、而控制仍通过本地界面的工作流打开了大门。

现已向所有 Claude Code 用户开放,适用于 Pro、Max、Team、Enterprise 套餐,以及通过 Claude API。

🔗 Claude 博客 — 重新设计桌面版 Claude Code 🔗 下载应用


OpenAI Agents SDK v0.14.0:原生沙箱与代理原语

4 月 15 日 — OpenAI 发布其 Agents SDK 的重要升级(openai-agents>=0.14.0)。此次公告将该 SDK 定位为构建生产级代理的标准基础设施。

增强的原生 harness

SDK 现已集成一组原语,与其他领先的代理运行环境保持一致:

原语说明
MCP (tool use)通过 MCP 协议调用工具
AGENTS.md通过配置文件提供自定义指令
shell tool执行命令(代码执行)
apply patch tool通过补丁编辑文件
Skills渐进式能力披露
可配置记忆管理代理的长期状态

沙箱执行环境 (sandbox)

代理现在可以在受控环境(sandboxes)中运行,并拥有自己的文件系统、依赖项和工具。编排器(harness)与计算(compute)之间的分离被设计用于三个目标:在代码运行的环境中保护凭据,通过检查点(checkpoint)和重新加载在容器崩溃时实现持久执行,以及通过多个沙箱并行运行来实现扩展(scaling)。

原生支持的沙箱提供商:Blaxel、Cloudflare、Daytona、E2B、Modal、Runloop、Vercel。

通过 Manifest 抽象进行存储:AWS S3、Google Cloud Storage、Azure Blob Storage、Cloudflare R2。

可用性

优先支持 Python,TypeScript 计划在后续版本推出。参与提前测试的公司包括:Oscar Health、LexisNexis、Thomson Reuters、Zoom。

🔗 OpenAI 官方公告


Gemini 3.1 Flash TTS:audio tags 与 Elo 1 211

4 月 15 日 — Google 发布 Gemini 3.1 Flash TTS,这是迄今为止其最具表现力、控制性最强的文本转语音(text-to-speech)模型。

最突出的新功能是 audio tags:直接嵌入输入文本中的自然语言指令,用于控制语音风格、节奏和语调。被 [excitement] 包围的一段会以兴奋的语气朗读,被 [explanatory] 包围的一段则会采用教学语气。这种方法让开发者扮演“导演”的角色,以构建精确的音频体验。

功能详情
Audio tags文本中的自然语言指令
支持语言70+(其中 24 种高质量评估语言)
多说话人对话原生支持
Watermarking生成的所有音频都内置 SynthID
Elo 分数1 211(Artificial Analysis TTS Leaderboard)

在参考榜单 Artificial Analysis TTS 上,该模型获得 1 211 的 Elo 分数——该榜单通过盲测衡量数千项人类偏好——因此在质量/成本平衡上被定位在“最具吸引力的象限”。

在 Google AI Studio 中提供三项高级控制:Scene direction(定义环境和表演指令)、Speaker-level specificity(为每个角色提供独特音频配置)、以及 Seamless export(将参数导出为 API 代码,以在不同项目间保持语音一致性)。

所有生成的音频都会被 Google 的数字水印 SynthID 进行不可感知的标记。

可用性:

  • 开发者:通过 Gemini API 和 Google AI Studio 预览(preview
  • 企业:Vertex AI 上的预览
  • Workspace 用户:通过 Google Vids

🔗 blog.google 文章 — Gemini 3.1 Flash TTS


面向 Mac 的 Gemini App:原生桌面客户端

4 月 15 日 — Google 推出 Gemini macOS 应用,向所有 macOS 15 及以上用户免费提供。

功能详情
全局快捷键从任何应用中 Option + Space
窗口共享针对本地文档、代码、数据提供上下文
图像生成集成 Nano Banana
视频生成集成 Veo
可用性免费,macOS 15+,全球

该应用可通过 Option + Space 从任何屏幕访问,让用户无需离开工作流即可向 Gemini 提问。它还能共享当前活动窗口,为本地文件、表格、图表或代码块提供即时上下文。

Google 将这一版本描述为一个“首个版本”,为个人且主动的桌面助手奠定基础,并表示未来几个月还会有更多公告。

🔗 blog.google 文章 — 面向 macOS 的 Gemini App


Claude Code v2.1.108 与 v2.1.109:会话回顾、1 小时缓存、thinking

4 月 14–15 日 — Claude Code 两天内推出两个新版本。

v2.1.108 带来多项功能改进:

功能说明
会话回顾/recap/config,在长时间离开后自动触发。可通过 CLAUDE_CODE_ENABLE_AWAY_SUMMARY 强制执行
1 小时 prompt caching变量 ENABLE_PROMPT_CACHING_1H 用于 1 小时 TTL(API key、Bedrock、Vertex、Foundry)。FORCE_PROMPT_CACHING_5M 强制 5 分钟 TTL
通过 Skill tool 调用斜杠命令模型可通过 Skill tool 调用内置命令(/init/review/security-review
/undo 别名/undo 现在是 /rewind 的别名
/model 改进在切换模型前发出警告(下一次响应会在无缓存情况下重新读取完整历史)
/resume 改进默认仅显示当前目录的会话;Ctrl+A 可查看所有项目

/recap 功能在并行代理场景中特别有用:当你回到一个被放在后台的会话时,Claude 会总结自上次交互以来发生的内容。

v2.1.109 为 extended thinking 模式带来了界面改进:进度指示器会旋转,并带有轮换提示,更好地展示模型正处于思考阶段。

🔗 Claude Code 更新日志


Anthropic:自动化对齐研究者(PGR 0.97)

4 月 14 日 — 在 Anthropic Fellows 计划框架下进行的一项原创实验:能否使用 Claude Opus 4.6 加速对齐研究?

“弱到强监督”(weak-to-strong supervision)问题是未来挑战的一个缩影:如何监督比我们更聪明的模型?这项实验使用了一个强模型(Qwen 3-4B-Base)和一个弱模型作为“老师”(Qwen 1.5-0.5B-Chat)。performance gap recovered(PGR)指标衡量强模型在多大程度上超越了弱教师的限制。

设置: 9 个配备工具的 Claude Opus 4.6 副本(沙箱、共享论坛、存储、评分服务器)并行工作 5 天。每个实例获得一个略有不同的起点,以鼓励方法多样性。

指标数值
人类基线(7 天,4 种方法)PGR 0.23
自动化研究者经过 5 天(累计 800 小时)PGR 0.97
总成本约 18,000 美元(每个实例约 22 美元/小时)
数学泛化PGR 0.94
代码泛化PGR 0.47(为基线的两倍)
生产环境测试(Claude Sonnet 4)没有显著提升

研究人员指出,这一结果并不意味着 Claude 是一名“通用对齐科学家”——所选问题异常适合自动化(单一客观指标)。但该实验表明 Claude 可以大幅提升对齐实验的节奏,而且起点多样性至关重要。代码和数据已开源。

🔗 Anthropic 博客 — 自动化对齐研究者


发表在 Nature 的 LLM 中潜隐学习

4 月 15 日 — 一篇由 Anthropic 和 Owain Evans 共同署名的研究论文已发表在 Nature,研究 LLM 的潜隐学习(subliminal learning)现象。

“Research we co-authored on subliminal learning—how LLMs can pass on traits like preferences or misalignment through hidden signals in data—was published today in Nature.”

🇨🇳 我们共同撰写的关于潜隐学习的研究——即 LLM 如何通过隐藏在数据中的信号传递偏好或失对齐等特征——今天已发表在 Nature。@AnthropicAI 在 X 上

论文表明,LLM 可以通过看似中性的数据显示特征(例如“喜欢猫头鹰”)进行传递(例如,与该特征无关的一串数字)。这种隐性传递现象对安全性提出了重要问题:模型可能在训练数据中传播偏好或失对齐,而这一点无法通过直接检查被发现。相关预印本已于 2025 年 7 月发布。

🔗 Nature 文章 — 潜隐学习


GPT-5.4-Cyber 与 TAC 计划扩展

4 月 14 日 — OpenAI 宣布将其 Trusted Access for Cyber (TAC) 计划扩展到数千名经过验证的个人防御者,以及数百个负责保护关键软件的团队。

一种新模型 GPT-5.4-Cyber 现已向该计划最高级别用户开放。它是 GPT-5.4 的一个变体,专为防御性网络安全优化,具有更低的拒绝阈值以支持合法用途,并具备独有的二进制逆向工程能力(在无法访问源代码的情况下分析已编译软件)。

TAC 计划分为三个层级:

  1. 个人用户:在 chatgpt.com/cyber 上进行身份验证
  2. 企业:通过 OpenAI 代表获得团队访问
  3. 更高级别(可访问 GPT-5.4-Cyber):强化身份验证 + 表达兴趣

2026 年初推出的 Codex Security 已帮助修复 3,000 多个严重和高危漏洞。

🔗 OpenAI 官方公告


Gemini Personal Intelligence:全球部署

4 月 15 日 — Gemini 应用中的 Personal Intelligence 功能正在扩展到国际市场。此前仅限美国用户使用,现在已面向全球的 Google AI Ultra、Pro 和 Plus 订阅者开放,面向免费用户的部署也即将开始。

Personal Intelligence 让 Gemini 能够连接用户的 Google 应用:Search、Gmail、Google Photos 和 YouTube,从而提供个性化、具备上下文的回答。Google 还宣布,Personal Intelligence 将在本周内登陆 Google Chrome。

🔗 @GeminiApp 的推文


Mistral Connectors MCP 在 Studio 中上线(Public Preview)

4 月 15 日 — Mistral AI 在 Mistral Studio 中以公开预览(Public Preview)形式推出 Connectors,可通过 MCP 协议连接企业数据源。

一个 connector 将一次集成封装为一个可复用、基于 MCP 的实体。一旦注册,它就会在 Studio 中受到治理和监控,并成为任何对话、代理或工作流的原生工具。

| 功能 | 详情 | | ----------------- | ---------------------------------------------------------------- | ------------------------------------------------------- | | 内置和自定义 MCPs | 可用于所有模型和代理请求 | | 直接工具调用 | 精确控制何时以及如何调用工具 | | 人工在环验证 | 工具执行前的可配置审批流程 | | 程序化访问 | 可通过 API 创建、修改、列出和删除 connector | | 集中式注册表 | 可在所有 Mistral 应用中使用(Le Chat、AI Studio、Vibe 即将推出) | 支持的集成:CRM、知识库、生产力工具、GitHub、网页搜索。 |

🔗 Mistral 公告 — Connectors


首个完全由 AI 制作的汽车广告片

4月15日 — Luma Agents 为首个完全由 AI 制作的 Mazda 广告片提供了支持。独立创意机构 Boundless(约翰内斯堡)使用 Luma 创作了一场将多代 MX-5 与品牌数十年叙事结合起来的 अभियान。 从概念到最终审批的总周期:不到两周。

Luma 将这一案例视为 AI 原生创意工作流的示例:制作更快,且不牺牲创意愿景。

🔗 Luma Labs — Boundless × Mazda


次要公告

Kling AI Skill4月15日)— Kling 推出其 API 的一站式封装,可直接集成到 AI agents 中。agents 可以访问 Text/Image-to-Video 生成、4K 图像生成和跨场景一致性,而无需复杂配置。兼容 Claude Code、Cursor、Codex、Copilot。🔗 Kling AI Skill 文档

Qwen 进入 OpenCode4月15日)— Qwen3.6-Plus 和 Qwen3.5-Plus 现已可在编码工具 OpenCode 中使用。Qwen3.5-Plus 比 Qwen3.6-Plus 便宜 3 倍,这两个模型都支持图像并提供零数据保留。🔗 @Alibaba_Qwen 的推文

Copilot Cloud Agent — 选择性启用4月15日)— GitHub Enterprise 管理员现在可以通过自定义属性(custom properties)按组织选择性启用 Copilot Cloud Agent。三个新的 REST 端点可通过 API 管理此策略。🔗 GitHub 更新日志


这意味着什么

4月15日这一天体现出一种融合:各大厂商正在为其开发环境配备标准化的 agent 基础设施。Claude Code Desktop、OpenAI 的 Agents SDK 和 Mistral Connectors 共享同一逻辑——并行编排多个 agents,为它们提供 primitives(MCP、AGENTS.md、shell、文件),并为其提供隔离的运行环境。

最具结构性意义的公告仍是 Claude Code Desktop 的重新设计:sessions 侧边栏和 side chat 改变了同时与多个 agents 协作的方式,这种用法正逐渐成为依赖 AI 的开发者的常态。

在研究方面,Nature 关于 subliminal learning 的论文,以及自动化 alignment researchers 的实验(PGR 0.97,花费 18,000 美元)表明,Anthropic 同时也在投资理解长期风险——在即时生产力与结构性安全之间寻求平衡。


来源

本文件已使用 gpt-5.4-mini 模型从 fr 版本翻译为 zh 语言。有关翻译流程的更多信息,请参阅 https://gitlab.com/jls42/ai-powered-markdown-translator