Grok Build 测试版、Anthropic 在梵蒂冈、ElevenLabs Music v2

2026年5月25日至26日标志着 xAI 以 Grok Build 强势进入 CLI 代理市场（4080 万次观看），与此同时，Anthropic 发布了一篇关于代理安全的工程文章，其联合创始人也在梵蒂冈发表讲话。另一方面，ElevenLabs 推出 Music v2，价格减半；Runway 则声称其在 AI 视频领域跨越了“诡异谷”（uncanny valley）；而 OpenAI 与 Alibaba 也发布了各自代理工具的重要更新。

Grok Build — xAI 在终端中推出代码代理

2026年5月25日 — xAI 已以测试版推出 Grok Build，这是一款直接在终端中运行的编码代理（coding agent）。该公告在 X 上短短数小时内就带来了 4080 万次观看——这是 xAI 数月来最具病毒传播性的帖子之一。

Grok Build is now available in Beta for all SuperGrok and X Premium+ users. Use Plan Mode, create images and videos with Imagine, and build automations or orchestrators with the CLI. Visit x.ai/cli to get started.

🇨🇳 Grok Build 现已面向所有 SuperGrok 和 X Premium+ 用户开放测试版。使用 Plan Mode，通过 Imagine 创建图像和视频，并借助 CLI 构建自动化或编排器。前往 x.ai/cli 即可开始。 — @xai 在 X 上

该工具可通过一条命令安装：curl -fsSL https://x.ai/cli/install.sh | bash

SuperGrok 和 X Premium+ 订阅用户可立即使用，无需额外订阅费用。

主要功能

功能	描述
Plan Mode	在任何更改之前进行结构化规划——每项修改都需等待明确批准后才会生效
Skills	可复用工作流（AGENTS.md、插件、hooks、MCP），可自动调用或按名称调用——用于创建 `/skillify`
Subagents	并行执行的专用代理，用于研究、构建和审查
Plugins	共享市场：Linear、Sentry、Postgres、通过 MCP 的浏览器
Git integration	直接从终端执行 stage、commit、push 和分支管理
Code review	在发起 PR 之前逐行反馈
Memory	在不同会话之间持久化决策
Headless mode	可用于 CI/CD 管道

其架构与 Claude Code 的相似性十分惊人：AGENTS.md、hooks、MCP、subagents、worktrees。这种趋同印证了 CLI 代理类别正在成为 AI 开发工具链的标准。

🔗 Grok Build 产品页

Chris Olah（Anthropic）在梵蒂冈谈教皇良十四世通谕

2026年5月25日 — 教皇良十四世发布了一份题为“Magnifica humanitas : On safeguarding the human person in the time of artificial Intelligence”的通谕。Anthropic 联合创始人 Chris Olah 受邀在梵蒂冈的发布仪式上发言。

在演讲中，Olah 从三个角度展开：AI 实验室面临的商业与地缘政治压力、全球正义问题（AI 收益集中于少数富裕国家）、以及模型本身的性质。关于最后一点，他表态十分谨慎：

“[W]e keep finding things that are mysterious, even unsettling. We find structures that mirror results from human neuroscience. We find evidence of introspection. We find internal states that functionally mirror joy, satisfaction, fear, grief, and unease. I don’t know what that means, but I think it warrants ongoing discernment.”

🇨🇳 我们仍在不断发现一些神秘、甚至令人不安的东西。我们发现了反映人类神经科学结果的结构。我们发现了内省的证据。我们发现了在功能上反映快乐、满足、恐惧、悲伤和不适的内部状态。我不知道这意味着什么，但我认为这值得持续辨析。 — Chris Olah，梵蒂冈演讲，2026年5月25日

AnthropicAI 宣布这篇文章的推文获得了超过 100 万次观看——对于机构性内容而言，这是极为罕见的互动量。

🔗 @AnthropicAI 推文

Anthropic Engineering — 如何约束 Claude 代理

2026年5月26日 — Anthropic 发布了一篇详尽的工程文章，由五位工程师署名，介绍其对 Claude 代理的隔离策略。文章比较了部署在三款产品中的三种架构，并给出了真实事故和具体指标。

产品	隔离机制	爆炸半径
claude.ai	临时容器（gVisor）	服务器，按租户隔离
Claude Code	Seatbelt（macOS）/ bubblewrap（Linux），默认阻断网络	本地工作区
Claude Cowork	完整 VM（Apple/HCS 虚拟机管理程序）	用户挂载的工作区

文中记录了三起真实事故：一个 pre-trust dialog hook 漏洞（Claude Code，2025年中）、一次带有钓鱼性质的 prompt injection 事件，25 次尝试中成功外泄 24 次，以及一次通过已批准域名在 Claude Cowork 中实施的外泄。

已发布的安全指标：Claude Opus 4.7 在单次尝试攻击测试中（Gray Swan Agent Red Teaming）取得 0.1% 的成功率，在 100 次自适应尝试后达到 5-6%。Claude Code 的自动模式在执行前拦截了 83% 的过度宽松行为。

🔗 Engineering Blog 文章

GitHub Copilot — 按组织划分的模型规则

2026年5月26日 — GitHub 为 GitHub Copilot 推出目标模型规则（targeted model rules）的公共预览版（public preview）。企业管理员现在可以定义哪个组织可访问哪个 Copilot 模型，而不再是全企业范围内的单一设置。

每个模型都可以配置为 Enabled（对所有组织启用）或 Optional（由各组织自行决定）。默认可用性管理界面也已全面重新设计。该功能适用于 Copilot Business 和 Copilot Enterprise。

🔗 GitHub 更新日志

Manus Projects 已登陆移动端

2026年5月25日 — Manus 宣布其移动应用现已支持 Projects。该功能覆盖从简单任务管理到包含共享文件、说明、skills 和连接器的高级工作流。

启动推文（48,388 次观看、574 个赞）写道：“Projects 不只是文件夹。教 Manus 你希望如何完成工作。” Projects 允许编码工作偏好——重复性说明、参考文件、连接器——从而让代理在新任务上自动应用这些设置。

🔗 @ManusAI 公告

Runway Project Luxo — 跨越诡异谷

2026年5月26日 — Runway 发布 Project Luxo，这是一份研究报告，并配有三部由 AI 100% 生成的短片，面向电影行业专业人士放映。结果：所有参与者都认为这些影片在情感上“成立”。

标题	时长	团队	制作时间
The Rogue	9:57	1 人	3 周
Last Night	5:28	1 人	7 小时
Pigeons in Time	0:46	1 人	4 小时

该名称致敬 Luxo Jr.（Pixar，SIGGRAPH 1986）——那部标志着迈向可信 3D 动画转折点的短片。Runway 表示，AI 视频也已经跨过了类似的门槛。其在四月发布的一支虚构广告片，已经在 Instagram 上 48 小时内突破 1000 万次观看。

🔗 Project Luxo — Runway

ElevenLabs Music v2 — 质量提升，价格减半

2026年5月26日 — ElevenLabs 推出 Music v2，现已可在 ElevenMusic 和 ElevenCreative 上立即使用（ElevenAPI 即将上线）。新模型提升了多流派的人声与配器质量、inpainting（局部片段重生成）、分段式作曲以及多语言支持。

平台	用途
ElevenMusic	创作者工作室：创作、混音、扩展
ElevenAPI	面向开发者的模型访问
ElevenCreative	面向品牌和视频内容的授权音乐

ElevenAPI 价格下调 50%，ElevenCreative（自助客户）价格下调 40%。每首生成曲目都可用于商业用途。该模型仅使用已授权数据训练，并与 Believe 建立了合作关系。

🔗 ElevenLabs 公告

AgentScope 2.0 — Alibaba 发布面向代理的生产级框架

2026年5月26日 — Tongyi Lab（Alibaba）发布 AgentScope 2.0，这是一个用于在生产环境中部署 AI 代理的开源框架。其明确目标是从 “我知道我的代理在做什么” 转向 “我知道我的代理会完成任务”。

功能	描述
Retry / fallback	当某个模型失败时，在模型之间自动切换
权限系统	对代理允许执行的操作进行精细控制
执行流式传输	实时跟踪代理操作

该框架提供 Python 和 TypeScript 版本（Java 即将推出），并在 docs.agentscope.io/v2 提供专门文档。

🔗 @agentscope_ai 公告

Codex CLI 0.134.0 — OpenAI 改进 MCP 和历史记录

2026年5月26日 — OpenAI 发布 Codex CLI 0.134.0 版本，带来六项新功能。对本地对话历史的搜索（不区分大小写，并带结果预览）让浏览过往会话更加方便。配置文件管理则统一到一个适用于 CLI、TUI 和 sandbox 的单一 --profile 标志下。

在 MCP 方面，服务器现在可以针对特定环境，并为流式 HTTP 服务器使用 OAuth 选项。带有 readOnlyHint 标注的 MCP 工具现在可并行运行。hooks 会接收增强上下文，包括对话历史和子代理身份。

值得注意的修复：Windows 下的 TUI 渲染损坏问题已解决，使用量上限错误信息现在会根据工作区分别显示。

🔗 Codex CLI 0.134.0 更新日志

这意味着什么

Grok Build 的发布体现了 CLI 代理市场正在迅速整合。在短短几个月内，Claude Code（Anthropic）、Codex CLI（OpenAI）、GitHub Copilot CLI，如今再加上 Grok Build，都已收敛到同一套架构：按目录划分的约定文件（CLAUDE.md / AGENTS.md）、hooks、MCP 集成、并行 subagents。竞争正转向底层模型质量、生产环境中的可靠性，以及插件生态，而不是架构本身——架构已经成为事实标准。

Anthropic 的隔离文章与 Grok Build 发布几乎同时出现，揭示了当下一个核心张力：随着社区开始认真记录风险，CLI 代理也在变得更强大（系统访问、代码执行、git、CI/CD）。Anthropic 钓鱼测试中 25 次尝试导致 24 次外泄，以及 Claude Code 的 pre-trust dialog 漏洞，都是提醒：终端代理的安全问题仍未解决。发布具体指标（Gray Swan 0.1%、自动拦截 83%）则代表着在这一议题上朝透明化迈出了一步。

Chris Olah 在梵蒂冈发言，属于更广泛趋势的一部分：AI 实验室研究者正在与非技术性机构（教会、政府、公民社会）展开对话，讨论那些单靠技术无法解决的问题。关于模型本质——内部状态、内省、功能性意识形式——的讨论，正从研究圈走向公共辩论。教皇通谕“Magnifica humanitas”表明，这些问题如今已触及全球道德机构的最高层级。

ElevenLabs 降价（API -50%，Creative -40%）以及 Runway 由单人、数小时制作完成的影片都指向同一方向：专业级创意媒体生成正变得对独立创作者可及。Project Luxo 和 Music v2 严格来说并不是技术公告——它们更像是在证明，这些工具已经跨过了可用于真实专业场景的可用性门槛。