GLM-5 开源，ASL-4 破坏风险报告，OpenAI 推出 Agent 原语

Z.ai 推出了 GLM-5，这是其新的旗舰开源模型，拥有 7440 亿参数，采用 MIT 许可，在编码和 Agent 任务方面跃居开源模型首位。Anthropic 发布了 Opus 4.6 的 ASL-4 破坏风险报告，OpenAI 通过 Agent 原语丰富了其 API，Kimi 揭示了一个由 100 个并行子 Agent 组成的系统。在生态系统方面，Runway 筹集了 3.15 亿美元，ElevenLabs 为其语音 Agent 推出了表现力模式。

Z.ai 推出 GLM-5：744B 参数，MIT 许可开源

2月11日 — Z.ai (Zhipu AI) 推出了 GLM-5，这是其专为复杂系统工程和长期 Agent 任务设计的新前沿模型。与 GLM-4.5 相比，该模型从 3550 亿参数（320 亿激活）增长到 7440 亿参数（400 亿激活），预训练数据从 23T 增加到 28.5T token。

GLM-5 集成了 DeepSeek Sparse Attention (DSA) 以降低部署成本，同时保持长上下文能力，并引入了“slime”，这是一种异步强化学习基础设施，可提高后训练吞吐量。

基准测试	GLM-5	GLM-4.7	Kimi K2.5	Claude Opus 4.5	Gemini 3 Pro
SWE-bench Verified	77.8%	73.8%	76.8%	80.9%	76.2%
HLE (text)	30.5	24.8	31.5	28.4	37.2
HLE w/ Tools	50.4	42.8	51.8	43.4	45.8
Terminal-Bench 2.0	56.2	41.0	50.8	59.3	54.2
Vending Bench 2	$4,432	$2,377	$1,198	$4,967	$5,478

GLM-5 将自己定位为推理、编码和 Agent 任务方面的最佳开源模型，缩小了与专有前沿模型的差距。在 Vending Bench 2（一个模拟管理自动售货机一年的基准测试）中，GLM-5 以 4,432 美元的余额结束，接近 Claude Opus 4.5（4,967 美元）。

除了代码，GLM-5 还可以直接生成 .docx、.pdf 和 .xlsx 文件——提案、财务报告、电子表格——即插即用。Z.ai 部署了一个带有内置文档创建技能的 Agent 模式，支持多轮协作。

模型权重在 Hugging Face 上以 MIT 许可发布。GLM-5 与 Claude Code 和 OpenClaw 兼容，并在 OpenRouter 上可用。部署是逐步的，从 Coding Plan Max 订阅者开始。

🔗 GLM-5 技术博客 🔗 X 上的公告

Anthropic 发布首份 ASL-4 破坏风险报告

2月11日 — Anthropic 发布了 Claude Opus 4.6 的破坏风险报告，以应对自主 AI 研发的 ASL-4 (AI Safety Level 4) 安全阈值。

在发布 Claude Opus 4.5 时，Anthropic 承诺为每个新的前沿模型撰写破坏风险报告。该公司没有在模糊的阈值中徘徊，而是选择主动遵守更高的 ASL-4 安全标准。

元素	详情
评估模型	Claude Opus 4.6
安全阈值	ASL-4 (AI Safety Level 4)
领域	自主 AI 研发
格式	公开 PDF 报告
先例	Opus 4.5 发布期间做出的承诺

这是 AI 安全透明度迈出的重要一步：Anthropic 是首批为生产中的模型发布此类破坏报告的实验室之一。

When we released Claude Opus 4.5, we knew future models would be close to our AI Safety Level 4 threshold for autonomous AI R&D. We therefore committed to writing sabotage risk reports for future frontier models. Today we’re delivering on that commitment for Claude Opus 4.6.

🇨🇳 当我们发布 Claude Opus 4.5 时，我们知道未来的模型将接近我们用于自主 AI 研发的 AI Safety Level 4 阈值。因此，我们承诺为未来的前沿模型撰写破坏风险报告。今天，我们正在为 Claude Opus 4.6 履行这一承诺。 — @AnthropicAI on X

🔗 Anthropic 帖子

OpenAI：Responses API 中的新 Agent 原语

2月10日 — OpenAI 在 Responses API 中引入了三个新原语，用于长期 Agent 工作。

服务器端压缩

允许数小时的 Agent 会话而不达到上下文限制。压缩由服务器端管理。早期访问测试者 Triple Whale 报告称，在单个会话中实现了 150 次工具调用和 500 万个 token，且精度没有损失。

联网容器

OpenAI 托管的容器现在可以以受控方式访问互联网。管理员在仪表板中定义域白名单，请求必须显式定义 network_policy，并且可以注入域机密而无需向模型公开原始值。

API 中的技能

原生支持 Agent Skills 标准，并带有第一个预构建技能（电子表格）。技能是可重用和版本化的包，可以挂载在托管的 shell 环境中，模型在运行时决定是否调用它们。

原语	描述	状态
服务器端压缩	无上下文限制的数小时会话	可用
联网容器	托管容器的受控互联网访问	可用
API 中的技能	可重用包（第一个技能：电子表格）	可用

🔗 OpenAIDevs 帖子

Kimi Agent Swarm：100 个子 Agent 编排

2月10日 — Kimi (Moonshot AI) 揭晓了 Agent Swarm，这是一种多 Agent 协调能力，允许使用多达 100 个专用子 Agent 并行化复杂任务。

该系统可以执行超过 1,500 次工具调用，速度比顺序执行快 4.5 倍。用例涵盖多文件同时生成（Word、Excel、PDF）、并行内容分析和并行多种风格的创意生成。Agent Swarm 解决了 LLM 的一个结构性限制：在填充上下文的长任务中推理能力下降。

🔗 Kimi 公告

OpenAI Harness Engineering：Codex 实现零行手动代码

2月11日 — OpenAI 发布了关于构建一个零行手动编写代码的内部软件产品的经验。在 5 个月的时间里，一个 3 到 7 名工程师的团队完全使用 Codex 来生成所有代码。

指标	价值
生成的代码行数	~100 万
Pull requests	~1,500
每位工程师每天的 PR	平均 3.5
内部用户	数百人
预计时间	手动所需时间的 1/10
Codex 会话	长达 6+ 小时

“Harness Engineering”方法重新定义了工程师的角色：设计环境、指定意图并为 Agent 构建反馈循环，而不是编写代码。存储库中的结构化文档作为指南（AGENTS.md 作为目录），架构是刚性的，带有 Codex 生成的 linter 和结构测试，重复性任务扫描偏差并自动打开重构 PR。

🔗 Harness Engineering 博客

Runway 在 E 轮融资中筹集 3.15 亿美元

2月10日 — Runway 宣布获得 3.15 亿美元的 E 轮融资，使其估值达到 53 亿美元。该轮融资由 General Atlantic 领投，NVIDIA、Adobe Ventures、AMD Ventures、Fidelity、AllianceBernstein 等参与。

详情	价值
金额	3.15 亿美元
轮次	E
估值	53 亿美元（D 轮为 33 亿美元）
领投方	General Atlantic
2018 年以来筹集总额	8.6 亿美元

资金将用于预训练下一代“世界模型”——能够模拟物理世界的模型——并将其部署在新的产品和行业中。此公告是在 Runway 最新的视频生成模型 Gen-4.5 发布之后发布的。

🔗 官方公告 🔗 Runway 在 X 上的帖子

Cowork 可在 Windows 上使用

2月10日 — Claude Cowork，用于多步任务的桌面应用程序，现在作为研究预览版在 Windows 上可用，具有与 macOS 相比完整的功能平价。

功能	描述
文件访问	读取和写入本地文件
插件	支持 Cowork 插件
MCP 连接器	与 MCP 服务器集成
每个文件夹的指令	Claude.md 风格 — 每个项目的自然语言指令

Windows 上的 Cowork 可通过 claude.com/cowork 供所有付费 Claude 计划使用。

🔗 Cowork Windows 公告

Claude 免费计划中的免费功能

2月11日 — Anthropic 扩展了 Claude 免费计划中可用的功能。文件创建、连接器、技能和压缩现在无需订阅即可使用。压缩允许 Claude 自动总结以前的上下文，以便在不重新开始的情况下继续长对话。

🔗 免费计划公告

Slack 中的 Claude Code Plan Mode

2月11日 — Slack 中的 Claude Code 集成获得了 Plan Mode。在 Slack 中给 Claude 一个代码任务时，它现在可以在执行之前制定计划，从而允许在实施之前验证方法。

功能	描述
Plan Mode	执行前的计划制定
自动检测	代码和聊天之间的智能路由
PR 创建	直接从 Slack 的“Create PR”按钮
先决条件	Pro、Max、Team 或 Enterprise 计划 + 已连接 GitHub

🔗 Boris Cherny 帖子

ElevenLabs 为其语音 Agent 推出表现力模式

2月10日 — ElevenLabs 揭晓了 ElevenAgents 的 Expressive Mode，这是一种进化，使其 AI 语音 Agent 能够实时调整其语气、情感和强调。

该模式基于 Eleven v3 Conversational，这是一种针对实时对话优化的语音合成模型，并结合了减少中断的新轮流系统。价格保持在每分钟 0.08 美元。与此同时，ElevenLabs 将其平台重组为三个产品系列：ElevenAgents（语音 Agent）、ElevenCreative（创意工具）和 ElevenAPI（开发者平台）。

🔗 Expressive Mode 博客

Kimi K2.5 集成在 Qoder 上

2月9日 — Qoder（开发者 AI 平台）部署 Kimi K2.5 作为其市场的旗舰模型，SWE-bench Verified 得分为 76.8%，费率优惠（Efficient 层级 0.3x 信用）。推荐工作流：使用重型模型进行设计和架构，然后使用 K2.5 进行实现。

🔗 Qoder 公告

这意味着什么

开源继续朝着前沿模型快速发展。Z.ai 的 GLM-5 在编码和 Agent 任务基准测试中缩小了与 Claude Opus 4.5 和 GPT-5.2 的差距，同时以 MIT 许可提供。Anthropic 发布 ASL-4 破坏报告建立了安全透明度的先例，其他实验室可能将被迫效仿。

在开发者方面，OpenAI 的 Agent 原语（服务器端压缩、网络容器、API 技能）和“Harness Engineering”方法描绘了一个自主 Agent 管理数小时会话的未来。Kimi Agent Swarm 通过并行编排数百个子 Agent 将这一逻辑推向了更远。