搜索

GLM-5 开源,ASL-4 破坏风险报告,OpenAI 推出 Agent 原语

GLM-5 开源,ASL-4 破坏风险报告,OpenAI 推出 Agent 原语

Z.ai 推出了 GLM-5,这是其新的旗舰开源模型,拥有 7440 亿参数,采用 MIT 许可,在编码和 Agent 任务方面跃居开源模型首位。Anthropic 发布了 Opus 4.6 的 ASL-4 破坏风险报告,OpenAI 通过 Agent 原语丰富了其 API,Kimi 揭示了一个由 100 个并行子 Agent 组成的系统。在生态系统方面,Runway 筹集了 3.15 亿美元,ElevenLabs 为其语音 Agent 推出了表现力模式。


Z.ai 推出 GLM-5:744B 参数,MIT 许可开源

2月11日 — Z.ai (Zhipu AI) 推出了 GLM-5,这是其专为复杂系统工程和长期 Agent 任务设计的新前沿模型。与 GLM-4.5 相比,该模型从 3550 亿参数(320 亿激活)增长到 7440 亿参数(400 亿激活),预训练数据从 23T 增加到 28.5T token。

GLM-5 集成了 DeepSeek Sparse Attention (DSA) 以降低部署成本,同时保持长上下文能力,并引入了“slime”,这是一种异步强化学习基础设施,可提高后训练吞吐量。

基准测试GLM-5GLM-4.7Kimi K2.5Claude Opus 4.5Gemini 3 Pro
SWE-bench Verified77.8%73.8%76.8%80.9%76.2%
HLE (text)30.524.831.528.437.2
HLE w/ Tools50.442.851.843.445.8
Terminal-Bench 2.056.241.050.859.354.2
Vending Bench 2$4,432$2,377$1,198$4,967$5,478

GLM-5 将自己定位为推理、编码和 Agent 任务方面的最佳开源模型,缩小了与专有前沿模型的差距。在 Vending Bench 2(一个模拟管理自动售货机一年的基准测试)中,GLM-5 以 4,432 美元的余额结束,接近 Claude Opus 4.5(4,967 美元)。

除了代码,GLM-5 还可以直接生成 .docx、.pdf 和 .xlsx 文件——提案、财务报告、电子表格——即插即用。Z.ai 部署了一个带有内置文档创建技能的 Agent 模式,支持多轮协作。

模型权重在 Hugging Face 上以 MIT 许可发布。GLM-5 与 Claude Code 和 OpenClaw 兼容,并在 OpenRouter 上可用。部署是逐步的,从 Coding Plan Max 订阅者开始。

🔗 GLM-5 技术博客 🔗 X 上的公告


Anthropic 发布首份 ASL-4 破坏风险报告

2月11日 — Anthropic 发布了 Claude Opus 4.6 的破坏风险报告,以应对自主 AI 研发的 ASL-4 (AI Safety Level 4) 安全阈值。

在发布 Claude Opus 4.5 时,Anthropic 承诺为每个新的前沿模型撰写破坏风险报告。该公司没有在模糊的阈值中徘徊,而是选择主动遵守更高的 ASL-4 安全标准。

元素详情
评估模型Claude Opus 4.6
安全阈值ASL-4 (AI Safety Level 4)
领域自主 AI 研发
格式公开 PDF 报告
先例Opus 4.5 发布期间做出的承诺

这是 AI 安全透明度迈出的重要一步:Anthropic 是首批为生产中的模型发布此类破坏报告的实验室之一。

When we released Claude Opus 4.5, we knew future models would be close to our AI Safety Level 4 threshold for autonomous AI R&D. We therefore committed to writing sabotage risk reports for future frontier models. Today we’re delivering on that commitment for Claude Opus 4.6.

🇨🇳 当我们发布 Claude Opus 4.5 时,我们知道未来的模型将接近我们用于自主 AI 研发的 AI Safety Level 4 阈值。因此,我们承诺为未来的前沿模型撰写破坏风险报告。今天,我们正在为 Claude Opus 4.6 履行这一承诺。@AnthropicAI on X

🔗 Anthropic 帖子


OpenAI:Responses API 中的新 Agent 原语

2月10日 — OpenAI 在 Responses API 中引入了三个新原语,用于长期 Agent 工作。

服务器端压缩

允许数小时的 Agent 会话而不达到上下文限制。压缩由服务器端管理。早期访问测试者 Triple Whale 报告称,在单个会话中实现了 150 次工具调用和 500 万个 token,且精度没有损失。

联网容器

OpenAI 托管的容器现在可以以受控方式访问互联网。管理员在仪表板中定义域白名单,请求必须显式定义 network_policy,并且可以注入域机密而无需向模型公开原始值。

API 中的技能

原生支持 Agent Skills 标准,并带有第一个预构建技能(电子表格)。技能是可重用和版本化的包,可以挂载在托管的 shell 环境中,模型在运行时决定是否调用它们。

原语描述状态
服务器端压缩无上下文限制的数小时会话可用
联网容器托管容器的受控互联网访问可用
API 中的技能可重用包(第一个技能:电子表格)可用

🔗 OpenAIDevs 帖子


Kimi Agent Swarm:100 个子 Agent 编排

2月10日 — Kimi (Moonshot AI) 揭晓了 Agent Swarm,这是一种多 Agent 协调能力,允许使用多达 100 个专用子 Agent 并行化复杂任务。

该系统可以执行超过 1,500 次工具调用,速度比顺序执行快 4.5 倍。用例涵盖多文件同时生成(Word、Excel、PDF)、并行内容分析和并行多种风格的创意生成。Agent Swarm 解决了 LLM 的一个结构性限制:在填充上下文的长任务中推理能力下降。

🔗 Kimi 公告


OpenAI Harness Engineering:Codex 实现零行手动代码

2月11日 — OpenAI 发布了关于构建一个零行手动编写代码的内部软件产品的经验。在 5 个月的时间里,一个 3 到 7 名工程师的团队完全使用 Codex 来生成所有代码。

指标价值
生成的代码行数~100 万
Pull requests~1,500
每位工程师每天的 PR平均 3.5
内部用户数百人
预计时间手动所需时间的 1/10
Codex 会话长达 6+ 小时

“Harness Engineering”方法重新定义了工程师的角色:设计环境、指定意图并为 Agent 构建反馈循环,而不是编写代码。存储库中的结构化文档作为指南(AGENTS.md 作为目录),架构是刚性的,带有 Codex 生成的 linter 和结构测试,重复性任务扫描偏差并自动打开重构 PR。

🔗 Harness Engineering 博客


Runway 在 E 轮融资中筹集 3.15 亿美元

2月10日 — Runway 宣布获得 3.15 亿美元的 E 轮融资,使其估值达到 53 亿美元。该轮融资由 General Atlantic 领投,NVIDIA、Adobe Ventures、AMD Ventures、Fidelity、AllianceBernstein 等参与。

详情价值
金额3.15 亿美元
轮次E
估值53 亿美元(D 轮为 33 亿美元)
领投方General Atlantic
2018 年以来筹集总额8.6 亿美元

资金将用于预训练下一代“世界模型”——能够模拟物理世界的模型——并将其部署在新的产品和行业中。此公告是在 Runway 最新的视频生成模型 Gen-4.5 发布之后发布的。

🔗 官方公告 🔗 Runway 在 X 上的帖子


Cowork 可在 Windows 上使用

2月10日 — Claude Cowork,用于多步任务的桌面应用程序,现在作为研究预览版在 Windows 上可用,具有与 macOS 相比完整的功能平价。

功能描述
文件访问读取和写入本地文件
插件支持 Cowork 插件
MCP 连接器与 MCP 服务器集成
每个文件夹的指令Claude.md 风格 — 每个项目的自然语言指令

Windows 上的 Cowork 可通过 claude.com/cowork 供所有付费 Claude 计划使用。

🔗 Cowork Windows 公告


Claude 免费计划中的免费功能

2月11日 — Anthropic 扩展了 Claude 免费计划中可用的功能。文件创建、连接器、技能和压缩现在无需订阅即可使用。压缩允许 Claude 自动总结以前的上下文,以便在不重新开始的情况下继续长对话。

🔗 免费计划公告


Slack 中的 Claude Code Plan Mode

2月11日 — Slack 中的 Claude Code 集成获得了 Plan Mode。在 Slack 中给 Claude 一个代码任务时,它现在可以在执行之前制定计划,从而允许在实施之前验证方法。

功能描述
Plan Mode执行前的计划制定
自动检测代码和聊天之间的智能路由
PR 创建直接从 Slack 的“Create PR”按钮
先决条件Pro、Max、Team 或 Enterprise 计划 + 已连接 GitHub

🔗 Boris Cherny 帖子


ElevenLabs 为其语音 Agent 推出表现力模式

2月10日 — ElevenLabs 揭晓了 ElevenAgents 的 Expressive Mode,这是一种进化,使其 AI 语音 Agent 能够实时调整其语气、情感和强调。

该模式基于 Eleven v3 Conversational,这是一种针对实时对话优化的语音合成模型,并结合了减少中断的新轮流系统。价格保持在每分钟 0.08 美元。与此同时,ElevenLabs 将其平台重组为三个产品系列:ElevenAgents(语音 Agent)、ElevenCreative(创意工具)和 ElevenAPI(开发者平台)。

🔗 Expressive Mode 博客


Kimi K2.5 集成在 Qoder 上

2月9日 — Qoder(开发者 AI 平台)部署 Kimi K2.5 作为其市场的旗舰模型,SWE-bench Verified 得分为 76.8%,费率优惠(Efficient 层级 0.3x 信用)。推荐工作流:使用重型模型进行设计和架构,然后使用 K2.5 进行实现。

🔗 Qoder 公告


这意味着什么

开源继续朝着前沿模型快速发展。Z.ai 的 GLM-5 在编码和 Agent 任务基准测试中缩小了与 Claude Opus 4.5 和 GPT-5.2 的差距,同时以 MIT 许可提供。Anthropic 发布 ASL-4 破坏报告建立了安全透明度的先例,其他实验室可能将被迫效仿。

在开发者方面,OpenAI 的 Agent 原语(服务器端压缩、网络容器、API 技能)和“Harness Engineering”方法描绘了一个自主 Agent 管理数小时会话的未来。Kimi Agent Swarm 通过并行编排数百个子 Agent 将这一逻辑推向了更远。


来源