Z.ai 推出了 GLM-5,这是其新的旗舰开源模型,拥有 7440 亿参数,采用 MIT 许可,在编码和 Agent 任务方面跃居开源模型首位。Anthropic 发布了 Opus 4.6 的 ASL-4 破坏风险报告,OpenAI 通过 Agent 原语丰富了其 API,Kimi 揭示了一个由 100 个并行子 Agent 组成的系统。在生态系统方面,Runway 筹集了 3.15 亿美元,ElevenLabs 为其语音 Agent 推出了表现力模式。
Z.ai 推出 GLM-5:744B 参数,MIT 许可开源
2月11日 — Z.ai (Zhipu AI) 推出了 GLM-5,这是其专为复杂系统工程和长期 Agent 任务设计的新前沿模型。与 GLM-4.5 相比,该模型从 3550 亿参数(320 亿激活)增长到 7440 亿参数(400 亿激活),预训练数据从 23T 增加到 28.5T token。
GLM-5 集成了 DeepSeek Sparse Attention (DSA) 以降低部署成本,同时保持长上下文能力,并引入了“slime”,这是一种异步强化学习基础设施,可提高后训练吞吐量。
| 基准测试 | GLM-5 | GLM-4.7 | Kimi K2.5 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|---|
| SWE-bench Verified | 77.8% | 73.8% | 76.8% | 80.9% | 76.2% |
| HLE (text) | 30.5 | 24.8 | 31.5 | 28.4 | 37.2 |
| HLE w/ Tools | 50.4 | 42.8 | 51.8 | 43.4 | 45.8 |
| Terminal-Bench 2.0 | 56.2 | 41.0 | 50.8 | 59.3 | 54.2 |
| Vending Bench 2 | $4,432 | $2,377 | $1,198 | $4,967 | $5,478 |
GLM-5 将自己定位为推理、编码和 Agent 任务方面的最佳开源模型,缩小了与专有前沿模型的差距。在 Vending Bench 2(一个模拟管理自动售货机一年的基准测试)中,GLM-5 以 4,432 美元的余额结束,接近 Claude Opus 4.5(4,967 美元)。
除了代码,GLM-5 还可以直接生成 .docx、.pdf 和 .xlsx 文件——提案、财务报告、电子表格——即插即用。Z.ai 部署了一个带有内置文档创建技能的 Agent 模式,支持多轮协作。
模型权重在 Hugging Face 上以 MIT 许可发布。GLM-5 与 Claude Code 和 OpenClaw 兼容,并在 OpenRouter 上可用。部署是逐步的,从 Coding Plan Max 订阅者开始。
🔗 GLM-5 技术博客 🔗 X 上的公告
Anthropic 发布首份 ASL-4 破坏风险报告
2月11日 — Anthropic 发布了 Claude Opus 4.6 的破坏风险报告,以应对自主 AI 研发的 ASL-4 (AI Safety Level 4) 安全阈值。
在发布 Claude Opus 4.5 时,Anthropic 承诺为每个新的前沿模型撰写破坏风险报告。该公司没有在模糊的阈值中徘徊,而是选择主动遵守更高的 ASL-4 安全标准。
| 元素 | 详情 |
|---|---|
| 评估模型 | Claude Opus 4.6 |
| 安全阈值 | ASL-4 (AI Safety Level 4) |
| 领域 | 自主 AI 研发 |
| 格式 | 公开 PDF 报告 |
| 先例 | Opus 4.5 发布期间做出的承诺 |
这是 AI 安全透明度迈出的重要一步:Anthropic 是首批为生产中的模型发布此类破坏报告的实验室之一。
When we released Claude Opus 4.5, we knew future models would be close to our AI Safety Level 4 threshold for autonomous AI R&D. We therefore committed to writing sabotage risk reports for future frontier models. Today we’re delivering on that commitment for Claude Opus 4.6.
🇨🇳 当我们发布 Claude Opus 4.5 时,我们知道未来的模型将接近我们用于自主 AI 研发的 AI Safety Level 4 阈值。因此,我们承诺为未来的前沿模型撰写破坏风险报告。今天,我们正在为 Claude Opus 4.6 履行这一承诺。 — @AnthropicAI on X
OpenAI:Responses API 中的新 Agent 原语
2月10日 — OpenAI 在 Responses API 中引入了三个新原语,用于长期 Agent 工作。
服务器端压缩
允许数小时的 Agent 会话而不达到上下文限制。压缩由服务器端管理。早期访问测试者 Triple Whale 报告称,在单个会话中实现了 150 次工具调用和 500 万个 token,且精度没有损失。
联网容器
OpenAI 托管的容器现在可以以受控方式访问互联网。管理员在仪表板中定义域白名单,请求必须显式定义 network_policy,并且可以注入域机密而无需向模型公开原始值。
API 中的技能
原生支持 Agent Skills 标准,并带有第一个预构建技能(电子表格)。技能是可重用和版本化的包,可以挂载在托管的 shell 环境中,模型在运行时决定是否调用它们。
| 原语 | 描述 | 状态 |
|---|---|---|
| 服务器端压缩 | 无上下文限制的数小时会话 | 可用 |
| 联网容器 | 托管容器的受控互联网访问 | 可用 |
| API 中的技能 | 可重用包(第一个技能:电子表格) | 可用 |
Kimi Agent Swarm:100 个子 Agent 编排
2月10日 — Kimi (Moonshot AI) 揭晓了 Agent Swarm,这是一种多 Agent 协调能力,允许使用多达 100 个专用子 Agent 并行化复杂任务。
该系统可以执行超过 1,500 次工具调用,速度比顺序执行快 4.5 倍。用例涵盖多文件同时生成(Word、Excel、PDF)、并行内容分析和并行多种风格的创意生成。Agent Swarm 解决了 LLM 的一个结构性限制:在填充上下文的长任务中推理能力下降。
🔗 Kimi 公告
OpenAI Harness Engineering:Codex 实现零行手动代码
2月11日 — OpenAI 发布了关于构建一个零行手动编写代码的内部软件产品的经验。在 5 个月的时间里,一个 3 到 7 名工程师的团队完全使用 Codex 来生成所有代码。
| 指标 | 价值 |
|---|---|
| 生成的代码行数 | ~100 万 |
| Pull requests | ~1,500 |
| 每位工程师每天的 PR | 平均 3.5 |
| 内部用户 | 数百人 |
| 预计时间 | 手动所需时间的 1/10 |
| Codex 会话 | 长达 6+ 小时 |
“Harness Engineering”方法重新定义了工程师的角色:设计环境、指定意图并为 Agent 构建反馈循环,而不是编写代码。存储库中的结构化文档作为指南(AGENTS.md 作为目录),架构是刚性的,带有 Codex 生成的 linter 和结构测试,重复性任务扫描偏差并自动打开重构 PR。
Runway 在 E 轮融资中筹集 3.15 亿美元
2月10日 — Runway 宣布获得 3.15 亿美元的 E 轮融资,使其估值达到 53 亿美元。该轮融资由 General Atlantic 领投,NVIDIA、Adobe Ventures、AMD Ventures、Fidelity、AllianceBernstein 等参与。
| 详情 | 价值 |
|---|---|
| 金额 | 3.15 亿美元 |
| 轮次 | E |
| 估值 | 53 亿美元(D 轮为 33 亿美元) |
| 领投方 | General Atlantic |
| 2018 年以来筹集总额 | 8.6 亿美元 |
资金将用于预训练下一代“世界模型”——能够模拟物理世界的模型——并将其部署在新的产品和行业中。此公告是在 Runway 最新的视频生成模型 Gen-4.5 发布之后发布的。
🔗 官方公告 🔗 Runway 在 X 上的帖子
Cowork 可在 Windows 上使用
2月10日 — Claude Cowork,用于多步任务的桌面应用程序,现在作为研究预览版在 Windows 上可用,具有与 macOS 相比完整的功能平价。
| 功能 | 描述 |
|---|---|
| 文件访问 | 读取和写入本地文件 |
| 插件 | 支持 Cowork 插件 |
| MCP 连接器 | 与 MCP 服务器集成 |
| 每个文件夹的指令 | Claude.md 风格 — 每个项目的自然语言指令 |
Windows 上的 Cowork 可通过 claude.com/cowork 供所有付费 Claude 计划使用。
Claude 免费计划中的免费功能
2月11日 — Anthropic 扩展了 Claude 免费计划中可用的功能。文件创建、连接器、技能和压缩现在无需订阅即可使用。压缩允许 Claude 自动总结以前的上下文,以便在不重新开始的情况下继续长对话。
🔗 免费计划公告
Slack 中的 Claude Code Plan Mode
2月11日 — Slack 中的 Claude Code 集成获得了 Plan Mode。在 Slack 中给 Claude 一个代码任务时,它现在可以在执行之前制定计划,从而允许在实施之前验证方法。
| 功能 | 描述 |
|---|---|
| Plan Mode | 执行前的计划制定 |
| 自动检测 | 代码和聊天之间的智能路由 |
| PR 创建 | 直接从 Slack 的“Create PR”按钮 |
| 先决条件 | Pro、Max、Team 或 Enterprise 计划 + 已连接 GitHub |
ElevenLabs 为其语音 Agent 推出表现力模式
2月10日 — ElevenLabs 揭晓了 ElevenAgents 的 Expressive Mode,这是一种进化,使其 AI 语音 Agent 能够实时调整其语气、情感和强调。
该模式基于 Eleven v3 Conversational,这是一种针对实时对话优化的语音合成模型,并结合了减少中断的新轮流系统。价格保持在每分钟 0.08 美元。与此同时,ElevenLabs 将其平台重组为三个产品系列:ElevenAgents(语音 Agent)、ElevenCreative(创意工具)和 ElevenAPI(开发者平台)。
Kimi K2.5 集成在 Qoder 上
2月9日 — Qoder(开发者 AI 平台)部署 Kimi K2.5 作为其市场的旗舰模型,SWE-bench Verified 得分为 76.8%,费率优惠(Efficient 层级 0.3x 信用)。推荐工作流:使用重型模型进行设计和架构,然后使用 K2.5 进行实现。
🔗 Qoder 公告
这意味着什么
开源继续朝着前沿模型快速发展。Z.ai 的 GLM-5 在编码和 Agent 任务基准测试中缩小了与 Claude Opus 4.5 和 GPT-5.2 的差距,同时以 MIT 许可提供。Anthropic 发布 ASL-4 破坏报告建立了安全透明度的先例,其他实验室可能将被迫效仿。
在开发者方面,OpenAI 的 Agent 原语(服务器端压缩、网络容器、API 技能)和“Harness Engineering”方法描绘了一个自主 Agent 管理数小时会话的未来。Kimi Agent Swarm 通过并行编排数百个子 Agent 将这一逻辑推向了更远。