Anthropic 凭借 Claude Sonnet 4.6 再次引发关注,该模型以 Sonnet 的价格提供了在许多任务上媲美 Opus 的性能。与此同时,Qwen 发布了其首个开源权重模型 Qwen3.5-397B(拥有3970亿参数),谷歌也将音乐生成模型 Lyria 3 直接集成到了 Gemini 中。
Claude Sonnet 4.6:Sonnet 的价格,Opus 的性能
2月17日 — Anthropic 发布了 Claude Sonnet 4.6,并称其为迄今为止最强大的 Sonnet 模型。该模型在编码、计算机使用(computer use)、长上下文推理、智能体规划、脑力工作和设计方面进行了全面升级。Beta 版目前支持 100万 token 的上下文窗口。
其定位非常明确:以前需要 Opus 模型才能达到的性能,现在可以以 Sonnet 的价格获得,即 每百万 token 15(与 Sonnet 4.5 价格保持一致)。Sonnet 4.6 将成为 claude.ai 和 Claude Cowork 中 Free 和 Pro 计划的默认模型。
Benchmark 与用户反馈
在 Claude Code 中,测试者在约 70% 的时间里倾向于选择 Sonnet 4.6 而非 Sonnet 4.5,并报告称其在修改代码前对上下文的理解更好,且能够整合共享逻辑而非简单复制。更值得注意的是:用户在 59% 的时间里倾向于选择 Sonnet 4.6 而非 Opus 4.5(2025年11月的前沿模型),理由是更少的过度工程、更少的“懒惰”以及更好的指令遵循能力。
| Benchmark | Score |
|---|---|
| SWE-bench Verified | 80.2% (使用改进的 prompt) |
| OSWorld (computer use) | 16个月内的重大进展 |
| OfficeQA | 与 Opus 4.6 持平 |
| Vending-Bench Arena | 投资/转型的全新策略 |
Computer use 能力也显著提升:Sonnet 4.6 相比 Sonnet 4.5 提高了对提示注入(prompt injections)的抵抗力,达到了与 Opus 4.6 相当的水平。
相关产品更新
伴随此次发布,Claude API 的多项功能进入全面可用(GA)状态:代码执行、记忆、程序化工具调用、工具搜索和工具使用示例。Web 搜索和 fetch 工具现在集成了动态过滤功能——Claude 会自动编写并执行代码来过滤搜索结果,仅保留上下文中相关的内容。
对于 Claude in Excel 用户,插件现在支持 MCP 连接器(S&P Global, LSEG, Daloopa, PitchBook, Moody’s, FactSet),适用于 Pro, Max, Team 和 Enterprise 计划。
🔗 官方公告
Anthropic 测量真实环境中的 AI 智能体自主性
2月18日 — Anthropic 发布了一项研究,分析了通过 Claude Code 和公共 API 进行的数百万次人与智能体的交互,旨在了解人类在实践中如何管理智能体的自主性。
关键结果
| 指标 | 数值 |
|---|---|
| 最大自主持续时间 (99.9百分位) | ~45分钟 (3个月内翻倍) |
| 自动批准 (资深用户) | 40%+ (新用户为 20%) |
| 软件工程在 API 流量中的占比 | ~50% |
| 带护栏的操作 | 80% |
| 人类参与 (Human-in-the-loop) 操作 | 73% |
| 不可逆操作 | 0.8% |
一个反直觉的发现是:资深用户同时提高了自动批准率和中断率。他们从逐个操作的监督转变为带有针对性干预的主动监控。此外,Claude 主动暂停以寻求澄清的频率高于人类打断它的频率,特别是在复杂任务中。
研究得出的结论是,能力与使用之间存在显著差距:模型能够处理的自主性远超其实际被赋予的自主性——研究人员称这种现象为“未部署的自主性盈余(surplus of undeployed autonomy)”。
🔗 完整研究报告
Anthropic:卢旺达与 Infosys 合作伙伴关系
2月17日 — 在发布 Sonnet 4.6 的同时,Anthropic 与卢旺达政府签署了谅解备忘录(MOU),将在医疗、教育和公共行政部门部署 Claude。该合作伙伴关系由信息通信技术与创新部主导,包括培训公务员以及在八个非洲国家部署 AI 学习伴侣。
Anthropic 还宣布与 Infosys 合作,为电信和其他受监管行业构建 AI 智能体。
Qwen3.5-397B-A17B:3.5 系列首个开源权重模型
2月16日 — 阿里巴巴 Qwen 发布了 Qwen3.5-397B-A17B,这是 Qwen3.5 系列的首个开源权重模型。通过结合线性注意力(linear attention)和稀疏混合专家(Mixture-of-Experts, MoE)的混合架构,这是一个重大进步。
| 特性 | 详情 |
|---|---|
| 总参数量 | 397B (混合 MoE 架构) |
| 架构 | 混合线性注意力 + 稀疏 MoE |
| 吞吐量 | 比 Qwen3-Max 高 8.6倍 到 19.0倍 |
| 语言 | 201种语言和方言 |
| 许可 | Apache 2.0 |
| 训练 | 大规模强化学习 |
| 专长 | 原生多模态,真实智能体 |
该模型即日起可在 Hugging Face, ModelScope, Alibaba Cloud Model Studio 以及通过 Qwen Code 获取。凭借对 201 种语言的支持和 Apache 2.0 许可证,它是目前在语言覆盖率和推理吞吐量方面最雄心勃勃的开源权重模型之一。
Google Lyria 3:Gemini 迎来音乐生成
2月18日 — Google 和 DeepMind 展示了 Lyria 3,这是一个直接集成到 Gemini 应用程序中的 AI 音乐生成模型。用户可以通过文本提示、照片或视频创作 30 秒的音乐曲目,并生成自定义歌词。
| 功能 | 详情 |
|---|---|
| 输入 | 文本, 图像, 视频 |
| 输出 | 30秒音频曲目 |
| 个性化 | 多样的音乐风格, 生成的歌词 |
| 可用性 | Gemini Beta 版 (18岁+) |
Lyria 3 在乐器和流派的组合上表现出了显著的灵活性,能够创作从顺口溜(jingle)到低保真(lo-fi)音乐的各种作品。全球部署将逐步进行。
OpenAI EVMbench:智能合约安全 benchmark
2月18日 — OpenAI 和 Paradigm 推出了 EVMbench,这是一个评估 AI 智能体检测、修复和利用以太坊智能合约漏洞能力的 benchmark。该 benchmark 基于从 40 次审计(主要是 Code4rena 竞赛)中精选出的 120 个漏洞。
| 模式 | 描述 | GPT-5.3-Codex | GPT-5 (6个月前) |
|---|---|---|---|
| Exploit | 执行利用攻击 | 72.2% | 31.9% |
| Detect | 审计并检测漏洞 | < 完全覆盖 | - |
| Patch | 在保留功能的同时修复 | < 完全覆盖 | - |
一个有趣的发现是:AI 智能体在利用(明确目标)方面比在检测和修复(通常在发现第一个漏洞后就放弃)方面表现更好。OpenAI 重申了其为防御性网络安全提供 1000万美元 API 额度的承诺。
GLM-5 技术报告:Z.ai 对其模型进行文档化
2月18日 — Z.ai 发布了 GLM-5 完整技术报告,详细介绍了其于 2月11日 发布的模型(744B 参数,40B 激活,MIT License)的架构创新。
记录的三项关键创新包括:降低训练和推理成本的 Dynamic Sparse Attention (DSA),解耦生成和训练的异步 RL 基础设施,以及支持复杂和长视野交互的智能体 RL 算法。报告可在 arXiv 上查阅。
🔗 Tweet @Zai_org · 🔗 arXiv
Cohere Labs Tiny Aya:超紧凑多语言 AI
2月17日 — Cohere Labs 推出了 Tiny Aya,这是一个仅有 33.5亿参数 但支持 70多种语言 的小型语言模型系列。目标是让多语言 AI 无处不在,包括手机和离线环境。
Tiny Aya 面向三个群体:使用非英语语言的研究人员、为数字服务不足的社区构建应用的开发人员,以及需要可靠翻译但不依赖云端的嵌入式应用。该模型包含离线翻译功能,提高了隐私性并降低了延迟。
Runway Gen-4.5 API + Claude Code Skill 现已可用
2月17日 — Runway 开放了 Gen-4.5 的 API 访问权限,允许开发者将图像、视频和音频生成直接集成到他们的项目中。伴随公告发布的还有 GitHub 上可用的专用 Claude Code Skill,它允许在不离开开发环境的情况下生成 Runway 多媒体内容。
🔗 Tweet @runwayml · 🔗 GitHub Skills
Manus Agents:拥有长期记忆的个人智能体
2月16日 — Manus 推出了 Manus Agents,这是一项允许每个用户在聊天对话中直接拥有个人智能体的功能。该智能体结合了长期记忆(保留风格、语气和偏好)、完整的创作能力(视频、幻灯片、网站、图像)以及与 Gmail、Calendar 和 Notion 的直接集成。
ElevenAgents for Support
2月17日 — ElevenLabs 推出了 ElevenAgents for Support,这是用于客户支持的 AI 对话智能体。这些智能体支持 70 多种语言的语音和数字渠道,依托于 ElevenLabs 的智能体平台及其 400万+ 生产部署经验。
NotebookLM x Zillow:房地产 Notebook
2月18日 — NotebookLM 与 Zillow 合作,为购房者推出了免费的 Featured Notebook,集中了关于财务准备、市场评估和购买流程的专家建议。
意义
本周展示了两大趋势。首先是前沿性能的民主化:Sonnet 4.6 以五分之一的价格带来了 Opus 的能力,而 Qwen3.5 让 397B 参数的模型可以通过 Apache 2.0 协议获取。其次是 AI 智能体的扩展——Anthropic 的研究表明,最长的自主会话在三个月内翻了一番,而 Manus、ElevenLabs 和 Runway 等参与者正在构建专业化的智能体(个人聊天、客户支持、多媒体创作)。
Lyria 3 将音乐生成引入 Gemini,以及用于区块链安全的 EVMbench,也表明生成式 AI 和安全 AI 继续作为独特的领域在不断结构化。
来源
- Introducing Claude Sonnet 4.6 — Anthropic
- Measuring AI agent autonomy in practice — Anthropic
- Anthropic + Rwanda MOU
- Qwen3.5-397B-A17B — @Alibaba_Qwen
- Lyria 3 — @GoogleAI
- EVMbench — OpenAI
- GLM-5 Technical Report — @Zai_org
- Tiny Aya — @cohere
- Runway Gen-4.5 API — @runwayml
- Manus Agents — @ManusAI
- ElevenAgents for Support — ElevenLabs
- NotebookLM x Zillow — @NotebookLM
- Recherche web améliorée avec filtrage dynamique — Claude Blog
- Claude API improvements — @claudeai