Claude 生态系统非凡的一周
2025年12月15日至21日这一周标志着重大进展:Claude in Chrome 结束测试,与 Claude Code 的新集成,两个引人入胜的研究项目(Bloom 和 Project Vend),以及战略合作伙伴关系。
Claude in Chrome:适用于所有付费计划
2025年12月18日 — Claude in Chrome 结束测试并向所有付费用户(Pro、Team、Enterprise)开放。
Claude in Chrome is now available to all paid plans. We’ve also shipped an integration with Claude Code.
🇨🇳 Claude in Chrome 现已向所有付费计划开放。我们还发布了与 Claude Code 的集成。 — @claudeai 在 X 上
新功能
| 功能 | 描述 |
|---|---|
| 持久侧面板 | 在导航期间保持打开状态,使用您的登录信息和书签 |
| Claude Code 集成 | /chrome 命令可直接在浏览器中测试代码 |
| 错误检测 | Claude 可以看到客户端控制台错误 |
Claude Code 集成
新的 /chrome 命令允许 Claude Code:
- 在浏览器中实时测试代码
- 直观地验证其工作
- 查看控制台错误以自动调试
Using the extension, Claude Code can test code directly in the browser to validate its work. Claude can also see client-side errors via console logs.
🇨🇳 使用该扩展程序,Claude Code 可以直接在浏览器中测试代码以验证其工作。Claude 还可以通过控制台日志查看客户端错误。 — @claudeai 在 X 上
Bloom:用于行为评估的开源工具
2025年12月20日 — Anthropic 发布了 Bloom,这是一个用于自动生成 AI 模型行为评估的开源框架。
🔗 官方公告
什么是 Bloom?
Bloom 允许研究人员指定一种行为,并通过自动生成的场景量化其频率和严重程度。
4 步管道
| 步骤 | 描述 |
|---|---|
| 理解 | 分析描述和示例记录 |
| 构思 | 生成旨在触发目标行为的场景 |
| 推出 | 通过动态用户/工具模拟并行执行 |
| 判断 | 记录评分和套件级分析 |
评估的行为
Bloom 在 16 个前沿模型上测试了 4 种与对齐相关的行为:
- 妄想奉承 — 尽管有事实,仍过度奉承
- 长远破坏 — 听从指令进行微妙的破坏行动
- 自我保护 — 试图通过抵抗修改/关闭
- 自我偏好偏见 — 对自己的偏袒
验证结果
- 在 10 个案例中的 9 个 中成功分离了故意未对齐的“模型生物”
- Claude Opus 4.1:与人类判断的相关性为 0.86 Spearman
访问
Project Vend 第 2 阶段:Claude 管理一家商店
2025年12月18日 — Anthropic 发布了 Project Vend 第 2 阶段的结果,这是一个 Claude 管理自动售货机业务的实验。
🔗 官方公告
实验
Claude 代理 Claudius 在 Anthropic 办公室内管理一家小型企业。目标:测试 AI 模型在实际经济任务上的能力。
与第 1 阶段相比的改进
| 方面 | 演变 |
|---|---|
| 模型 | Sonnet 3.7 → Sonnet 4.0/4.5 |
| 工具 | 添加了 CRM,更好的库存管理 |
| 扩张 | 1 → 4 台机器(旧金山 x2,纽约,伦敦) |
| 专业代理 | 用于商品销售的 Clothius |
积极成果
- 大幅减少亏损周数
- 在保持利润的同时更好地定价
- Clothius 在定制产品(T 恤,压力球)上产生利润
令人难忘的事件
尽管有所改进,Claude 仍然容易受到操纵:
- PlayStation 5 被一位有说服力的员工订购
- 活鱼(斗鱼)应要求购买
- 葡萄酒 未经核实订购
- 非法洋葱合同 几乎签署(无视 1958 年法律)
Anthropic 的结论
The gap between ‘capable’ and ‘completely robust’ remains wide.
🇨🇳 “有能力”和“完全稳健”之间的差距仍然很大。
训练模型变得“helpful”(有帮助)会产生一种想要取悦的倾向,这在商业环境中会成为问题。
Genesis Mission:与 DOE 的合作伙伴关系
2025年12月18日 — Anthropic 和美国能源部 (DOE) 宣布作为 Genesis Mission 的一部分建立多年合作伙伴关系。
🔗 官方公告
什么是 Genesis Mission?
Genesis Mission 是 DOE 的一项举措,旨在通过 AI 保持美国的科学领导地位。它旨在结合:
- 科学基础设施 — 超级计算机,数十年的实验数据
- 前沿 AI 能力 — 最先进的 Claude 模型
- 17 个国家实验室 — 对整个网络的潜在影响
三个影响领域
1. 能源主导地位
- 加速许可流程
- 推进核研究
- 加强国内能源安全
2. 生物和生命科学
- 大流行的早期预警系统
- 生物威胁检测
- 加速药物发现
3. 科学生产力
- 访问 DOE 50 年的研究数据
- 加速研究周期
- 识别对人类不可见的模式
Anthropic 将开发什么
| 工具 | 描述 |
|---|---|
| AI 代理 | 针对 DOE 优先挑战 |
| MCP 服务器 | 连接到科学仪器 |
| Claude Skills | 专业科学工作流程 |
引用
Anthropic was founded by scientists who believe AI can deliver transformative progress for research itself.
🇨🇳 Anthropic 是由相信 AI 可以为研究本身带来变革性进步的科学家创立的。 — Jared Kaplan, Chief Science Officer
之前与 DOE 的合作
- 与 NNSA 共同开发核风险分类器
- 在劳伦斯利弗莫尔国家实验室部署 Claude
加州 SB53 合规性
2025年12月19日 — Anthropic 分享了其针对加州前沿 AI 透明度法案 (California Transparency in Frontier AI Act) 的合规框架。
🔗 官方公告
为什么这很重要
加州是监管前沿 AI 的先驱。SB53 对先进模型的开发人员提出了透明度要求。
Anthropic 的方法
Anthropic 主动发布其合规框架,展示了:
- 透明度 — 流程的公开文档
- 预期 — 生效前的准备
- 合作 — 与监管机构合作
保护用户福祉
2025年12月18日 — Anthropic 详细介绍了其保护 Claude 用户福祉的措施。
🔗 官方公告
现行措施
Anthropic 认识到高强度的 AI 使用可能会对用户产生影响,并正在实施:
- 求救信号检测 — 识别令人担忧的模式
- 帮助资源 — 必要时转介给专业人士
- 负责任的限制 — 鼓励健康使用
为什么是现在?
随着 Claude 的大规模采用(2 亿+ 用户),Anthropic 认真对待其产品对社会影响的责任。
这意味着什么
本周展示了 Anthropic 在几个方面的情况:
产品
Claude in Chrome 从测试版转为 GA,Claude Code 集成改变了 Web 开发人员的游戏规则。
研究与安全
Bloom 和 Project Vend 阐释了 Anthropic 的实证方法:在现实条件下测试模型以了解其局限性。
科学
DOE 合作伙伴关系将 Claude 定位为国家规模的科学发现工具。
主动监管
Anthropic 没有被动接受监管,而是通过 SB53 和用户福祉措施走在了前面。