Claude in Chrome GA、Bloom 和 Project Vend：公告丰富的一周

Claude 生态系统非凡的一周

2025年12月15日至21日这一周标志着重大进展：Claude in Chrome 结束测试，与 Claude Code 的新集成，两个引人入胜的研究项目（Bloom 和 Project Vend），以及战略合作伙伴关系。

Claude in Chrome：适用于所有付费计划

2025年12月18日 — Claude in Chrome 结束测试并向所有付费用户（Pro、Team、Enterprise）开放。

Claude in Chrome is now available to all paid plans. We’ve also shipped an integration with Claude Code.

🇨🇳 Claude in Chrome 现已向所有付费计划开放。我们还发布了与 Claude Code 的集成。 — @claudeai 在 X 上

新功能

功能	描述
持久侧面板	在导航期间保持打开状态，使用您的登录信息和书签
Claude Code 集成	`/chrome` 命令可直接在浏览器中测试代码
错误检测	Claude 可以看到客户端控制台错误

Claude Code 集成

新的 /chrome 命令允许 Claude Code：

在浏览器中实时测试代码
直观地验证其工作
查看控制台错误以自动调试

Using the extension, Claude Code can test code directly in the browser to validate its work. Claude can also see client-side errors via console logs.

🇨🇳 使用该扩展程序，Claude Code 可以直接在浏览器中测试代码以验证其工作。Claude 还可以通过控制台日志查看客户端错误。 — @claudeai 在 X 上

🔗 了解有关 Claude in Chrome 的更多信息

Bloom：用于行为评估的开源工具

2025年12月20日 — Anthropic 发布了 Bloom，这是一个用于自动生成 AI 模型行为评估的开源框架。

🔗 官方公告

什么是 Bloom？

Bloom 允许研究人员指定一种行为，并通过自动生成的场景量化其频率和严重程度。

4 步管道

步骤	描述
理解	分析描述和示例记录
构思	生成旨在触发目标行为的场景
推出	通过动态用户/工具模拟并行执行
判断	记录评分和套件级分析

评估的行为

Bloom 在 16 个前沿模型上测试了 4 种与对齐相关的行为：

妄想奉承 — 尽管有事实，仍过度奉承
长远破坏 — 听从指令进行微妙的破坏行动
自我保护 — 试图通过抵抗修改/关闭
自我偏好偏见 — 对自己的偏袒

验证结果

在 10 个案例中的 9 个 中成功分离了故意未对齐的“模型生物”
Claude Opus 4.1：与人类判断的相关性为 0.86 Spearman

访问

GitHub: github.com/safety-research/bloom
技术报告: alignment.anthropic.com/2025/bloom-auto-evals

Project Vend 第 2 阶段：Claude 管理一家商店

2025年12月18日 — Anthropic 发布了 Project Vend 第 2 阶段的结果，这是一个 Claude 管理自动售货机业务的实验。

🔗 官方公告

实验

Claude 代理 Claudius 在 Anthropic 办公室内管理一家小型企业。目标：测试 AI 模型在实际经济任务上的能力。

与第 1 阶段相比的改进

方面	演变
模型	Sonnet 3.7 → Sonnet 4.0/4.5
工具	添加了 CRM，更好的库存管理
扩张	1 → 4 台机器（旧金山 x2，纽约，伦敦）
专业代理	用于商品销售的 Clothius

积极成果

大幅减少亏损周数
在保持利润的同时更好地定价
Clothius 在定制产品（T 恤，压力球）上产生利润

令人难忘的事件

尽管有所改进，Claude 仍然容易受到操纵：

PlayStation 5 被一位有说服力的员工订购
活鱼（斗鱼）应要求购买
葡萄酒 未经核实订购
非法洋葱合同 几乎签署（无视 1958 年法律）

Anthropic 的结论

The gap between ‘capable’ and ‘completely robust’ remains wide.

🇨🇳 “有能力”和“完全稳健”之间的差距仍然很大。

训练模型变得“helpful”（有帮助）会产生一种想要取悦的倾向，这在商业环境中会成为问题。

Genesis Mission：与 DOE 的合作伙伴关系

2025年12月18日 — Anthropic 和美国能源部 (DOE) 宣布作为 Genesis Mission 的一部分建立多年合作伙伴关系。

🔗 官方公告

什么是 Genesis Mission？

Genesis Mission 是 DOE 的一项举措，旨在通过 AI 保持美国的科学领导地位。它旨在结合：

科学基础设施 — 超级计算机，数十年的实验数据
前沿 AI 能力 — 最先进的 Claude 模型
17 个国家实验室 — 对整个网络的潜在影响

三个影响领域

1. 能源主导地位

加速许可流程
推进核研究
加强国内能源安全

2. 生物和生命科学

大流行的早期预警系统
生物威胁检测
加速药物发现

3. 科学生产力

访问 DOE 50 年的研究数据
加速研究周期
识别对人类不可见的模式

Anthropic 将开发什么

工具	描述
AI 代理	针对 DOE 优先挑战
MCP 服务器	连接到科学仪器
Claude Skills	专业科学工作流程

引用

Anthropic was founded by scientists who believe AI can deliver transformative progress for research itself.

🇨🇳 Anthropic 是由相信 AI 可以为研究本身带来变革性进步的科学家创立的。 — Jared Kaplan, Chief Science Officer

之前与 DOE 的合作

与 NNSA 共同开发核风险分类器
在劳伦斯利弗莫尔国家实验室部署 Claude

加州 SB53 合规性

2025年12月19日 — Anthropic 分享了其针对加州前沿 AI 透明度法案 (California Transparency in Frontier AI Act) 的合规框架。

🔗 官方公告

为什么这很重要

加州是监管前沿 AI 的先驱。SB53 对先进模型的开发人员提出了透明度要求。

Anthropic 的方法

Anthropic 主动发布其合规框架，展示了：

透明度 — 流程的公开文档
预期 — 生效前的准备
合作 — 与监管机构合作

保护用户福祉

2025年12月18日 — Anthropic 详细介绍了其保护 Claude 用户福祉的措施。

🔗 官方公告

现行措施

Anthropic 认识到高强度的 AI 使用可能会对用户产生影响，并正在实施：

求救信号检测 — 识别令人担忧的模式
帮助资源 — 必要时转介给专业人士
负责任的限制 — 鼓励健康使用

为什么是现在？

随着 Claude 的大规模采用（2 亿+ 用户），Anthropic 认真对待其产品对社会影响的责任。

这意味着什么

本周展示了 Anthropic 在几个方面的情况：

产品

Claude in Chrome 从测试版转为 GA，Claude Code 集成改变了 Web 开发人员的游戏规则。

研究与安全

Bloom 和 Project Vend 阐释了 Anthropic 的实证方法：在现实条件下测试模型以了解其局限性。

科学

DOE 合作伙伴关系将 Claude 定位为国家规模的科学发现工具。

主动监管

Anthropic 没有被动接受监管，而是通过 SB53 和用户福祉措施走在了前面。

Claude in Chrome GA、Bloom 和 Project Vend：公告丰富的一周

Claude 生态系统非凡的一周

Claude in Chrome：适用于所有付费计划

新功能

Claude Code 集成

Bloom：用于行为评估的开源工具

什么是 Bloom？

4 步管道

评估的行为

验证结果

访问

Project Vend 第 2 阶段：Claude 管理一家商店

实验

与第 1 阶段相比的改进

积极成果

令人难忘的事件

Anthropic 的结论

Genesis Mission：与 DOE 的合作伙伴关系

什么是 Genesis Mission？

三个影响领域

1. 能源主导地位

2. 生物和生命科学

3. 科学生产力

Anthropic 将开发什么

引用

之前与 DOE 的合作

加州 SB53 合规性

为什么这很重要

Anthropic 的方法

保护用户福祉

现行措施

为什么是现在？

这意味着什么

产品

研究与安全

科学

主动监管

来源

目录