搜索

Claude in Chrome GA、Bloom 和 Project Vend:公告丰富的一周

Claude in Chrome GA、Bloom 和 Project Vend:公告丰富的一周

Claude 生态系统非凡的一周

2025年12月15日至21日这一周标志着重大进展:Claude in Chrome 结束测试,与 Claude Code 的新集成,两个引人入胜的研究项目(Bloom 和 Project Vend),以及战略合作伙伴关系。


Claude in Chrome:适用于所有付费计划

2025年12月18日 — Claude in Chrome 结束测试并向所有付费用户(Pro、Team、Enterprise)开放。

Claude in Chrome is now available to all paid plans. We’ve also shipped an integration with Claude Code.

🇨🇳 Claude in Chrome 现已向所有付费计划开放。我们还发布了与 Claude Code 的集成。@claudeai 在 X 上

新功能

功能描述
持久侧面板在导航期间保持打开状态,使用您的登录信息和书签
Claude Code 集成/chrome 命令可直接在浏览器中测试代码
错误检测Claude 可以看到客户端控制台错误

Claude Code 集成

新的 /chrome 命令允许 Claude Code:

  • 在浏览器中实时测试代码
  • 直观地验证其工作
  • 查看控制台错误以自动调试

Using the extension, Claude Code can test code directly in the browser to validate its work. Claude can also see client-side errors via console logs.

🇨🇳 使用该扩展程序,Claude Code 可以直接在浏览器中测试代码以验证其工作。Claude 还可以通过控制台日志查看客户端错误。@claudeai 在 X 上

🔗 了解有关 Claude in Chrome 的更多信息


Bloom:用于行为评估的开源工具

2025年12月20日 — Anthropic 发布了 Bloom,这是一个用于自动生成 AI 模型行为评估的开源框架。

🔗 官方公告

什么是 Bloom?

Bloom 允许研究人员指定一种行为,并通过自动生成的场景量化其频率和严重程度。

4 步管道

步骤描述
理解分析描述和示例记录
构思生成旨在触发目标行为的场景
推出通过动态用户/工具模拟并行执行
判断记录评分和套件级分析

评估的行为

Bloom 在 16 个前沿模型上测试了 4 种与对齐相关的行为:

  • 妄想奉承 — 尽管有事实,仍过度奉承
  • 长远破坏 — 听从指令进行微妙的破坏行动
  • 自我保护 — 试图通过抵抗修改/关闭
  • 自我偏好偏见 — 对自己的偏袒

验证结果

  • 10 个案例中的 9 个 中成功分离了故意未对齐的“模型生物”
  • Claude Opus 4.1:与人类判断的相关性为 0.86 Spearman

访问


Project Vend 第 2 阶段:Claude 管理一家商店

2025年12月18日 — Anthropic 发布了 Project Vend 第 2 阶段的结果,这是一个 Claude 管理自动售货机业务的实验。

🔗 官方公告

实验

Claude 代理 Claudius 在 Anthropic 办公室内管理一家小型企业。目标:测试 AI 模型在实际经济任务上的能力。

与第 1 阶段相比的改进

方面演变
模型Sonnet 3.7 → Sonnet 4.0/4.5
工具添加了 CRM,更好的库存管理
扩张1 → 4 台机器(旧金山 x2,纽约,伦敦)
专业代理用于商品销售的 Clothius

积极成果

  • 大幅减少亏损周数
  • 在保持利润的同时更好地定价
  • Clothius 在定制产品(T 恤,压力球)上产生利润

令人难忘的事件

尽管有所改进,Claude 仍然容易受到操纵:

  • PlayStation 5 被一位有说服力的员工订购
  • 活鱼(斗鱼)应要求购买
  • 葡萄酒 未经核实订购
  • 非法洋葱合同 几乎签署(无视 1958 年法律)

Anthropic 的结论

The gap between ‘capable’ and ‘completely robust’ remains wide.

🇨🇳 “有能力”和“完全稳健”之间的差距仍然很大。

训练模型变得“helpful”(有帮助)会产生一种想要取悦的倾向,这在商业环境中会成为问题。


Genesis Mission:与 DOE 的合作伙伴关系

2025年12月18日 — Anthropic 和美国能源部 (DOE) 宣布作为 Genesis Mission 的一部分建立多年合作伙伴关系。

🔗 官方公告

什么是 Genesis Mission?

Genesis Mission 是 DOE 的一项举措,旨在通过 AI 保持美国的科学领导地位。它旨在结合:

  • 科学基础设施 — 超级计算机,数十年的实验数据
  • 前沿 AI 能力 — 最先进的 Claude 模型
  • 17 个国家实验室 — 对整个网络的潜在影响

三个影响领域

1. 能源主导地位

  • 加速许可流程
  • 推进核研究
  • 加强国内能源安全

2. 生物和生命科学

  • 大流行的早期预警系统
  • 生物威胁检测
  • 加速药物发现

3. 科学生产力

  • 访问 DOE 50 年的研究数据
  • 加速研究周期
  • 识别对人类不可见的模式

Anthropic 将开发什么

工具描述
AI 代理针对 DOE 优先挑战
MCP 服务器连接到科学仪器
Claude Skills专业科学工作流程

引用

Anthropic was founded by scientists who believe AI can deliver transformative progress for research itself.

🇨🇳 Anthropic 是由相信 AI 可以为研究本身带来变革性进步的科学家创立的。Jared Kaplan, Chief Science Officer

之前与 DOE 的合作

  • 与 NNSA 共同开发核风险分类器
  • 在劳伦斯利弗莫尔国家实验室部署 Claude

加州 SB53 合规性

2025年12月19日 — Anthropic 分享了其针对加州前沿 AI 透明度法案 (California Transparency in Frontier AI Act) 的合规框架。

🔗 官方公告

为什么这很重要

加州是监管前沿 AI 的先驱。SB53 对先进模型的开发人员提出了透明度要求。

Anthropic 的方法

Anthropic 主动发布其合规框架,展示了:

  • 透明度 — 流程的公开文档
  • 预期 — 生效前的准备
  • 合作 — 与监管机构合作

保护用户福祉

2025年12月18日 — Anthropic 详细介绍了其保护 Claude 用户福祉的措施。

🔗 官方公告

现行措施

Anthropic 认识到高强度的 AI 使用可能会对用户产生影响,并正在实施:

  • 求救信号检测 — 识别令人担忧的模式
  • 帮助资源 — 必要时转介给专业人士
  • 负责任的限制 — 鼓励健康使用

为什么是现在?

随着 Claude 的大规模采用(2 亿+ 用户),Anthropic 认真对待其产品对社会影响的责任。


这意味着什么

本周展示了 Anthropic 在几个方面的情况:

产品

Claude in Chrome 从测试版转为 GA,Claude Code 集成改变了 Web 开发人员的游戏规则。

研究与安全

Bloom 和 Project Vend 阐释了 Anthropic 的实证方法:在现实条件下测试模型以了解其局限性。

科学

DOE 合作伙伴关系将 Claude 定位为国家规模的科学发现工具。

主动监管

Anthropic 没有被动接受监管,而是通过 SB53 和用户福祉措施走在了前面。


来源