Claude Code 自动模式、ChatGPT 中的可视化购物、Grok Imagine 多图转视频

3月23日和24日这两天信息密集：Anthropic 在 Claude Code 中推出 auto mode——一个代替用户做批准决策的动作分类器——并发布了一篇关于受 GAN 启发的多智能体架构的工程文章。OpenAI 在 ChatGPT 中借助 Agentic Commerce Protocol 推出可视化购物，而 xAI 则在 API 上开放了 Grok Imagine 的多图视频能力。GitHub Copilot、Google DeepMind 和 Anthropic Science Blog 也共同补充了这一轮动态。

Claude Code：auto mode，夹在你和命令之间的分类器

3月24日 — Claude Code 增加了第三层权限：auto mode。此前，这个工具要么要求手动批准每一次文件写入和 bash 命令，要么完全关闭检查。auto mode 引入了一条中间路径：Claude 自行做出决策，但由一个分类器（classifier）在执行前分析每个动作进行约束。

机制很简单——在每次工具调用前，分类器会评估该动作是否可能造成破坏。被判定为安全的动作会自动执行。风险较高的动作会被阻止，Claude 会寻找替代方案，而不会打断用户。

Anthropic 说明，这种模式可以降低风险但无法消除风险，并建议在隔离环境中使用。要启用它：claude --enable-auto-mode，然后用 Shift+Tab 切换到该模式。

该功能以研究预览（research preview）形式在 Team 套餐上提供。Enterprise 和 API 的部署原计划在随后几天上线。

Claude Code 新增 auto mode。与其批准每一次文件写入和 bash 命令，或完全跳过权限检查，不如让 Claude 代你做出权限决定。安全机制会在每个动作运行前进行检查。

🇨🇳 Claude Code 中的新功能：auto mode。与其批准每一次文件写入和每一条 bash 命令，或完全跳过权限检查，不如让 Claude 代你做出权限决定。安全防护会在每个动作运行前进行检查。 — @claudeai 在 X 上

🔗 X 上的公告

多智能体架构：Anthropic Engineering 的 GAN 式方法

3月24日 — 在 Anthropic Engineering Blog 上发布的一篇文章中，Prithvi Rajasekaran（Labs 团队）介绍了一种多智能体架构，用于突破 Claude 在两个领域的极限：界面设计和长周期自主应用开发。

这种方法借鉴了生成对抗网络（Generative Adversarial Networks, GAN）：一个生成器 agent 生成代码或设计，而另一个独立的评估 agent 对结果打分并提供批判性反馈。这种解耦解决了一个已知问题——Claude 往往会对自己的输出过于宽容地自我评估。一个专门的评估器，在逐步用示例校准后，会成为有效的改进杠杆。

对于 前端设计，评估器可以访问 MCP Playwright 来实时浏览页面。系统使用四个标准：设计质量与一致性、原创性（对所谓的“AI slop”通用模式进行惩罚）、技术工艺，以及功能性。经过 10 到 15 次迭代，生成器会产出明显更具辨识度的界面。

对于 应用开发，架构增加了一个规划器：它将一句话提示转化为完整的产品规格。生成器与评估器在每次实现前协商“冲刺契约”，定义成功标准。评估器通过 Playwright 测试应用，并且可以让一个冲刺失败，从而迫使重做。

方法	时长	成本	结果
单体 agent Opus 4.5	20 分钟	9 美元	应用损坏
完整 harness	6 小时	200 美元	应用可运行
搭配 Opus 4.6 的 harness	4 小时	124.70 美元	应用可运行 + 集成 Claude agent

借助 Opus 4.6——它不再受“上下文焦虑”影响——作者得以简化架构、移除会话重置并降低成本。核心原则仍然是：定期审计 harness，删去模型如今已经能自行完成的部分。

🔗 完整文章 🔗 X 上的公告

Cowork 和 Claude Code 中的 Computer Use（macOS，Pro/Max）

3月23日 — Claude 现在可以直接使用你的电脑来完成任务。该功能以研究预览形式提供于 Claude Cowork 和 Claude Code，仅限 macOS。

Claude 可以打开应用、浏览器导航、填写电子表格。思路是：从手机上交付一项任务，去做别的事，然后回来查看已完成的工作。还可以定义重复任务——每天早晨扫描邮件、每周五生成报告。

Computer Use 功能可在 Pro 和 Max 套餐上使用，只需更新桌面应用，并与移动应用配合使用。

🔗 X 上的公告 🔗 Cowork 产品页

Anthropic Economic Index：“Learning curves”（第5份报告）

3月24日 — Anthropic 发布了 Anthropic Economic Index 的第五份报告，标题为 “Learning curves”，基于 2026 年 2 月 Claude 的使用数据（约 100 万次对话，时间为 2 月 5 日至 12 日）。

报告记录了自 2025 年 11 月以来的两个重大变化。首先是 使用场景的多样化：Claude.ai 上最常见的十大任务如今只占流量的 19%，而三个月前为 24%。这一趋势部分可归因于编码任务向 API 的迁移，而这又受到 Claude Code 增长的推动。

其次是 “学习曲线” 效应：长期用户（超过六个月）的成功率高出 4 到 5 个百分点。他们处理更复杂的问题，更多协作，并且在自动模式下更少进行委派。作者将此视为一种通过实践学习（learning-by-doing）的信号，尽管也可能存在幸存者偏差。

在模型选择方面，数据证实用户在高价值任务中更偏好 Opus：每当某项任务的估计价值每增加 10 美元/小时，在 Claude.ai 上使用 Opus 的比例就增加 1.5 个百分点，在 API 上则增加 2.8 个百分点。

🔗 完整报告 🔗 X 上的公告

Anthropic Science Blog：面向科学研究中的 AI 的新博客

3月23日 — Anthropic 推出 Anthropic Science Blog，专注于 AI 与科学研究的交叉领域。其目标是记录 AI 如何加速研究人员的工作，并探讨这一转变所带来的问题。

该博客将发布三类内容：围绕具体成果、并详细说明 AI 角色的深度文章（Features），按科学领域划分的实用指南（Workflows），以及该领域的新闻综述（Field notes）。

本次发布还配套推出了两篇首发文章：“Vibe physics: The AI grad student”（Matthew Schwartz 撰写，展示一位由 Claude 辅助真实计算的物理学家），以及一篇关于为多日科学任务编排 Claude Code 的教程。

这个博客建立在 Anthropic 现有计划之上：AI for Science 项目（为研究人员提供 API credits）、Claude for Life Sciences（与制药和生物技术公司的合作），以及 Genesis Mission。

🔗 发布文章 🔗 X 上的公告

ChatGPT 中的可视化购物与 Agentic Commerce Protocol

3月24日 — OpenAI 在 ChatGPT 中直接推出沉浸式可视化购物体验。用户可以以视觉方式浏览商品，将商品并排比较并查看详情（价格、评价、功能），并在对话中进一步细化搜索——无需离开 ChatGPT。还可以上传一张灵感照片来寻找相似商品。

为支持这一功能，OpenAI 将 Agentic Commerce Protocol (ACP) 扩展到商品发现场景。该协议成为商家与用户之间的连接层：商家通过 ACP 共享目录，数据则直接回流到 ChatGPT。Salesforce 和 Stripe 已作为第三方供应商接入。

详情	信息
可用性	所有 Free、Go、Plus、Pro 用户——本周部署
图片上传	灵感照片，用于寻找相似商品
已接入商家	Target、Sephora、Nordstrom、Lowe’s、Best Buy、The Home Depot、Wayfair
Shopify	商品目录已自动接入，无需商家操作

Walmart 是首个提供 原生 ChatGPT 应用 的商家：从 ChatGPT 中发现商品，到进入 Walmart 环境并完成账号绑定、会员计划和支付。可在网页浏览器使用，iOS 和 Android 也将推出。注：OpenAI 放弃了最初的“Instant Checkout”功能，认为其对商家来说灵活性不足，现将重点转向发现。

🔗 官方公告

OpenAI：青少年安全政策开源

3月24日 — OpenAI 发布了一套开源安全政策，帮助开发者构建适合青少年的体验。这些政策以可直接与 gpt-oss-safeguard 一起使用的 prompts 形式提供，gpt-oss-safeguard 是 OpenAI 的开源权重安全模型。

目标是帮助开发者将抽象的安全目标转化为精确的操作规则。涵盖六个领域：

领域	描述
血腥暴力内容	过滤露骨暴力
露骨性内容	过滤露骨性行为
危险的身体理想	饮食失调、高风险行为
危险活动与挑战	高风险病毒式挑战
浪漫或暴力角色扮演	不当互动
成人专属商品与服务	酒精、烟草、赌博

这些政策由 Common Sense Media 和 everyone.ai 共同开发。它们通过 ROOST Model Community（RMC GitHub）发布，并明确被定位为起点，而非完整解决方案。

🔗 官方公告

OpenAI Foundation：至少部署 10 亿美元

3月24日 — Bret Taylor，OpenAI Foundation 董事会主席，宣布基金会开始动用来自 2025 年秋季资本重组的资源。全年将至少投入 10 亿美元，涵盖四个领域：生命科学（阿尔茨海默病、高死亡率疾病）、就业与经济影响、AI 韧性（儿童安全、生物安全）以及社区项目。

🔗 官方公告

OpenAI：ChatGPT 中用于管理文件的 Library 标签页

3月23日 — OpenAI 在 ChatGPT 中添加了新的文件管理功能：可从工具栏直接访问最近文件、可查询已上传文档，以及在网页侧边栏中新增 Library 标签页以检索全部文件。该功能向 Plus、Pro 和 Business 订阅者开放，并计划随后在欧洲经济区、瑞士和英国推出。

🔗 X 上的公告

Gemini 3.1 Flash-Lite：一个实时生成页面的浏览器

3月24日 — Google DeepMind 发布了 Gemini 3.1 Flash-Lite 的演示：一个实验性浏览器，会在点击、搜索和导航过程中即时生成每个网页。不存在预先生成的 HTML 页面——每一段内容都由模型实时创建。该演示可直接通过 Google AI Studio 访问，并引发了强烈关注（几小时内达到 85,000 次浏览）。

🔗 AI Studio 演示 🔗 X 上的公告

Google DeepMind × Agile Robots：机器人合作伙伴关系

3月24日 — Google DeepMind 宣布与人形机器人专家 Agile Robots 建立研究合作伙伴关系。该协议计划在 Google DeepMind 的 Gemini Robotics 战略框架下，将 Gemini 基础模型集成到 Agile Robots 的机器人硬件中。

🔗 X 上的公告

Grok Imagine：API 上的多图视频（Arena Elo 1342，排名第一）

3月24日 — xAI 为其 Grok Imagine API 公布了两项新能力：基于多张图片生成视频（multi-image to video）以及对现有视频的扩展（video extension）。

开发者最多可提交 7 张输入图片，通过 grok-imagine-video 模型生成连贯视频。该 API 采用异步方式运行：先提交请求，再轮询直到状态为 done。输出支持 16:9 比例的 720p。

根据 Design Arena，Grok Imagine 立即以 Elo 1342 的成绩登上 Multi Image to Video Arena 排行榜第一名。

🔗 @grok 的公告 🔗 Imagine API 文档

GitHub Copilot：用 @copilot 直接修改 PR

3月24日 — GitHub Copilot 现在可以按需直接修改任意 pull request。只需在评论中提及 @copilot，并附上自然语言指令——修复失败的测试、处理 review 评论、添加单元测试——该 agent 就会在云端环境中工作，用测试和 linters 验证成果，然后把更改推送到分支上。先前的行为（创建新的 PR）仍然可以通过明确要求来实现。该功能面向所有付费 Copilot 套餐开放。

🔗 GitHub 更新日志

GitHub Copilot：JetBrains、Xcode 和 Eclipse 中的 Gemini 3.1 Pro

3月23日 — GitHub Copilot 将 Gemini 3.1 Pro 的可用范围扩展到 JetBrains、Xcode 和 Eclipse IDE。 Le modèle est désormais accessible via le sélecteur de modèles Copilot dans tous les modes (agent, ask, edit) sur ces environnements, en plus des plateformes déjà supportées. En preview publique pour les plans Enterprise, Business, Pro et Pro+.

🔗 Journal des modifications GitHub

GitHub Copilot : gestion de l’accès de l’agent par dépôt via API

24 mars — GitHub publie en preview publique une API REST pour gérer l’accès du Copilot coding agent au niveau des dépôts d’organisation. Les administrateurs peuvent autoriser l’agent sur aucun, tous, ou certains dépôts spécifiques de manière programmatique — utile pour les déploiements à grande échelle en entreprise.

🔗 Journal des modifications GitHub

GitHub Copilot : logs en direct dans Raycast

20 mars — L’extension GitHub Copilot pour Raycast (le lanceur macOS/Windows) permet désormais de surveiller en direct les logs du coding agent sans quitter le lanceur. Via la commande “View Tasks”, puis sélection de la session, les développeurs suivent l’avancement de l’agent en temps réel. Disponible pour tous les abonnés Copilot payants.

🔗 Journal des modifications GitHub

Ce que ça signifie

L’auto mode de Claude Code est le changement le plus structurant de cette période. Il déplace la charge cognitive de l’utilisateur — plus besoin d’approuver chaque commande — tout en maintenant un filet de sécurité via le classifieur. C’est une étape vers des agents de développement plus autonomes, mais dans un cadre explicitement recommandé pour les environnements isolés. L’article d’ingénierie sur le harness multi-agents complète ce tableau : la trajectoire d’Anthropic est clairement vers des agents qui travaillent longtemps et de manière autonome, avec des structures de supervision internes (évaluateur dédié, contrats de sprint) plutôt qu’une supervision humaine à chaque étape.

Du côté d’OpenAI, le shopping visuel dans ChatGPT marque un pivot vers les cas d’usage commerciaux grand public. L’Agentic Commerce Protocol positionne ChatGPT comme une couche d’intermédiation entre marchands et consommateurs — une stratégie différente de l’API pure, qui cible directement la valeur transactionnelle.

Grok Imagine qui atteint la première place du classement Arena dès son lancement sur le multi-image to video illustre la vitesse à laquelle xAI itère sur la génération vidéo. GitHub Copilot, de son côté, renforce systématiquement l’autonomie de son coding agent : la capacité à modifier directement une PR existante réduit encore les allers-retours entre l’agent et le développeur.

Sources

本文档已使用 gpt-5.4-mini 模型从 fr 版翻译为 zh 语言。有关翻译流程的更多信息，请参阅 https://gitlab.com/jls42/ai-powered-markdown-translator