搜索

Claude Opus 4.7 上线,Codex 转向 macOS computer use,OpenAI 发布 GPT-Rosalind

Claude Opus 4.7 上线,Codex 转向 macOS computer use,OpenAI 发布 GPT-Rosalind

4月16日异常繁忙:Anthropic 发布 Claude Opus 4.7 的正式版,在 agentic benchmarks 上有显著提升;OpenAI 同时推出 Codex,带来 macOS 上的 computer use 和 GPT-Rosalind——其首个专用于生命科学的 frontier 模型。Google 为 Gemini 应用加入通过 Nano Banana 2 和 Google Photos 进行个性化图片生成,Perplexity 为 Mac 推出 Personal Computer,而 GitHub 则开放 gh skill 命令,用于跨 agent 管理 skills。


Claude Opus 4.7:正式可用

4月16日 — Anthropic 发布 Claude Opus 4.7,进入正式可用(generally available)。该模型接替 Opus 4.6,在长任务、agent 自主性和指令精确性方面都有显著进步。

“Opus 4.7 handles complex, long-running tasks with rigor and consistency, pays precise attention to instructions, and devises ways to verify its own outputs before reporting back.”

🇨🇳 Opus 4.7 能以严谨和稳定的方式处理漫长而复杂的任务,精准关注指令,并设计方法在输出前验证自己的结果。@claudeai 在 X 上

关键能力

功能描述
高分辨率视觉图片最长边可达 2,576 px(约 375 万像素),分辨率是上一代的 3 倍
xhigh effort 级别位于 highmax 之间的中间级别,细致控制推理/延迟
文件系统记忆工作会话之间更好的持久性
增强自主性在传输前验证输出,严格遵循指令
专业级质量更高质量的界面、幻灯片和文档

Benchmarks

BenchmarkOpus 4.7Opus 4.6GPT-5.4Gemini 3.1 Pro
SWE-bench Pro64.3%53.4%57.7%54.2%
SWE-bench Verified87.6%80.8%80.6%
Terminal-Bench 2.069.4%65.4%75.1%*68.5%
多学科推理(含工具)54.7%53.3%58.7%51.4%
大规模工具使用 – MCP-Atlas77.3%75.8%68.1%73.9%
Computer use – OSWorld Verified78.0%72.7%75.0%
高级推理 – GPQA Diamond94.2%91.3%94.4%94.3%
视觉推理(含工具)91.0%84.7%

* GPT-5.4:使用特定 harness 的自报结果

最显著的提升体现在 SWE-bench Pro(+10.9 分)、视觉推理(+6.3 分,含工具)以及 MCP-Atlas(+1.5 分)——这些 benchmark 都直接关联 agent 场景。

定价与可用性

Opus 4.7 从今天起可通过 Claude API(标识符 claude-opus-4-7)、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry,以及所有 Claude 产品使用。定价与 Opus 4.6 保持一致:输入每百万 token 5 美元,输出 25 美元

对从 Opus 4.6 迁移的开发者有两点需要注意:新的 tokenizer 可能根据内容类型生成 1.0× 到 1.35× 更多的 token,而且 Opus 4.7 在高 effort 级别会生成更多推理 token。Anthropic 已发布专门的迁移指南。

Opus 4.7 也是首个受益于 Glasswing 项目新网络安全护栏的模型。面向合规专业人士的 Cyber Verification Program 已开放。

🔗 Anthropic 官方文章


Claude Code v2.1.111:/ultrareview、Max 自动模式、默认 xhigh

4月16日 — Claude Code 的 2.1.111 版本随 Opus 4.7 一同发布,并带来多项重要新增功能。

功能描述
/ultrareview深度代码审查,支持多 agent 并行。无参数 = 当前分支;/ultrareview <PR#> 用于 GitHub PR。Pro 和 Max 可免费试用 3 次。
Max 的自动模式auto mode(由 Claude 自主决定权限)现已向使用 Opus 4.7 的 Max 订阅用户开放。
默认 xhigh effort所有套餐的默认 effort 级别提升为 xhigh
/less-permission-prompts扫描 transcripts,并为 .claude/settings.json 提供优先级排序的授权列表。
PowerShell tool支持 PowerShell(逐步部署)。可通过 Linux/macOS 上的 CLAUDE_CODE_USE_POWERSHELL_TOOL=1 启用。
命名 plans以初始 prompt(fix-auth-race-snug-otter.md)命名 plans,而不是随机命名。
只读命令cdlscat 以及只读命令不再触发权限请求。

2.1.112 版本(于 4 月 16 日晚间部署)立即修复了在 auto mode 下出现的 “claude-opus-4-7 is temporarily unavailable” 错误。

Boris Cherny(@bcherny)还宣布提高所有订阅用户的 rate limits,以补偿 Opus 4.7 更高的推理 token 量。长上下文请求的 rate limiting bug 已修复,5 小时和每周限额也已重置。

GitHub Copilot 也从今天起集成 Opus 4.7 GA,并将在 VS Code、Visual Studio、CLI、GitHub Mobile 和其他 Copilot 客户端中逐步推出。对 Copilot Pro+ 来说,它将在未来几周内取代 Opus 4.5 和 4.6。促销定价(7.5× 乘数)将持续到 4 月 30 日。

🔗 Claude Code 更新日志 🔗 @bcherny 的推文 🔗 GitHub Copilot 中的 Claude Opus 4.7


OpenAI:Codex 转向 computer use,GPT-Rosalind 与 cyber ecosystem

Codex —— macOS 上的 computer use、集成 browser、持久记忆

4月16日 — OpenAI 发布 Codex 的重要更新,每周有超过 300 万开发者在使用。此次发布将 Codex 的能力扩展到远超代码的范围。

“Codex can now use your computer alongside you, seeing, clicking, and typing with its own cursor.”

🇨🇳 Codex 现在可以在你身边使用你的电脑,用它自己的光标进行查看、点击和输入。@OpenAI

Computer use(使用电脑 — 多个 Codex agent 可以在 macOS 上同时工作,而不会干扰已打开的应用。使用场景:迭代 frontend、测试应用、在没有公开 API 的应用里工作。EU/UK 可用性即将到来。

功能描述
内置 browser可直接在网页上发表评论,向 agent 说明 frontend 开发和游戏相关任务
图片生成集成 gpt-image-1.5,在同一工作流中创建素材和 mockup
90+ 新插件Atlassian Rovo、CircleCI、CodeRabbit、GitLab Issues、Microsoft Suite、Neon、Remotion、Render、Superpowers…
持久记忆在不同会话之间积累偏好、修正与上下文
计划任务自动化按天或按周执行重复任务,并可自动唤醒
SSH devboxes连接远程服务器(alpha)
多终端标签页同时使用多个终端

🔗 OpenAI 官方文章

GPT-Rosalind —— 首个生命科学 frontier 模型

4月16日 — OpenAI 发布 GPT-Rosalind,这是其首个专用于生物学、药物发现(drug discovery)和转化医学的 frontier 模型。名称致敬 Rosalind Franklin,她的研究有助于揭示 DNA 结构。

GPT-Rosalind 针对科学文献综述、假设生成、实验规划以及生物数据分析进行了优化。

Benchmark结果
BixBench(真实生物信息学)在已公布分数的模型中表现最佳
LABBench2在 11 项任务中的 6 项上超过 GPT-5.4
RNA 序列预测(Dyno Therapeutics)人类专家前 5% 分位(best-of-10)
RNA 序列生成(Dyno Therapeutics)约人类专家前 16% 分位(best-of-10)

GitHub 上提供一个免费的 Life Sciences Codex plugin:可访问 50 多个公开生物数据库(人类基因组学、蛋白质组学、生物化学)。GPT-Rosalind 以 research preview 形式向美国符合条件的 Enterprise 客户开放,可通过 Trusted Access 计划使用。预览期间不会消耗现有额度。

公布的合作伙伴:Amgen、Novo Nordisk、Moderna、Thermo Fisher Scientific、NVIDIA、Allen Institute、UCSF School of Pharmacy、Los Alamos National Laboratory。

🔗 OpenAI 官方文章

Cyber defense ecosystem — 1000 万美元 API credits

4月16日 — OpenAI 拨出 1000 万美元 API credits,用于支持开源安全团队和漏洞研究人员。首批受益者:Socket、Semgrep、Calif、Trail of Bits。

Trusted Access for Cyber 项目扩展至新的组织:Bank of America、BlackRock、BNY、Citi、Cisco、CrowdStrike、Goldman Sachs、JPMorgan Chase、Morgan Stanley、NVIDIA、Oracle、Zscaler。GPT-5.4-Cyber 也已提供给美国人工智能标准与创新中心(CAISI)和英国 AI 安全研究所(UK AISI),用于独立评估。

🔗 OpenAI 官方文章


Gemini:通过 Nano Banana 2 和 Google Photos 实现个性化图片

4月16日 — Google 在 Gemini 应用中推出新的个性化图片生成功能,由 Personal Intelligence(个人智能)、Nano Banana 2 和用户的 Google Photos 图库驱动。

此前,要在 Gemini 中创建真正个性化的图片,需要详细的 prompts 和手动上传的照片。如今,Personal Intelligence 让 Gemini 对用户上下文拥有隐式理解:只需像“画出我的梦想之家”或“创建一张我去荒岛时必带物品的图片”这样的简单表达,Gemini 就会自动从已连接的 Google 应用中填充细节。

连接 Google Photos 图库后,用户可以生成自己和亲友直接出现在画面中的图片。借助 Photos 中已创建的标签(人物、宠物),像“创建一张我和家人以 claymation 风格做我们最喜欢活动的图片”这样的请求就足够了。

功能细节
可用风格水彩、炭笔、油画、claymation
Sources 按钮显示自动选择了哪张照片
精修指出哪里不正确,选择另一张参考照片
隐私Gemini 不会用私有 Google Photos 图库进行训练
Opt-in连接 Google 应用仍然是可选且可配置的

可用性: 正在分几天逐步向美国的 Google AI Plus、Pro 和 Ultra 订阅用户推出,目前仅限美国。之后还会来到 Chrome desktop 版 Gemini,并覆盖更多用户。

🔗 blog.google 文章

Gemini CLI v0.38.0

4月14日 — Gemini CLI 的 v0.38.0 版本发布,带来多项命令行体验改进。

功能细节
Chapters(叙事流)按意图和工具使用将交互分组为“chapters”
Context Compression Service为长会话智能压缩历史记录
持久批准允许执行工具而无需每次都重新询问
UI 闪烁修复通过 Terminal Buffer 模式修复不稳定渲染

🔗 Gemini CLI 更新日志


Perplexity Personal Computer:Mac 上的本地 agent

4月16日 — Perplexity 推出 Personal Computer,这是集成到 Mac 应用中的本地 agent 功能。

“Today we’re releasing Personal Computer. Personal Computer integrates with the Perplexity Mac App for secure orchestration across your local files, native apps, and browser. We’re rolling this out to all Perplexity Max subscribers and everyone on the waitlist starting today.”

🇨🇳 今天我们推出 Personal Computer。Personal Computer 集成到 Perplexity Mac 应用中,可安全编排你的本地文件、原生应用和浏览器。我们从今天起向所有 Perplexity Max 订阅用户以及候补名单上的用户推出这项功能。@perplexity_ai 在 X 上

该 agent 可安全编排本地文件、原生应用和浏览器,而敏感数据无需经过云端。部署是渐进式的:先面向 Perplexity Max 订阅用户,然后面向候补名单。

这对 Perplexity 来说是一次值得注意的转向:在以 AI web search 建立声誉之后,公司如今开始进军桌面端本地编排——这也是 Apple Intelligence 和 OpenAI 的 Operator 已经探索过的领域。

🔗 perplexity.ai/computer


GitHub:gh skill 命令进入公共预览

4月16日 — GitHub 在 GitHub CLI(v2.90.0+)中推出 gh skill 的公共预览。这个新命令可用于安装、发现、更新和发布 agent skills——一种可移植的指令、脚本与资源集合,用于配置 AI agent 的行为。

gh skill install github/awesome-copilot documentation-writer
gh skill install github/awesome-copilot doc-writer --agent claude-code
gh skill search mcp-apps
gh skill update --all

这些 skills 可在多个平台上工作:GitHub Copilot、Claude Code、Cursor、Codex、Gemini CLI 和 Antigravity。该命令集成了 supply chain 安全机制:按 tag 或 commit SHA 锁定、不可变 releases,以及通过 frontmatter 进行 provenance 跟踪。开放规范可在 agentskills.io 获取。

🔗 GitHub 更新日志


Qwen3.6-35B-A3B 开源与 Meta Muse Spark Safety

Qwen3.6-35B-A3B:Apache 2.0 下的开源 MoE

4月15–16日 — Alibaba 宣布将 Qwen3.6-35B-A3B 开源,这是一款 sparse MoE(mixture-of-experts)模型,总参数量为 350 亿,但每次推理仅激活 30 亿参数。

方面细节
架构sparse MoE:350 亿参数,30 亿激活
许可证Apache 2.0
多模态原生支持(视觉 + 推理)
模式Thinking / non-thinking
BenchmarkQwen3.6-35B-A3B
SWE-bench Verified73,4
SWE-bench Multilingual67,2
AIME 202692,7
GPQA86,0

可在 Hugging Face / ModelScope、Qwen Studio 以及通过 Alibaba Cloud API(qwen3.6-flash)使用。原生兼容 Claude Code、Qwen Code 和 OpenClaw。 🔗 Qwen 官方博客

Meta Muse Spark:已发布安全报告

4月15日 — Meta AI 发布了 Muse Spark 的安全与准备度报告(Safety & Preparedness Report),这是 Meta Superintelligence Labs 开发的首个非开放权重多模态模型。

方面细节
使用的框架Meta Advanced AI Scaling Framework
评估的风险化学/生物、网络安全、失控
chem/bio 结果初始风险被评为“潜在较高” → 缓解措施已验证 → 剩余风险可接受

这份报告标志着一个值得注意的步骤:Meta 现在在部署其先进模型之前,遵循正式的安全评估流程,类似于 Anthropic 和 OpenAI 的做法。

🔗 Muse Spark 安全报告


媒体和各类更新

Runway 在 4 月 16 日发布了两项更新:Seedance 2.0 现已支持 1080p 渲染,而 Runway Characters 也加入了文本脚本动画功能(选择角色、编写脚本、生成)。NVIDIA 也出席了 NAB Show 2026,展示 AI 在媒体制作、粉丝互动和内容变现中的应用。

Grok iOS 在语音模式中获得了一个动画视觉指示器:现在一个小圆圈会提示 Grok 正在主动监听。

🔗 Runway — Seedance 2.0 支持 1080p 🔗 Runway Characters — 脚本动画


这意味着什么

4 月 16 日体现了各个方向上的智能体融合:Claude Opus 4.7、带 computer use 的 Codex、Perplexity Personal Computer 和 gh skill 共享着同样的逻辑——能够在本地系统上执行操作(文件、应用、电脑)的智能体,并通过可移植标准在多个平台之间协调。

gh skill 命令尤其具有结构性意义:通过提出一个开放的智能体间安装规范(Copilot、Claude Code、Cursor、Codex、Gemini CLI),GitHub 建立了一个公共基础设施,它可能会成为智能体世界的 npm install

GPT-Rosalind 则标志着 OpenAI 战略上的一次演进:在通用模型之后,公司开始按领域创建专门的 frontier 模型——这种做法让人联想到 Google DeepMind 已在计算生物学中探索过的垂直化多元布局。


来源

本文档已使用 gpt-5.4-mini 模型从 fr 版本翻译为 zh 语言。有关翻译过程的更多信息,请参阅 https://gitlab.com/jls42/ai-powered-markdown-translator