搜索

OpenAI 推出 GPT-5.5,Anthropic 为 Managed Agents 开放记忆,Kimi K2.6 Agent Swarm

OpenAI 推出 GPT-5.5,Anthropic 为 Managed Agents 开放记忆,Kimi K2.6 Agent Swarm

4 月 23 日 2026 年标志着信息密集的一天:OpenAI 推出 GPT-5.5,在 ARC-AGI-2 上达到 85%,并将 API 价格定为输入 $5/M tokens;与此同时,Anthropic 为其 Managed Agents 在 beta 中开启持久记忆,并发布了一篇关于 Claude Code 的事后分析。与此同时,GitHub Copilot 在三天内推出了七项更新,Kimi K2.6 部署了一个包含 300 个子 agent 的 swarm,而 SpaceX 则与 Cursor 达成了一项编码合作。


GPT-5.5:OpenAI 的 frontier 模型

4 月 23 日 — OpenAI 推出 GPT-5.5,这是其迄今最强大的模型,面向真实工作与 agents 设计。它显著提升了 agentic 编码、计算机使用(computer use)、知识工作和科学研究能力,同时保持了 GPT-5.4 的延迟表现。

可用性与定价

GPT-5.5 现已向 ChatGPT Plus、Pro、Business 和 Enterprise 订阅用户开放,同时也可在 Codex 中使用。API 访问“很快就会到来”。

方案API 访问输入输出
GPT-5.5 standard即将推出$5 / M tokens$30 / M tokens
GPT-5.5 Pro即将推出$30 / M tokens$180 / M tokens

Codex 中的上下文窗口达到 400K tokens。还提供 Fast 模式——速度快 1.5 倍,成本为 2.5 倍。

Benchmarks

评测GPT-5.5GPT-5.4Claude Opus 4.7Gemini 3.1 Pro
Terminal-Bench 2.082.7%75.1%69.4%68.5%
Expert-SWE(内部)73.1%68.5%
SWE-Bench Pro58.6%57.7%64.3%54.2%
GDPval84.9%83.0%80.3%67.3%
OSWorld-Verified78.7%75.0%78.0%
ARC-AGI-285.0%73.3%75.8%77.1%
FrontierMath Tier 435.4%27.1%22.9%16.7%
CyberGym81.8%79.0%73.1%
BixBench(生物信息学)80.5%74.0%

GPT-5.5 在大多数 benchmarks 上领先,只有一个显著例外:SWE-Bench Pro,其中 Claude Opus 4.7 保持优势(64.3% 对 58.6%)。

基础设施与安全

该模型与 NVIDIA GB200/GB300 NVL72 共同设计。Codex 使用 GPT-5.5 优化了自己的基础设施,token 生成速度提升了 20%。在网络安全方面,GPT-5.5 在 OpenAI 的 Preparedness Framework 中被归类为 High(不是 Critical);Trusted Access Cyber 计划也已扩展给它。

科学研究

除了代码之外,GPT-5.5 还帮助证明了一个关于 Ramsey 数的新定理(组合数学),并在 Lean 中完成形式化验证。它还在几分钟内分析了一个包含 62 个样本和 28,000 个基因的基因组数据集——这项任务原本需要研究团队数月时间。

« GPT-5.5 est nettement plus intelligent et persévérant que GPT-5.4, avec de meilleures performances en codage et une utilisation des outils plus fiable. »

🇨🇳 GPT-5.5 明显比 GPT-5.4 更聪明、更有毅力,在编码方面表现更强,工具使用也更可靠。 — Michael Truell, Cursor 联合创始人兼 CEO

🔗 GPT-5.5 公告


持久化 agents 浪潮

三项重大公告在 4 月 23 日围绕持久化 agent 汇聚:这类 agent 能够长时间自主行动,并在不同 session 之间保留上下文。

ChatGPT 中的 OpenAI Workspace Agents

4 月 22 日 — OpenAI 推出 工作空间 agentsWorkspace Agents):团队只需创建一次、可在 ChatGPT 或 Slack 中共同使用并持续改进的共享 agents。它们由云端 Codex 驱动,即使用户离线也能执行复杂任务。Workspace Agents 正在逐步取代 GPT,而 GPT 在过渡期间仍可继续使用。

Agent 类型功能
软件检查器审查请求、比对政策、创建 IT 工单
产品反馈路由器监控 Slack/支持/论坛 → 优先级工单
报告生成器周五提取数据、生成图表、汇总
销售线索 agent搜索潜在客户、评估、撰写邮件、更新 CRM
第三方风险负责人评估供应商、生成结构化报告

面向 Business、Enterprise、Edu 和 Teachers 提供 research preview;截至 2026 年 5 月 6 日 免费,之后按 credits 计费。

Ankur Bhatt(Rippling AI Engineering)称,原先销售团队每周要花 5 到 6 小时的工作,如今已在每个商机上自动在后台执行。

🔗 Workspace Agents


Anthropic — Claude Managed Agents 的记忆

4 月 23 日Claude Managed Agents 的记忆功能已在 Claude Platform 上进入公开 beta。现在,agents 可以通过直接挂载在文件系统上的记忆层,在不同 session 之间学习;这些 agents 使用的 bash 和 code 执行能力,与它们已经用于 agentic 任务的能力相同。

功能细节
可共享存储多个 agents,不同访问范围(只读 / 读写)
并发访问并行 session 之间不会互相覆盖
审计日志哪个 session、哪个 agent、哪段记忆
回退可回退到任意先前版本
可导出性memories 可通过 API 管理

客户结果展示了实际影响:

客户结果
Rakuten首次通过错误率 -97%,成本 -27%,延迟 -34%
Wisedocs文档核验速度 +30%
Netflixsession 间上下文连续,无需手动更新
Ando无需专用基础设施的 platform memory

Memory in Claude Managed Agents lets us put continuous learning into production at scale. Our agents distill lessons from every session, delivering 97% fewer first-pass errors at 27% lower cost and 34% lower latency.

🇨🇳 Claude Managed Agents 中的记忆让我们能够将持续学习大规模投入生产。我们的 agents 会提炼每个 session 的经验,从而带来首次通过错误减少 97%、成本降低 27%、延迟降低 34%。 — Yusuke Kaji, Rakuten Business AI 总经理

🔗 Managed Agents 记忆


Claude Code:质量事后分析与两个新版本

事后分析与重置限制

4 月 23 日 — Claude Code 团队发布了一篇关于上个月报告的三项质量问题的 post-mortem。所有问题都已在 v2.1.116+ 中修复。所有订阅者的使用限制已被重置。

Over the past month, some of you reported Claude Code’s quality had slipped. We investigated, and published a post-mortem on the three issues we found. All are fixed in v2.1.116+ and we’ve reset usage limits for all subscribers.

🇨🇳 在过去一个月里,你们中的一些人报告说 Claude Code 的质量有所下降。我们已经进行了调查,并发布了对所发现三项问题的 post-mortem。所有问题都已在 v2.1.116+ 中修复,而且我们已为所有订阅者重置了使用限制。@ClaudeDevs

v2.1.117 和 v2.1.118

版本主要功能
v2.1.118Vim 可视模式(v/V),支持选择和 operator;统一的 /usage(合并 /cost/stats);/theme 中的自定义主题;通过 type: "mcp_tool" 调用 MCP tools 的 hooks;严格 DISABLE_UPDATES;通过 WSL 继承 Windows managed settings
v2.1.117Pro/Max 在 Opus 4.6 和 Sonnet 4.6 上的默认 effort 提升到 high(原为 medium);外部 builds 上可启用 sub-agent fork;glob/Grep 被替换为更快研究用的内嵌 bfs/ugrep;Opus 4.7 session 修复(1M context 计算正确);修复 Bedrock+Opus 4.7 在 thinking 关闭时的问题

🔗 Claude Code 更新日志


面向日常生活的新 Claude connectors

4 月 23 日 — Anthropic 将其 connectors 目录扩展到了面向消费者的应用。自 2025 年 7 月以来,已有 200 多个面向专业工具的 connectors 可用;这次更新新增了 15 项日常服务。

应用类别
AllTrails徒步
Audible有声书
Booking.com旅行
Instacart在线购物
Intuit Credit Karma金融
Intuit TurboTax税务
Resy餐厅预订
Spotify音乐
StubHub售票
Taskrabbit上门服务
Thumbtack本地专业人士
TripAdvisor旅行
Uber交通
Uber Eats餐食配送
Viator旅游活动

Claude 现在会根据对话上下文自动建议相关 connectors。适用于所有方案(含免费),web、desktop 和 mobile(mobile 为 beta)。没有付费置顶,也没有赞助回复;某个 app 的数据不会用于训练模型。

🔗 日常生活 connectors


GitHub Copilot — 三天七次更新

GitHub Copilot 在 4 月 22 日至 23 日之间发布了 changelog 中的七条条目。

pull requests 的 Chat(3 项新能力)

4 月 23 日 — Copilot Chat 现已为 pull requests 集成三项能力,可通过 github.com/copilot 或 diffs 上的 Copilot 按钮访问(公开 preview):

  • PR 理解pull request understanding):将评论、变更、commits 和 review 作为上下文整合
  • PR review:按需进行结构化 review
  • PR 摘要:对变更进行简明摘要

🔗 Copilot Chat PR 改进

可从 issues 和 projects 控制的 agent sessions

4 月 23 日 — cloud agent 现在可直接从 GitHub issues 和项目 boards 中控制:issue 标头中的 session 指示器、进度侧边栏、以及所有项目视图中默认启用的 sessions。

🔗 来自 issues 的 agent sessions

在 web 上对 stack traces 进行结构化调试

4 月 23 日 — github.com 上的 Copilot Chat 现在会以六个结构化步骤引导 stack traces 分析:出了什么问题、为什么、根因、来自代码的证据、置信度以及下一步检查。

🔗 stack traces 调试

VS Code 中的 BYOK 现已 GA

4 月 22 日 — Bring Your Own Key(带上你自己的 API key)已在 VS Code 中面向 Copilot Business 和 Enterprise 用户正式可用。支持 Anthropic、Gemini、OpenAI、OpenRouter、Azure,以及通过 Ollama 和 Foundry Local 的本地模型。计费由所选供应商直接进行,不计入 Copilot 配额。

🔗 BYOK VS Code GA

面向 Copilot CLI 的 C++ Language Server 公开 preview

4 月 22 日 — Microsoft C++ Language Server(Visual Studio/VS Code 的 IntelliSense 引擎)现已面向 Copilot CLI 提供公开 preview。它提供精确的语义数据(符号定义、引用、调用层级、类型),替代迭代式 grep 搜索。前提条件:Copilot CLI 认证 + compile_commands.json

🔗 C++ Language Server

暂停新的 Business self-serve 注册

4 月 22 日 — GitHub 暂停了 GitHub Free 和 GitHub Team 方案上 Copilot Business 的新的 self-serve 注册。现有客户不受影响。

🔗 暂停 Business self-serve

API metrics 中的 used_copilot_cloud_agent 字段

4 月 23 日 — 随着“coding agent”重命名为“cloud agent”,metrics API 在用户报告(1 天和 28 天滚动)中新增了 used_copilot_cloud_agent 字段。旧字段 used_copilot_coding_agent 将保留至 2026 年 8 月 1 日。

🔗 cloud agent metrics


Gemini CLI v0.39.0 与面向所有 Ultra 用户的 Deep Think

Gemini CLI v0.39.0

4 月 23 日 — Google 发布 Gemini CLI v0.39.0,标记为 “Latest”的稳定版本。亮点是新的 /memory inbox 命令,用于在工作 session 中审查并验证 CLI 自动提取的 skills。

功能描述
/memory inbox审查自动提取的 skills
统一的 invoke_subagent以统一接口重构的 sub-agent 工具
紧凑格式化compact 模式下更易读
Plan Mode — 确认激活 skills 前需要确认
精简启动轻量父进程以更快启动
JSONL streaming 迁移将 chat sessions 记录为 JSONL

新增快捷键:Ctrl+Backspace 用于按词删除(Windows Terminal),Ctrl+Shift+G

🔗 Gemini CLI v0.39.0

面向所有 Ultra 订阅者开放 Deep Think

4 月 22 日 — Google 将 Deep Think 模式(深度推理,extended thinking)开放给所有 Gemini Ultra 订阅者。该模式此前仅限部分用户使用;现在可直接从 Gemini app(web 和 mobile)的工具菜单中使用。

🔗 @GeminiApp 推文


Kimi K2.6:300 个子 agent 的 swarm 与 open-weights benchmarks

Agent Swarm — 300 个并行子 agent

4 月 23 日 — Moonshot AI 推出 Kimi K2.6 Agent Swarm:一个系统,能够在每次执行中并行部署 300 个子 agent,跨越 4,000 个步骤,而 K2.5 只有 100 个 agent 和 1,500 个步骤。

能力K2.5K2.6
并行子 agent100300
每次执行步骤数1,5004,000
输出类型聊天文本100+ 个真实文件、10 万词 review、2 万行 datasets

这些子 agent 融合了多种不同技能:web 研究、数据分析、编码、长篇写作和视觉生成。可在 kimi.com/agent-swarm 使用。

🔗 @Kimi_Moonshot 推文

Benchmarks:open-weights 第一名

4 月 23 日 — Kimi K2.6 在两个 benchmarks 上登顶 open-weights 模型第一名: - Design Arena:与 Claude Opus 4.7 相同的性能带宽

  • MathArena open(Think 模式):领先 GLM 5.1

🔗 Design Arena


SpaceXAI × Cursor 和 Grok Imagine

SpaceXAI × Cursor 合作

4月22日 — SpaceXAI(由 xAI/SpaceX 合并产生的实体)与 Cursor 宣布合作,共同打造“世界上性能最强的编程与知识工作 AI”。SpaceX 提供 Colossus 超级计算机(相当于一百万张 H100);Cursor 则授予其在 2026 年晚些时候以 600 亿美元收购该公司的权利,或者仅为此次合作支付 100 亿美元。

🔗 SpaceX 推文

Grok Imagine — 可分享的自定义模板

4月22日 — SuperGrok 和 Premium+ 订阅者现在可以在 Grok Imagine 中创建自定义模板,并公开分享。

🔗 @imagine 推文


NVIDIA × Google Cloud Next

4月22日 — 在 Google Cloud Next(拉斯维加斯)上,NVIDIA 与 Google Cloud 宣布了围绕 agentic AI 基础设施的多项重大进展。

公告细节
A5X 实例(Vera Rubin NVL72)多站点集群中最多 960,000 个 Rubin GPU,每个 token 成本低 10 倍,每兆瓦吞吐量高 10 倍
Google Distributed Cloud 上的 Gemini预览版,配备 Blackwell 和 Blackwell Ultra GPU——数据主权
Blackwell Confidential VMs公有云中的首个 Blackwell confidential computing 计算产品
Nemotron 3 Super可在 Gemini Enterprise Agent Platform 上使用
NeMo RL API大规模托管式强化学习(Reinforcement Learning)

🔗 NVIDIA × Google Cloud 博客


Kling AI Video 3.0 — 原生 4K 模式

4月23日 — Kling AI 在其 Video 3.0 系列中推出原生 4K模式。4K 生成只需一键完成,无需额外的上采样步骤。视觉一致性(人物、文本、风格、光照)以原生分辨率保障,适合高端制作。企业也可通过 fal.ai 使用。

Kling AI 同时举办 4K Short Film Creative Contest,这是一项面向全球创作者的比赛,邀请他们提交使用新模式制作的短片。

🔗 @Kling_ai 推文


ChatGPT for Clinicians 和 OpenAI Privacy Filter

ChatGPT for Clinicians + HealthBench Professional

4月22日 — OpenAI 推出 ChatGPT for Clinicians,这是面向美国已验证医疗专业人员的免费版本(医生、执业护士、医师助理、药剂师)。该服务包括:用于复杂临床问题的 frontier 模型访问;用于重复性工作流的 skills(转诊信、事前授权);带引用的实时临床研究;以及自动生成继续医学教育(CME)学分。若有协议,还可通过 HIPAA 选项进行处理。

OpenAI 还发布了 HealthBench Professional,这是一个开放 benchmark,用于评估 AI 在真实临床任务中的表现(由医生评估的 700,000+ 条回答)。在开放时间限制并可访问 web 的条件下,ChatGPT for Clinicians 中的 GPT-5.4 在该 benchmark 上超过了人类医生。

🔗 ChatGPT for Clinicians

OpenAI Privacy Filter

4月22日 — OpenAI 发布 Privacy Filter,这是一款 open-weight(Apache 2.0)模型,用于检测并屏蔽文本中的个人可识别信息(Personally Identifiable Information, PII)。该模型在本地运行(不会向服务器发送任何数据),支持 128K tokens 上下文,并在 PII-Masking-300k benchmark 上取得 97.43% 的 F1 分数。

特性数值
架构双向 token 分类器(受限 Viterbi 解码)
大小总计 15 亿参数,激活 5000 万
上下文128,000 tokens
许可证Apache 2.0(Hugging Face + GitHub)
F1在修正后的 PII-Masking-300k 上为 97.43%

覆盖的 PII 类别:private_personprivate_addressprivate_emailprivate_phoneprivate_urlprivate_dateaccount_numbersecret(密码和 API keys)。

🔗 OpenAI Privacy Filter


Perplexity 和 Cohere

Perplexity 集成 Kimi K2.6

4月23日 — Moonshot AI 的 Kimi K2.6 现已向 Perplexity 的所有 Pro 和 Max 订阅用户开放。

🔗 @perplexity_ai 推文

Cohere — vLLM 中可直接用于生产的 W4A8

4月22日 — Cohere 宣布将其 W4A8 推理(权重 4 位量化、激活 8 位量化)集成到 vLLM 中。Hopper GPU 相比 W4A16 的结果:首 token 时间(Time To First Token)提升 58%,输出 token 时间(Time Per Output Token)提升 45%。该集成优先面向生产环境中的大规模 MoE Command A 模型。

🔗 Cohere W4A8 博客


简讯

Suno 位列音乐类 App Store 第一

4月21日 — AI 音乐生成平台 Suno 登上 App Store 音乐分类第一名。CEO Mikey Shulman 表示:“音乐的未来将是每个人都享受创作的未来。”

🔗 @suno 推文

Anthropic Economic Index Survey

4月22日 — Anthropic 推出 Anthropic Economic Index Survey,这是一项通过 Anthropic Interviewer 面向随机抽样 Claude 用户开展的月度调查。目标是收集关于 AI 经济影响的定性数据:被委托的任务、生产力提升、角色变化。结果将用于未来的 Anthropic Economic Index 报告。

🔗 调查公告

Anthropic — 生产环境中的 MCP Agents:数据

4月22日 — Anthropic 的一篇技术文章记录了 MCP 对生产环境 agents 的收益:MCP SDK 的月下载量超过 3 亿次,tool search 将工具定义 token 减少了 85%,programmatic tool calling 在复杂多步骤工作流中将 token 使用量减少了 37%。

🔗 MCP 生产 agents 博客

OpenAI — Responses API 中的 WebSockets:延迟降低 40%

4月22日 — OpenAI 的回顾文章解释了 Responses API 中的 WebSocket 模式如何将 agents 循环的延迟降低 40%。持久连接会在内存中缓存先前响应的状态,避免在每次调用时重处理全部历史。已投入生产:Codex、Vercel AI SDK、Cline(+39%)、Cursor(+30%)。

🔗 WebSockets 文章

Perplexity Research — 训练检索增强模型

4月22日 — Perplexity 发布了一项关于其 SFT + RL(Supervised Fine-Tuning + Reinforcement Learning)流水线的研究,以提升搜索回答质量。关键结果:后训练的 Qwen 模型以更低成本达到了 GPT 模型的事实准确性。

🔗 Perplexity Research


这意味着什么

2026 年 4 月 23 日呈现出两条趋同趋势。一方面,GPT-5.5 证实 OpenAI 在 agentic benchmarks(Terminal-Bench、ARC-AGI-2、OSWorld)上重新夺回领先地位,此前数月一直由 Claude Opus 4.7 主导。SWE-Bench Pro 上的差距仍然很小,Anthropic 保持优势——这表明两家实验室对优先级最高的用例有着相同判断。

另一方面,这一天标志着具备记忆的持久 agents 时代到来:OpenAI Workspace Agents、Anthropic Managed Agents Memory 和 Kimi K2.6 Agent Swarm 同时出现,采用了不同方法(Slack 集成、filesystem-based、由多个子 agent 组成的 swarm),但目标一致——让 agent 记住、学习并在无需持续监督的情况下行动。Rakuten 的数据(错误减少 97%、成本降低 27%)为其产业影响提供了初步衡量。

GitHub Copilot 继续将自己深度集成进 GitHub.com(PR chat、从 issues 开始的 agent sessions、结构化 stack traces),同时也通过 BYOK 向外开放。BYOK VS Code GA 表明,Copilot 既在定位为接口,也在定位为模型。


来源

本文档已使用 gpt-5.4-mini 模型从 fr 版本翻译为 zh 语言。有关翻译过程的更多信息,请参阅 https://gitlab.com/jls42/ai-powered-markdown-translator