OpenAI 推出 GPT-5.5，Anthropic 为 Managed Agents 开放记忆，Kimi K2.6 Agent Swarm

4 月 23 日 2026 年标志着信息密集的一天：OpenAI 推出 GPT-5.5，在 ARC-AGI-2 上达到 85%，并将 API 价格定为输入 $5/M tokens；与此同时，Anthropic 为其 Managed Agents 在 beta 中开启持久记忆，并发布了一篇关于 Claude Code 的事后分析。与此同时，GitHub Copilot 在三天内推出了七项更新，Kimi K2.6 部署了一个包含 300 个子 agent 的 swarm，而 SpaceX 则与 Cursor 达成了一项编码合作。

GPT-5.5：OpenAI 的 frontier 模型

4 月 23 日 — OpenAI 推出 GPT-5.5，这是其迄今最强大的模型，面向真实工作与 agents 设计。它显著提升了 agentic 编码、计算机使用（computer use）、知识工作和科学研究能力，同时保持了 GPT-5.4 的延迟表现。

可用性与定价

GPT-5.5 现已向 ChatGPT Plus、Pro、Business 和 Enterprise 订阅用户开放，同时也可在 Codex 中使用。API 访问“很快就会到来”。

方案	API 访问	输入	输出
GPT-5.5 standard	即将推出	$5 / M tokens	$30 / M tokens
GPT-5.5 Pro	即将推出	$30 / M tokens	$180 / M tokens

Codex 中的上下文窗口达到 400K tokens。还提供 Fast 模式——速度快 1.5 倍，成本为 2.5 倍。

Benchmarks

评测	GPT-5.5	GPT-5.4	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82.7%	75.1%	69.4%	68.5%
Expert-SWE（内部）	73.1%	68.5%	—	—
SWE-Bench Pro	58.6%	57.7%	64.3%	54.2%
GDPval	84.9%	83.0%	80.3%	67.3%
OSWorld-Verified	78.7%	75.0%	78.0%	—
ARC-AGI-2	85.0%	73.3%	75.8%	77.1%
FrontierMath Tier 4	35.4%	27.1%	22.9%	16.7%
CyberGym	81.8%	79.0%	73.1%	—
BixBench（生物信息学）	80.5%	74.0%	—	—

GPT-5.5 在大多数 benchmarks 上领先，只有一个显著例外：SWE-Bench Pro，其中 Claude Opus 4.7 保持优势（64.3% 对 58.6%）。

基础设施与安全

该模型与 NVIDIA GB200/GB300 NVL72 共同设计。Codex 使用 GPT-5.5 优化了自己的基础设施，token 生成速度提升了 20%。在网络安全方面，GPT-5.5 在 OpenAI 的 Preparedness Framework 中被归类为 High（不是 Critical）；Trusted Access Cyber 计划也已扩展给它。

科学研究

除了代码之外，GPT-5.5 还帮助证明了一个关于 Ramsey 数的新定理（组合数学），并在 Lean 中完成形式化验证。它还在几分钟内分析了一个包含 62 个样本和 28,000 个基因的基因组数据集——这项任务原本需要研究团队数月时间。

« GPT-5.5 est nettement plus intelligent et persévérant que GPT-5.4, avec de meilleures performances en codage et une utilisation des outils plus fiable. »

🇨🇳 GPT-5.5 明显比 GPT-5.4 更聪明、更有毅力，在编码方面表现更强，工具使用也更可靠。 — Michael Truell, Cursor 联合创始人兼 CEO

🔗 GPT-5.5 公告

持久化 agents 浪潮

三项重大公告在 4 月 23 日围绕持久化 agent 汇聚：这类 agent 能够长时间自主行动，并在不同 session 之间保留上下文。

ChatGPT 中的 OpenAI Workspace Agents

4 月 22 日 — OpenAI 推出 工作空间 agents（Workspace Agents）：团队只需创建一次、可在 ChatGPT 或 Slack 中共同使用并持续改进的共享 agents。它们由云端 Codex 驱动，即使用户离线也能执行复杂任务。Workspace Agents 正在逐步取代 GPT，而 GPT 在过渡期间仍可继续使用。

Agent 类型	功能
软件检查器	审查请求、比对政策、创建 IT 工单
产品反馈路由器	监控 Slack/支持/论坛 → 优先级工单
报告生成器	周五提取数据、生成图表、汇总
销售线索 agent	搜索潜在客户、评估、撰写邮件、更新 CRM
第三方风险负责人	评估供应商、生成结构化报告

面向 Business、Enterprise、Edu 和 Teachers 提供 research preview；截至 2026 年 5 月 6 日 免费，之后按 credits 计费。

据 Ankur Bhatt（Rippling AI Engineering）称，原先销售团队每周要花 5 到 6 小时的工作，如今已在每个商机上自动在后台执行。

🔗 Workspace Agents

Anthropic — Claude Managed Agents 的记忆

4 月 23 日 — Claude Managed Agents 的记忆功能已在 Claude Platform 上进入公开 beta。现在，agents 可以通过直接挂载在文件系统上的记忆层，在不同 session 之间学习；这些 agents 使用的 bash 和 code 执行能力，与它们已经用于 agentic 任务的能力相同。

功能	细节
可共享存储	多个 agents，不同访问范围（只读 / 读写）
并发访问	并行 session 之间不会互相覆盖
审计日志	哪个 session、哪个 agent、哪段记忆
回退	可回退到任意先前版本
可导出性	memories 可通过 API 管理

客户结果展示了实际影响：

客户	结果
Rakuten	首次通过错误率 -97%，成本 -27%，延迟 -34%
Wisedocs	文档核验速度 +30%
Netflix	session 间上下文连续，无需手动更新
Ando	无需专用基础设施的 platform memory

Memory in Claude Managed Agents lets us put continuous learning into production at scale. Our agents distill lessons from every session, delivering 97% fewer first-pass errors at 27% lower cost and 34% lower latency.

🇨🇳 Claude Managed Agents 中的记忆让我们能够将持续学习大规模投入生产。我们的 agents 会提炼每个 session 的经验，从而带来首次通过错误减少 97%、成本降低 27%、延迟降低 34%。 — Yusuke Kaji, Rakuten Business AI 总经理

🔗 Managed Agents 记忆

Claude Code：质量事后分析与两个新版本

事后分析与重置限制

4 月 23 日 — Claude Code 团队发布了一篇关于上个月报告的三项质量问题的 post-mortem。所有问题都已在 v2.1.116+ 中修复。所有订阅者的使用限制已被重置。

Over the past month, some of you reported Claude Code’s quality had slipped. We investigated, and published a post-mortem on the three issues we found. All are fixed in v2.1.116+ and we’ve reset usage limits for all subscribers.

🇨🇳 在过去一个月里，你们中的一些人报告说 Claude Code 的质量有所下降。我们已经进行了调查，并发布了对所发现三项问题的 post-mortem。所有问题都已在 v2.1.116+ 中修复，而且我们已为所有订阅者重置了使用限制。 — @ClaudeDevs

v2.1.117 和 v2.1.118

版本	主要功能
v2.1.118	Vim 可视模式（`v`/`V`），支持选择和 operator；统一的 `/usage`（合并 `/cost` 和 `/stats`）；`/theme` 中的自定义主题；通过 `type: "mcp_tool"` 调用 MCP tools 的 hooks；严格 `DISABLE_UPDATES`；通过 WSL 继承 Windows managed settings
v2.1.117	Pro/Max 在 Opus 4.6 和 Sonnet 4.6 上的默认 effort 提升到 `high`（原为 `medium`）；外部 builds 上可启用 sub-agent fork；`glob`/`Grep` 被替换为更快研究用的内嵌 `bfs`/`ugrep`；Opus 4.7 session 修复（1M context 计算正确）；修复 Bedrock+Opus 4.7 在 thinking 关闭时的问题

🔗 Claude Code 更新日志

面向日常生活的新 Claude connectors

4 月 23 日 — Anthropic 将其 connectors 目录扩展到了面向消费者的应用。自 2025 年 7 月以来，已有 200 多个面向专业工具的 connectors 可用；这次更新新增了 15 项日常服务。

应用	类别
AllTrails	徒步
Audible	有声书
Booking.com	旅行
Instacart	在线购物
Intuit Credit Karma	金融
Intuit TurboTax	税务
Resy	餐厅预订
Spotify	音乐
StubHub	售票
Taskrabbit	上门服务
Thumbtack	本地专业人士
TripAdvisor	旅行
Uber	交通
Uber Eats	餐食配送
Viator	旅游活动

Claude 现在会根据对话上下文自动建议相关 connectors。适用于所有方案（含免费），web、desktop 和 mobile（mobile 为 beta）。没有付费置顶，也没有赞助回复；某个 app 的数据不会用于训练模型。

🔗 日常生活 connectors

GitHub Copilot — 三天七次更新

GitHub Copilot 在 4 月 22 日至 23 日之间发布了 changelog 中的七条条目。

pull requests 的 Chat（3 项新能力）

4 月 23 日 — Copilot Chat 现已为 pull requests 集成三项能力，可通过 github.com/copilot 或 diffs 上的 Copilot 按钮访问（公开 preview）：

PR 理解（pull request understanding）：将评论、变更、commits 和 review 作为上下文整合
PR review：按需进行结构化 review
PR 摘要：对变更进行简明摘要

🔗 Copilot Chat PR 改进

可从 issues 和 projects 控制的 agent sessions

4 月 23 日 — cloud agent 现在可直接从 GitHub issues 和项目 boards 中控制：issue 标头中的 session 指示器、进度侧边栏、以及所有项目视图中默认启用的 sessions。

🔗 来自 issues 的 agent sessions

在 web 上对 stack traces 进行结构化调试

4 月 23 日 — github.com 上的 Copilot Chat 现在会以六个结构化步骤引导 stack traces 分析：出了什么问题、为什么、根因、来自代码的证据、置信度以及下一步检查。

🔗 stack traces 调试

VS Code 中的 BYOK 现已 GA

4 月 22 日 — Bring Your Own Key（带上你自己的 API key）已在 VS Code 中面向 Copilot Business 和 Enterprise 用户正式可用。支持 Anthropic、Gemini、OpenAI、OpenRouter、Azure，以及通过 Ollama 和 Foundry Local 的本地模型。计费由所选供应商直接进行，不计入 Copilot 配额。

🔗 BYOK VS Code GA

面向 Copilot CLI 的 C++ Language Server 公开 preview

4 月 22 日 — Microsoft C++ Language Server（Visual Studio/VS Code 的 IntelliSense 引擎）现已面向 Copilot CLI 提供公开 preview。它提供精确的语义数据（符号定义、引用、调用层级、类型），替代迭代式 grep 搜索。前提条件：Copilot CLI 认证 + compile_commands.json。

🔗 C++ Language Server

暂停新的 Business self-serve 注册

4 月 22 日 — GitHub 暂停了 GitHub Free 和 GitHub Team 方案上 Copilot Business 的新的 self-serve 注册。现有客户不受影响。

🔗 暂停 Business self-serve

API metrics 中的 `used_copilot_cloud_agent` 字段

4 月 23 日 — 随着“coding agent”重命名为“cloud agent”，metrics API 在用户报告（1 天和 28 天滚动）中新增了 used_copilot_cloud_agent 字段。旧字段 used_copilot_coding_agent 将保留至 2026 年 8 月 1 日。

🔗 cloud agent metrics

Gemini CLI v0.39.0 与面向所有 Ultra 用户的 Deep Think

Gemini CLI v0.39.0

4 月 23 日 — Google 发布 Gemini CLI v0.39.0，标记为 “Latest”的稳定版本。亮点是新的 /memory inbox 命令，用于在工作 session 中审查并验证 CLI 自动提取的 skills。

功能	描述
`/memory inbox`	审查自动提取的 skills
统一的 `invoke_subagent`	以统一接口重构的 sub-agent 工具
紧凑格式化	compact 模式下更易读
Plan Mode — 确认	激活 skills 前需要确认
精简启动	轻量父进程以更快启动
JSONL streaming 迁移	将 chat sessions 记录为 JSONL

新增快捷键：Ctrl+Backspace 用于按词删除（Windows Terminal），Ctrl+Shift+G。

🔗 Gemini CLI v0.39.0

面向所有 Ultra 订阅者开放 Deep Think

4 月 22 日 — Google 将 Deep Think 模式（深度推理，extended thinking）开放给所有 Gemini Ultra 订阅者。该模式此前仅限部分用户使用；现在可直接从 Gemini app（web 和 mobile）的工具菜单中使用。

🔗 @GeminiApp 推文

Kimi K2.6：300 个子 agent 的 swarm 与 open-weights benchmarks

Agent Swarm — 300 个并行子 agent

4 月 23 日 — Moonshot AI 推出 Kimi K2.6 Agent Swarm：一个系统，能够在每次执行中并行部署 300 个子 agent，跨越 4,000 个步骤，而 K2.5 只有 100 个 agent 和 1,500 个步骤。

能力	K2.5	K2.6
并行子 agent	100	300
每次执行步骤数	1,500	4,000
输出类型	聊天文本	100+ 个真实文件、10 万词 review、2 万行 datasets

这些子 agent 融合了多种不同技能：web 研究、数据分析、编码、长篇写作和视觉生成。可在 kimi.com/agent-swarm 使用。

🔗 @Kimi_Moonshot 推文

Benchmarks：open-weights 第一名

4 月 23 日 — Kimi K2.6 在两个 benchmarks 上登顶 open-weights 模型第一名： - Design Arena：与 Claude Opus 4.7 相同的性能带宽

MathArena open（Think 模式）：领先 GLM 5.1

🔗 Design Arena

SpaceXAI × Cursor 和 Grok Imagine

SpaceXAI × Cursor 合作

4月22日 — SpaceXAI（由 xAI/SpaceX 合并产生的实体）与 Cursor 宣布合作，共同打造“世界上性能最强的编程与知识工作 AI”。SpaceX 提供 Colossus 超级计算机（相当于一百万张 H100）；Cursor 则授予其在 2026 年晚些时候以 600 亿美元收购该公司的权利，或者仅为此次合作支付 100 亿美元。

🔗 SpaceX 推文

Grok Imagine — 可分享的自定义模板

4月22日 — SuperGrok 和 Premium+ 订阅者现在可以在 Grok Imagine 中创建自定义模板，并公开分享。

🔗 @imagine 推文

NVIDIA × Google Cloud Next

4月22日 — 在 Google Cloud Next（拉斯维加斯）上，NVIDIA 与 Google Cloud 宣布了围绕 agentic AI 基础设施的多项重大进展。

公告	细节
A5X 实例（Vera Rubin NVL72）	多站点集群中最多 960,000 个 Rubin GPU，每个 token 成本低 10 倍，每兆瓦吞吐量高 10 倍
Google Distributed Cloud 上的 Gemini	预览版，配备 Blackwell 和 Blackwell Ultra GPU——数据主权
Blackwell Confidential VMs	公有云中的首个 Blackwell confidential computing 计算产品
Nemotron 3 Super	可在 Gemini Enterprise Agent Platform 上使用
NeMo RL API	大规模托管式强化学习（Reinforcement Learning）

🔗 NVIDIA × Google Cloud 博客

Kling AI Video 3.0 — 原生 4K 模式

4月23日 — Kling AI 在其 Video 3.0 系列中推出原生 4K模式。4K 生成只需一键完成，无需额外的上采样步骤。视觉一致性（人物、文本、风格、光照）以原生分辨率保障，适合高端制作。企业也可通过 fal.ai 使用。

Kling AI 同时举办 4K Short Film Creative Contest，这是一项面向全球创作者的比赛，邀请他们提交使用新模式制作的短片。

🔗 @Kling_ai 推文

ChatGPT for Clinicians 和 OpenAI Privacy Filter

ChatGPT for Clinicians + HealthBench Professional

4月22日 — OpenAI 推出 ChatGPT for Clinicians，这是面向美国已验证医疗专业人员的免费版本（医生、执业护士、医师助理、药剂师）。该服务包括：用于复杂临床问题的 frontier 模型访问；用于重复性工作流的 skills（转诊信、事前授权）；带引用的实时临床研究；以及自动生成继续医学教育（CME）学分。若有协议，还可通过 HIPAA 选项进行处理。

OpenAI 还发布了 HealthBench Professional，这是一个开放 benchmark，用于评估 AI 在真实临床任务中的表现（由医生评估的 700,000+ 条回答）。在开放时间限制并可访问 web 的条件下，ChatGPT for Clinicians 中的 GPT-5.4 在该 benchmark 上超过了人类医生。

🔗 ChatGPT for Clinicians

OpenAI Privacy Filter

4月22日 — OpenAI 发布 Privacy Filter，这是一款 open-weight（Apache 2.0）模型，用于检测并屏蔽文本中的个人可识别信息（Personally Identifiable Information, PII）。该模型在本地运行（不会向服务器发送任何数据），支持 128K tokens 上下文，并在 PII-Masking-300k benchmark 上取得 97.43% 的 F1 分数。

特性	数值
架构	双向 token 分类器（受限 Viterbi 解码）
大小	总计 15 亿参数，激活 5000 万
上下文	128,000 tokens
许可证	Apache 2.0（Hugging Face + GitHub）
F1	在修正后的 PII-Masking-300k 上为 97.43%

覆盖的 PII 类别：private_person、private_address、private_email、private_phone、private_url、private_date、account_number、secret（密码和 API keys）。

🔗 OpenAI Privacy Filter

Perplexity 和 Cohere

Perplexity 集成 Kimi K2.6

4月23日 — Moonshot AI 的 Kimi K2.6 现已向 Perplexity 的所有 Pro 和 Max 订阅用户开放。

🔗 @perplexity_ai 推文

Cohere — vLLM 中可直接用于生产的 W4A8

4月22日 — Cohere 宣布将其 W4A8 推理（权重 4 位量化、激活 8 位量化）集成到 vLLM 中。Hopper GPU 相比 W4A16 的结果：首 token 时间（Time To First Token）提升 58%，输出 token 时间（Time Per Output Token）提升 45%。该集成优先面向生产环境中的大规模 MoE Command A 模型。

🔗 Cohere W4A8 博客

简讯

Suno 位列音乐类 App Store 第一

4月21日 — AI 音乐生成平台 Suno 登上 App Store 音乐分类第一名。CEO Mikey Shulman 表示：“音乐的未来将是每个人都享受创作的未来。”

🔗 @suno 推文

Anthropic Economic Index Survey

4月22日 — Anthropic 推出 Anthropic Economic Index Survey，这是一项通过 Anthropic Interviewer 面向随机抽样 Claude 用户开展的月度调查。目标是收集关于 AI 经济影响的定性数据：被委托的任务、生产力提升、角色变化。结果将用于未来的 Anthropic Economic Index 报告。

🔗 调查公告

Anthropic — 生产环境中的 MCP Agents：数据

4月22日 — Anthropic 的一篇技术文章记录了 MCP 对生产环境 agents 的收益：MCP SDK 的月下载量超过 3 亿次，tool search 将工具定义 token 减少了 85%，programmatic tool calling 在复杂多步骤工作流中将 token 使用量减少了 37%。

🔗 MCP 生产 agents 博客

OpenAI — Responses API 中的 WebSockets：延迟降低 40%

4月22日 — OpenAI 的回顾文章解释了 Responses API 中的 WebSocket 模式如何将 agents 循环的延迟降低 40%。持久连接会在内存中缓存先前响应的状态，避免在每次调用时重处理全部历史。已投入生产：Codex、Vercel AI SDK、Cline（+39%）、Cursor（+30%）。

🔗 WebSockets 文章

Perplexity Research — 训练检索增强模型

4月22日 — Perplexity 发布了一项关于其 SFT + RL（Supervised Fine-Tuning + Reinforcement Learning）流水线的研究，以提升搜索回答质量。关键结果：后训练的 Qwen 模型以更低成本达到了 GPT 模型的事实准确性。

🔗 Perplexity Research

这意味着什么

2026 年 4 月 23 日呈现出两条趋同趋势。一方面，GPT-5.5 证实 OpenAI 在 agentic benchmarks（Terminal-Bench、ARC-AGI-2、OSWorld）上重新夺回领先地位，此前数月一直由 Claude Opus 4.7 主导。SWE-Bench Pro 上的差距仍然很小，Anthropic 保持优势——这表明两家实验室对优先级最高的用例有着相同判断。

另一方面，这一天标志着具备记忆的持久 agents 时代到来：OpenAI Workspace Agents、Anthropic Managed Agents Memory 和 Kimi K2.6 Agent Swarm 同时出现，采用了不同方法（Slack 集成、filesystem-based、由多个子 agent 组成的 swarm），但目标一致——让 agent 记住、学习并在无需持续监督的情况下行动。Rakuten 的数据（错误减少 97%、成本降低 27%）为其产业影响提供了初步衡量。

GitHub Copilot 继续将自己深度集成进 GitHub.com（PR chat、从 issues 开始的 agent sessions、结构化 stack traces），同时也通过 BYOK 向外开放。BYOK VS Code GA 表明，Copilot 既在定位为接口，也在定位为模型。

来源

本文档已使用 gpt-5.4-mini 模型从 fr 版本翻译为 zh 语言。有关翻译过程的更多信息，请参阅 https://gitlab.com/jls42/ai-powered-markdown-translator