搜索

OpenAI 推出 GPT-5.5,Anthropic 向 Managed Agents 开放记忆,Kimi K2.6 Agent Swarm

OpenAI 推出 GPT-5.5,Anthropic 向 Managed Agents 开放记忆,Kimi K2.6 Agent Swarm

2026年4月23日标志着信息密集的一天:OpenAI 推出 GPT-5.5,在 ARC-AGI-2 上达到 85%,API 价格为输入 $5/M tokens,而 Anthropic 则为其 Managed Agents 在测试版中开放持久记忆,并发布了关于 Claude Code 的事后分析。与此同时,GitHub Copilot 在三天内发布了七次更新,Kimi K2.6 部署了一个由 300 个子代理组成的 swarm(swarm),SpaceX 还与 Cursor 签署了编程合作伙伴关系。


GPT-5.5:OpenAI 的 frontier 模型

4月23日 — OpenAI 推出 GPT-5.5,这是其迄今为止最强大的模型,专为真实工作和代理而设计。它显著改进了代理式编码、计算机使用(computer use)、知识工作和科学研究,同时保持了 GPT-5.4 的延迟水平。

可用性与定价

GPT-5.5 现已立即向 ChatGPT Plus、Pro、Business 和 Enterprise 订阅用户开放,也可在 Codex 中使用。API 访问“很快”就会到来。

方案API 访问输入输出
GPT-5.5 标准版即将推出$5 / M tokens$30 / M tokens
GPT-5.5 Pro即将推出$30 / M tokens$180 / M tokens

Codex 中的上下文窗口达到 400K tokens。还提供 Fast 模式——速度快 1.5 倍,成本高 2.5 倍。

基准测试

评测GPT-5.5GPT-5.4Claude Opus 4.7Gemini 3.1 Pro
Terminal-Bench 2.082.7%75.1%69.4%68.5%
Expert-SWE(内部)73.1%68.5%
SWE-Bench Pro58.6%57.7%64.3%54.2%
GDPval84.9%83.0%80.3%67.3%
OSWorld-Verified78.7%75.0%78.0%
ARC-AGI-285.0%73.3%75.8%77.1%
FrontierMath Tier 435.4%27.1%22.9%16.7%
CyberGym81.8%79.0%73.1%
BixBench(生物信息学)80.5%74.0%

GPT-5.5 在大多数基准测试中居首,只有一个显著例外:SWE-Bench Pro,Claude Opus 4.7 仍保持优势(64.3% 对 58.6%)。

基础设施与安全

该模型由 NVIDIA GB200/GB300 NVL72 共同设计。Codex 使用 GPT-5.5 优化了其自身基础设施,使 token 生成速度提升了 +20%。在网络安全方面,GPT-5.5 在 OpenAI 的 Preparedness Framework 中被归类为 High(不是 Critical);Trusted Access Cyber 计划也已扩展到它。

科学研究

除了代码之外,GPT-5.5 还帮助证明了一个关于 Ramsey 数的新定理(组合数学),并在 Lean 中完成了形式化验证。它还在几分钟内分析了一个包含 62 个样本和 28,000 个基因的基因组数据集——这项任务若由研究团队完成,可能需要数月时间。

« GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use. »

🇨🇳 GPT-5.5 明显比 GPT-5.4 更聪明,也更有持久性,在编码方面表现更好,工具使用也更可靠。 — Michael Truell,Cursor 联合创始人兼 CEO

🔗 GPT-5.5 公告


持久化代理浪潮

这 4 月 23 日有三项重大公告围绕持久化代理展开:这种代理能够长时间自主行动,并在不同会话之间保留上下文。

ChatGPT 中的 OpenAI Workspace Agents

4月22日 — OpenAI 推出 工作空间代理Workspace Agents):这是团队创建一次、可在 ChatGPT 或 Slack 中共同使用并持续改进的共享代理。它们由云端 Codex 驱动,即使用户离线也能执行复杂任务。Workspace Agents 正在逐步取代 GPT,而 GPT 在过渡期间仍可使用。

代理类型功能
软件检查器审查请求、比对政策、创建 IT 工单
产品反馈路由器监控 Slack/支持/论坛 → 优先级工单
报告生成器提取周五数据、创建图表、汇总
潜在客户代理搜索线索、评估、撰写邮件、更新 CRM
第三方风险负责人评估供应商、生成结构化报告

它们以 research preview 形式向 Business、Enterprise、Edu 和 Teachers 开放;截至 2026年5月6日 免费,之后按积分计费。

Ankur Bhatt(Rippling 的 AI Engineering)称,以前销售人员每周需要 5 到 6 小时才能完成的工作,现在会在每个商机上自动在后台执行。

🔗 Workspace Agents


Anthropic — Claude Managed Agents 的记忆

4月23日Claude Managed Agents 的记忆功能已在 Claude Platform 上以公开测试版提供。借助直接挂载在文件系统上的记忆层,代理现在可以在不同会话之间学习:它们使用的正是此前已用于代理任务的 bash 和代码执行能力。

功能详情
可共享存储多个代理,不同访问范围(只读 / 读写)
并发访问并行会话之间不会覆盖
审计日志哪个会话、哪个代理、哪段记忆
回退可回退到任意先前版本
可导出性可通过 API 管理记忆

客户结果说明了实际影响:

客户结果
Rakuten首次通过错误减少 97%,成本降低 27%,延迟降低 34%
Wisedocs文档核验速度提升 30%
Netflix会话之间上下文连续,无需手动更新
Ando无需专用基础设施即可拥有平台记忆

Memory in Claude Managed Agents lets us put continuous learning into production at scale. Our agents distill lessons from every session, delivering 97% fewer first-pass errors at 27% lower cost and 34% lower latency.

🇨🇳 Managed Agents 中的记忆让我们能够将持续学习大规模投入生产。我们的代理会从每次会话中提炼经验,使首次通过错误减少 97%,成本降低 27%,延迟降低 34%。 — Yusuke Kaji,Rakuten Business AI 总经理

🔗 Managed Agents 记忆


Claude Code:质量事后分析与两个新版本

事后分析与使用限制重置

4月23日 — Claude Code 团队发布了关于过去一个月报告的三项质量问题的事后分析。这些问题均已在 v2.1.116+ 中修复。所有订阅用户的使用限制已重置。

Over the past month, some of you reported Claude Code’s quality had slipped. We investigated, and published a post-mortem on the three issues we found. All are fixed in v2.1.116+ and we’ve reset usage limits for all subscribers.

🇨🇳 在过去一个月里,你们中的一些人报告了 Claude Code 质量下降。我们已经调查并发布了关于已识别三项问题的事后分析。所有问题均已在 v2.1.116+ 中修复,并且我们已为所有订阅用户重置使用限制。@ClaudeDevs

v2.1.117 和 v2.1.118

版本主要功能
v2.1.118Vim 可视模式 (v/V) 支持选择和操作符;统一的 /usage(合并 /cost/stats);/theme 中的自定义主题;通过 type: "mcp_tool" 调用 MCP 工具的 hooks;严格的 DISABLE_UPDATES;通过 WSL 继承 Windows managed settings
v2.1.117默认 effort 对 Pro/Max 在 Opus 4.6 和 Sonnet 4.6 上提升到 high(原为 medium);外部构建可启用子代理 fork;glob/Grep 被嵌入式 bfs/ugrep 取代,以加快搜索;修复 Opus 4.7 会话(1M 上下文被正确计算);修复禁用 thinking 的 Bedrock+Opus 4.7

🔗 Claude Code 更新日志


面向日常生活的全新 Claude 连接器

4月23日 — Anthropic 将其连接器目录扩展到面向消费者的应用。自 2025 年 7 月以来,已有 200 多个面向专业工具的连接器可用;此次更新新增了 15 项日常服务。

应用类别
AllTrails徒步旅行
Audible有声书
Booking.com旅行
Instacart在线购物
Intuit Credit Karma金融
Intuit TurboTax税务
Resy餐厅预订
Spotify音乐
StubHub门票销售
Taskrabbit家庭服务
Thumbtack本地专业服务
TripAdvisor旅行
Uber交通
Uber Eats餐食配送
Viator旅游活动

Claude 现在会根据对话上下文自动建议相关连接器。可在所有套餐中使用(包括免费版),支持 web、desktop 和 mobile(mobile 为测试版)。没有付费置顶或赞助回复;某个应用的数据不会用于训练模型。

🔗 日常生活连接器


GitHub Copilot — 三天内七次更新

GitHub Copilot 在 4 月 22 日至 23 日之间的 changelog 中发布了七条更新。

Pull request 的聊天功能(3 项新能力)

4月23日 — Copilot Chat 现在为 pull request 集成了三项能力,可通过 github.com/copilot 或 diff 上的 Copilot 按钮访问(公开预览):

  • PR 理解pull request understanding):将评论、变更、提交和审查作为上下文
  • PR 审查:按需进行结构化审查
  • PR 摘要:对变更进行简明总结

🔗 Copilot Chat PR 改进

可从 issues 和 projects 驱动的代理会话

4月23日 — 云代理现在可以直接从 GitHub issues 和 projects 看板中驱动:issue 标头中的会话指示器、进度侧边栏面板,以及在所有项目视图中默认启用的会话。

🔗 来自 issues 的代理会话

Web 上的结构化 stack traces 调试

4月23日 — github.com 上的 Copilot Chat 现在通过六个结构化步骤引导 stack traces 分析:出了什么问题、为什么、根本原因、来自代码的证据、置信度级别,以及后续检查项。

🔗 stack traces 调试

VS Code 中的 BYOK 现已可用(GA)

4月22日 — Bring Your Own Key(使用你自己的 API 密钥)已在 VS Code 中面向 Copilot Business 和 Enterprise 用户正式可用。支持 Anthropic、Gemini、OpenAI、OpenRouter、Azure,以及通过 Ollama 和 Foundry Local 使用本地模型。计费由所选提供商直接收取,不计入 Copilot 配额。

🔗 BYOK VS Code GA

Copilot CLI 的 C++ Language Server 公开预览

4月22日 — Microsoft C++ Language Server(Visual Studio/VS Code 的 IntelliSense 引擎)现已在 Copilot CLI 中提供公开预览。它提供精确的语义数据(符号定义、引用、调用层次结构、类型),取代迭代式 grep 搜索。前提条件:Copilot CLI 认证 + compile_commands.json

🔗 C++ Language Server

暂停新的 Business self-serve 注册

4月22日 — GitHub 暂停了 GitHub Free 和 GitHub Team 计划中 Copilot Business 的新 self-serve 注册。现有客户不受影响。

🔗 暂停 Business self-serve

API 指标中的 used_copilot_cloud_agent 字段

4月23日 — 随着 “coding agent” → “cloud agent” 的品牌重塑,metrics API 在用户报告(滚动 1 天和 28 天)中新增了 used_copilot_cloud_agent 字段。旧字段 used_copilot_coding_agent 将保留到 2026 年 8 月 1 日。

🔗 云代理指标


Gemini CLI v0.39.0 和面向所有 Ultra 的 Deep Think ### Gemini CLI v0.39.0

4月23日 — Google 发布 Gemini CLI v0.39.0,这是标记为“Latest”的稳定版本。亮点是新增了 /memory inbox 命令,可在工作会话期间审查并验证 CLI 自动提取的 skills。

功能描述
/memory inbox审查自动提取的 skills
invoke_subagent 统一版重构为单一界面的子代理工具
紧凑格式紧凑模式下更易阅读
Plan 模式 — 需确认激活 skills 前需要验证
轻量启动更轻量的父进程,更快启动
JSONL 流式迁移以 JSONL 记录聊天会话

新增键盘快捷键:Ctrl+Backspace 用于逐词删除(Windows Terminal),Ctrl+Shift+G

🔗 Gemini CLI v0.39.0

Deep Think 向所有 Ultra 订阅者开放

4月22日 — Google 将 Deep Think 模式(深度推理,extended thinking)开放给所有 Gemini Ultra 订阅者。该模式此前仅限受邀访问;现在可直接从 Gemini 应用(网页和移动端)的工具菜单中使用。

🔗 GeminiApp 的推文


Kimi K2.6:300 个子代理的蜂群与 open-weights 基准测试

Agent Swarm — 300 个并行子代理

4月23日 — Moonshot AI 推出 Kimi K2.6 Agent Swarm:一个能够在每次运行中并行部署 300 个子代理、执行 4,000 步的系统,而 K2.5 只有 100 个代理和 1,500 步。

能力K2.5K2.6
并行子代理100300
每次运行步骤1 5004 000
输出类型聊天文本100+ 个真实文件、10 万词审阅、2 万行数据集

这些子代理融合了多种异构能力:网页搜索、数据分析、编码、长篇写作和视觉生成。可通过 kimi.com/agent-swarm 使用。

🔗 Kimi_Moonshot 的推文

基准测试:open-weights 第一名

4月23日 — Kimi K2.6 在两个基准测试中登顶 open-weights 模型榜首:

  • Design Arena:与 Claude Opus 4.7 处于同一性能带
  • MathArena open(Think 模式):领先 GLM 5.1

🔗 Design Arena


SpaceXAI × Cursor 与 Grok Imagine

SpaceXAI × Cursor 合作

4月22日 — SpaceXAI(由 xAI/SpaceX 联合背景形成的实体)与 Cursor 宣布合作,共同打造“世界上性能最强的编码与知识工作 AI”。SpaceX 提供 Colossus 超级计算机(相当于一百万块 H100);Cursor 则授予其在 2026 年稍后以 600 亿美元收购该公司的权利,或者仅为此次合作支付 100 亿美元。

🔗 SpaceX 的推文

Grok Imagine — 可共享的自定义模板

4月22日 — SuperGrok 和 Premium+ 订阅者现在可以在 Grok Imagine 中创建自定义模板并公开分享。

🔗 imagine 的推文


NVIDIA × Google Cloud Next

4月22日 — 在 Google Cloud Next(拉斯维加斯)上,NVIDIA 与 Google Cloud 宣布了围绕代理式 AI 基础设施的多项重大进展。

公告详情
A5X 实例(Vera Rubin NVL72)多站点集群中最多 960,000 个 Rubin GPU,每个 token 成本低 10×,每兆瓦吞吐量高 10×
Google Distributed Cloud 上的 Gemini预览版,支持 Blackwell 和 Blackwell Ultra GPU — 数据主权
Blackwell Confidential VMs公有云中首个 Blackwell 保密计算(confidential computing)产品
Nemotron 3 Super可在 Gemini Enterprise Agent Platform 上使用
NeMo RL API大规模托管强化学习(Reinforcement Learning

🔗 NVIDIA × Google Cloud 博客


Kling AI Video 3.0 — 原生 4K 模式

4月23日 — Kling AI 在其 Video 3.0 系列中推出 原生 4K 模式。4K 生成可一键完成,无需额外的 upscaling 步骤。视觉一致性(人物、文字、风格、光照)以原生分辨率保障,适合高端制作。企业用户也可通过 fal.ai 使用。

Kling AI 同时举办 4K Short Film Creative Contest,这是一项面向全球创作者的比赛,邀请他们提交使用新模式制作的短片。

🔗 Kling_ai 的推文


ChatGPT for Clinicians 与 OpenAI Privacy Filter

ChatGPT for Clinicians + HealthBench Professional

4月22日 — OpenAI 推出 ChatGPT for Clinicians,这是面向美国已验证医疗专业人士(医生、执业护士、医师助理、药剂师)的免费版本。该服务包括:用于复杂临床问题的 frontier 模型访问、用于重复性工作流程(转诊信、事先授权)的 skills、带引用的实时临床研究,以及自动生成继续医学教育(CME)学分。HIPAA 处理可通过协议作为可选项提供。

OpenAI 还发布了 HealthBench Professional,这是一个开放基准,用于评估 AI 在真实临床任务中的表现(由医生评估的 70 万+ 条回答)。在具备网页访问且不限时的条件下,ChatGPT for Clinicians 中的 GPT-5.4 在该基准上超过了人类医生。

🔗 ChatGPT for Clinicians

OpenAI Privacy Filter

4月22日 — OpenAI 发布 Privacy Filter,这是一个 open-weight 模型(Apache 2.0),用于检测并遮蔽文本中的个人可识别信息(Personally Identifiable Information, PII)。该模型本地运行(不会向服务器发送任何数据),支持 128K tokens 上下文,并在 PII-Masking-300k 基准上取得了 97.43% 的 F1 分数。

特性
架构双向 token 分类器(受约束的 Viterbi 解码)
大小总计 1.5B 参数,50M 活跃参数
上下文128 000 tokens
许可Apache 2.0(Hugging Face + GitHub)
F1修正后的 PII-Masking-300k 上为 97.43%

涵盖的 PII 类别:private_personprivate_addressprivate_emailprivate_phoneprivate_urlprivate_dateaccount_numbersecret(密码和 API 密钥)。

🔗 OpenAI Privacy Filter


Perplexity 与 Cohere

Perplexity 集成 Kimi K2.6

4月23日 — Moonshot AI 的 Kimi K2.6 现已向所有 Perplexity Pro 和 Max 订阅者开放。

🔗 perplexity_ai 的推文

Cohere — vLLM 中生产可用的 W4A8

4月22日 — Cohere 宣布将其 W4A8 推理(4 位权重、8 位激活量化)集成到 vLLM 中。在 Hopper GPU 上相较于 W4A16 的结果:首 token 时间(Time To First Token)提升 58%,输出 token 时间(Time Per Output Token)提升 45%。该集成优先面向大规模生产环境中的 MoE Command A 模型。

🔗 Cohere W4A8 博客


短讯

Suno 在音乐类 App Store 中排名第一

4月21日 — AI 音乐生成平台 Suno 登上 App Store 音乐类别榜首。CEO Mikey Shulman 表示:“音乐的未来,是人人都能享受创作的未来。”

🔗 suno 的推文

Anthropic Economic Index Survey

4月22日 — Anthropic 推出 Anthropic Economic Index Survey,这是一项通过 Anthropic Interviewer 对 Claude 用户随机样本进行的月度调查。目标是收集有关 AI 经济影响的定性数据:被委派的任务、生产率提升、角色变化。结果将用于未来的 Anthropic Economic Index 报告。

🔗 调查公告

Anthropic — 生产中的 MCP 代理:数据

4月22日 — Anthropic 的一篇技术文章记录了 MCP 对生产代理的益处:MCP SDK 每月下载量超过 3 亿次,工具搜索(tool search)将工具定义 tokens 减少了 85%,而程序化工具调用(programmatic tool calling)在复杂多步骤工作流中将 token 使用量减少了 37%。

🔗 MCP 生产代理博客

OpenAI — Responses API 中的 WebSockets:延迟降低 40%

4月22日 — OpenAI 的一篇回顾文章解释了 Responses API 中的 WebSocket 模式如何将 agent 循环的延迟降低 40%。持久连接会在内存中保留先前响应的状态缓存,避免在每次调用时重新处理全部历史记录。已投入生产:Codex、Vercel AI SDK、Cline(+39%)、Cursor(+30%)。

🔗 WebSockets 文章

Perplexity Research — 增强型检索模型训练

4月22日 — Perplexity 发布了一项关于其 SFT + RL(Supervised Fine-Tuning + Reinforcement Learning)流水线的研究,用于提升搜索答案质量。关键结果:经过后训练的 Qwen 模型以更低成本达到了 GPT 模型的事实准确性。

🔗 Perplexity Research


这意味着什么

2026 年 4 月 23 日呈现出两条趋同的趋势。一方面,GPT-5.5 证实 OpenAI 在 agentic 基准测试(Terminal-Bench、ARC-AGI-2、OSWorld)上重新夺回领先地位,此前数月一直由 Claude Opus 4.7 主导。SWE-Bench Pro 上的差距仍然很小,而 Anthropic 仍保持优势——这表明两家实验室对同样的优先用例达成了一致。

另一方面,这一天标志着 具备记忆的持久型代理 时代的到来:OpenAI Workspace Agents、Anthropic Managed Agents Memory 与 Kimi K2.6 Agent Swarm 同时亮相,但采用了不同方法(Slack 集成、基于文件系统、子代理蜂群),却拥有同一个目标——让代理在没有持续监督的情况下记住、学习并行动。Rakuten 的数据(错误率 -97%,成本 -27%)给出了这一影响在工业层面的初步衡量。

GitHub Copilot 继续将其深度集成策略推进到 GitHub.com 内部(PR 聊天、从 issue 发起的 agent sessions、结构化堆栈跟踪),同时通过 BYOK 向外开放。BYOK VS Code GA 说明 Copilot 正在同时将自己定位为接口和模型。


来源

本文件已使用 gpt-5.4-mini 模型从 fr 版本翻译为 zh 语言。有关翻译过程的更多信息,请参阅 https://github.com/jls42/ai-powered-markdown-translator