2026年4月23日标志着信息密集的一天:OpenAI 推出 GPT-5.5,在 ARC-AGI-2 上达到 85%,API 价格为输入 $5/M tokens,而 Anthropic 则为其 Managed Agents 在测试版中开放持久记忆,并发布了关于 Claude Code 的事后分析。与此同时,GitHub Copilot 在三天内发布了七次更新,Kimi K2.6 部署了一个由 300 个子代理组成的 swarm(swarm),SpaceX 还与 Cursor 签署了编程合作伙伴关系。
GPT-5.5:OpenAI 的 frontier 模型
4月23日 — OpenAI 推出 GPT-5.5,这是其迄今为止最强大的模型,专为真实工作和代理而设计。它显著改进了代理式编码、计算机使用(computer use)、知识工作和科学研究,同时保持了 GPT-5.4 的延迟水平。
可用性与定价
GPT-5.5 现已立即向 ChatGPT Plus、Pro、Business 和 Enterprise 订阅用户开放,也可在 Codex 中使用。API 访问“很快”就会到来。
| 方案 | API 访问 | 输入 | 输出 |
|---|---|---|---|
| GPT-5.5 标准版 | 即将推出 | $5 / M tokens | $30 / M tokens |
| GPT-5.5 Pro | 即将推出 | $30 / M tokens | $180 / M tokens |
Codex 中的上下文窗口达到 400K tokens。还提供 Fast 模式——速度快 1.5 倍,成本高 2.5 倍。
基准测试
| 评测 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | 69.4% | 68.5% |
| Expert-SWE(内部) | 73.1% | 68.5% | — | — |
| SWE-Bench Pro | 58.6% | 57.7% | 64.3% | 54.2% |
| GDPval | 84.9% | 83.0% | 80.3% | 67.3% |
| OSWorld-Verified | 78.7% | 75.0% | 78.0% | — |
| ARC-AGI-2 | 85.0% | 73.3% | 75.8% | 77.1% |
| FrontierMath Tier 4 | 35.4% | 27.1% | 22.9% | 16.7% |
| CyberGym | 81.8% | 79.0% | 73.1% | — |
| BixBench(生物信息学) | 80.5% | 74.0% | — | — |
GPT-5.5 在大多数基准测试中居首,只有一个显著例外:SWE-Bench Pro,Claude Opus 4.7 仍保持优势(64.3% 对 58.6%)。
基础设施与安全
该模型由 NVIDIA GB200/GB300 NVL72 共同设计。Codex 使用 GPT-5.5 优化了其自身基础设施,使 token 生成速度提升了 +20%。在网络安全方面,GPT-5.5 在 OpenAI 的 Preparedness Framework 中被归类为 High(不是 Critical);Trusted Access Cyber 计划也已扩展到它。
科学研究
除了代码之外,GPT-5.5 还帮助证明了一个关于 Ramsey 数的新定理(组合数学),并在 Lean 中完成了形式化验证。它还在几分钟内分析了一个包含 62 个样本和 28,000 个基因的基因组数据集——这项任务若由研究团队完成,可能需要数月时间。
« GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use. »
🇨🇳 GPT-5.5 明显比 GPT-5.4 更聪明,也更有持久性,在编码方面表现更好,工具使用也更可靠。 — Michael Truell,Cursor 联合创始人兼 CEO
持久化代理浪潮
这 4 月 23 日有三项重大公告围绕持久化代理展开:这种代理能够长时间自主行动,并在不同会话之间保留上下文。
ChatGPT 中的 OpenAI Workspace Agents
4月22日 — OpenAI 推出 工作空间代理(Workspace Agents):这是团队创建一次、可在 ChatGPT 或 Slack 中共同使用并持续改进的共享代理。它们由云端 Codex 驱动,即使用户离线也能执行复杂任务。Workspace Agents 正在逐步取代 GPT,而 GPT 在过渡期间仍可使用。
| 代理类型 | 功能 |
|---|---|
| 软件检查器 | 审查请求、比对政策、创建 IT 工单 |
| 产品反馈路由器 | 监控 Slack/支持/论坛 → 优先级工单 |
| 报告生成器 | 提取周五数据、创建图表、汇总 |
| 潜在客户代理 | 搜索线索、评估、撰写邮件、更新 CRM |
| 第三方风险负责人 | 评估供应商、生成结构化报告 |
它们以 research preview 形式向 Business、Enterprise、Edu 和 Teachers 开放;截至 2026年5月6日 免费,之后按积分计费。
据 Ankur Bhatt(Rippling 的 AI Engineering)称,以前销售人员每周需要 5 到 6 小时才能完成的工作,现在会在每个商机上自动在后台执行。
Anthropic — Claude Managed Agents 的记忆
4月23日 — Claude Managed Agents 的记忆功能已在 Claude Platform 上以公开测试版提供。借助直接挂载在文件系统上的记忆层,代理现在可以在不同会话之间学习:它们使用的正是此前已用于代理任务的 bash 和代码执行能力。
| 功能 | 详情 |
|---|---|
| 可共享存储 | 多个代理,不同访问范围(只读 / 读写) |
| 并发访问 | 并行会话之间不会覆盖 |
| 审计日志 | 哪个会话、哪个代理、哪段记忆 |
| 回退 | 可回退到任意先前版本 |
| 可导出性 | 可通过 API 管理记忆 |
客户结果说明了实际影响:
| 客户 | 结果 |
|---|---|
| Rakuten | 首次通过错误减少 97%,成本降低 27%,延迟降低 34% |
| Wisedocs | 文档核验速度提升 30% |
| Netflix | 会话之间上下文连续,无需手动更新 |
| Ando | 无需专用基础设施即可拥有平台记忆 |
Memory in Claude Managed Agents lets us put continuous learning into production at scale. Our agents distill lessons from every session, delivering 97% fewer first-pass errors at 27% lower cost and 34% lower latency.
🇨🇳 Managed Agents 中的记忆让我们能够将持续学习大规模投入生产。我们的代理会从每次会话中提炼经验,使首次通过错误减少 97%,成本降低 27%,延迟降低 34%。 — Yusuke Kaji,Rakuten Business AI 总经理
Claude Code:质量事后分析与两个新版本
事后分析与使用限制重置
4月23日 — Claude Code 团队发布了关于过去一个月报告的三项质量问题的事后分析。这些问题均已在 v2.1.116+ 中修复。所有订阅用户的使用限制已重置。
Over the past month, some of you reported Claude Code’s quality had slipped. We investigated, and published a post-mortem on the three issues we found. All are fixed in v2.1.116+ and we’ve reset usage limits for all subscribers.
🇨🇳 在过去一个月里,你们中的一些人报告了 Claude Code 质量下降。我们已经调查并发布了关于已识别三项问题的事后分析。所有问题均已在 v2.1.116+ 中修复,并且我们已为所有订阅用户重置使用限制。 — @ClaudeDevs
v2.1.117 和 v2.1.118
| 版本 | 主要功能 |
|---|---|
| v2.1.118 | Vim 可视模式 (v/V) 支持选择和操作符;统一的 /usage(合并 /cost 和 /stats);/theme 中的自定义主题;通过 type: "mcp_tool" 调用 MCP 工具的 hooks;严格的 DISABLE_UPDATES;通过 WSL 继承 Windows managed settings |
| v2.1.117 | 默认 effort 对 Pro/Max 在 Opus 4.6 和 Sonnet 4.6 上提升到 high(原为 medium);外部构建可启用子代理 fork;glob/Grep 被嵌入式 bfs/ugrep 取代,以加快搜索;修复 Opus 4.7 会话(1M 上下文被正确计算);修复禁用 thinking 的 Bedrock+Opus 4.7 |
面向日常生活的全新 Claude 连接器
4月23日 — Anthropic 将其连接器目录扩展到面向消费者的应用。自 2025 年 7 月以来,已有 200 多个面向专业工具的连接器可用;此次更新新增了 15 项日常服务。
| 应用 | 类别 |
|---|---|
| AllTrails | 徒步旅行 |
| Audible | 有声书 |
| Booking.com | 旅行 |
| Instacart | 在线购物 |
| Intuit Credit Karma | 金融 |
| Intuit TurboTax | 税务 |
| Resy | 餐厅预订 |
| Spotify | 音乐 |
| StubHub | 门票销售 |
| Taskrabbit | 家庭服务 |
| Thumbtack | 本地专业服务 |
| TripAdvisor | 旅行 |
| Uber | 交通 |
| Uber Eats | 餐食配送 |
| Viator | 旅游活动 |
Claude 现在会根据对话上下文自动建议相关连接器。可在所有套餐中使用(包括免费版),支持 web、desktop 和 mobile(mobile 为测试版)。没有付费置顶或赞助回复;某个应用的数据不会用于训练模型。
🔗 日常生活连接器
GitHub Copilot — 三天内七次更新
GitHub Copilot 在 4 月 22 日至 23 日之间的 changelog 中发布了七条更新。
Pull request 的聊天功能(3 项新能力)
4月23日 — Copilot Chat 现在为 pull request 集成了三项能力,可通过 github.com/copilot 或 diff 上的 Copilot 按钮访问(公开预览):
- PR 理解(pull request understanding):将评论、变更、提交和审查作为上下文
- PR 审查:按需进行结构化审查
- PR 摘要:对变更进行简明总结
可从 issues 和 projects 驱动的代理会话
4月23日 — 云代理现在可以直接从 GitHub issues 和 projects 看板中驱动:issue 标头中的会话指示器、进度侧边栏面板,以及在所有项目视图中默认启用的会话。
Web 上的结构化 stack traces 调试
4月23日 — github.com 上的 Copilot Chat 现在通过六个结构化步骤引导 stack traces 分析:出了什么问题、为什么、根本原因、来自代码的证据、置信度级别,以及后续检查项。
VS Code 中的 BYOK 现已可用(GA)
4月22日 — Bring Your Own Key(使用你自己的 API 密钥)已在 VS Code 中面向 Copilot Business 和 Enterprise 用户正式可用。支持 Anthropic、Gemini、OpenAI、OpenRouter、Azure,以及通过 Ollama 和 Foundry Local 使用本地模型。计费由所选提供商直接收取,不计入 Copilot 配额。
Copilot CLI 的 C++ Language Server 公开预览
4月22日 — Microsoft C++ Language Server(Visual Studio/VS Code 的 IntelliSense 引擎)现已在 Copilot CLI 中提供公开预览。它提供精确的语义数据(符号定义、引用、调用层次结构、类型),取代迭代式 grep 搜索。前提条件:Copilot CLI 认证 + compile_commands.json。
暂停新的 Business self-serve 注册
4月22日 — GitHub 暂停了 GitHub Free 和 GitHub Team 计划中 Copilot Business 的新 self-serve 注册。现有客户不受影响。
API 指标中的 used_copilot_cloud_agent 字段
4月23日 — 随着 “coding agent” → “cloud agent” 的品牌重塑,metrics API 在用户报告(滚动 1 天和 28 天)中新增了 used_copilot_cloud_agent 字段。旧字段 used_copilot_coding_agent 将保留到 2026 年 8 月 1 日。
🔗 云代理指标
Gemini CLI v0.39.0 和面向所有 Ultra 的 Deep Think ### Gemini CLI v0.39.0
4月23日 — Google 发布 Gemini CLI v0.39.0,这是标记为“Latest”的稳定版本。亮点是新增了 /memory inbox 命令,可在工作会话期间审查并验证 CLI 自动提取的 skills。
| 功能 | 描述 |
|---|---|
/memory inbox | 审查自动提取的 skills |
invoke_subagent 统一版 | 重构为单一界面的子代理工具 |
| 紧凑格式 | 紧凑模式下更易阅读 |
| Plan 模式 — 需确认 | 激活 skills 前需要验证 |
| 轻量启动 | 更轻量的父进程,更快启动 |
| JSONL 流式迁移 | 以 JSONL 记录聊天会话 |
新增键盘快捷键:Ctrl+Backspace 用于逐词删除(Windows Terminal),Ctrl+Shift+G。
Deep Think 向所有 Ultra 订阅者开放
4月22日 — Google 将 Deep Think 模式(深度推理,extended thinking)开放给所有 Gemini Ultra 订阅者。该模式此前仅限受邀访问;现在可直接从 Gemini 应用(网页和移动端)的工具菜单中使用。
Kimi K2.6:300 个子代理的蜂群与 open-weights 基准测试
Agent Swarm — 300 个并行子代理
4月23日 — Moonshot AI 推出 Kimi K2.6 Agent Swarm:一个能够在每次运行中并行部署 300 个子代理、执行 4,000 步的系统,而 K2.5 只有 100 个代理和 1,500 步。
| 能力 | K2.5 | K2.6 |
|---|---|---|
| 并行子代理 | 100 | 300 |
| 每次运行步骤 | 1 500 | 4 000 |
| 输出类型 | 聊天文本 | 100+ 个真实文件、10 万词审阅、2 万行数据集 |
这些子代理融合了多种异构能力:网页搜索、数据分析、编码、长篇写作和视觉生成。可通过 kimi.com/agent-swarm 使用。
基准测试:open-weights 第一名
4月23日 — Kimi K2.6 在两个基准测试中登顶 open-weights 模型榜首:
- Design Arena:与 Claude Opus 4.7 处于同一性能带
- MathArena open(Think 模式):领先 GLM 5.1
SpaceXAI × Cursor 与 Grok Imagine
SpaceXAI × Cursor 合作
4月22日 — SpaceXAI(由 xAI/SpaceX 联合背景形成的实体)与 Cursor 宣布合作,共同打造“世界上性能最强的编码与知识工作 AI”。SpaceX 提供 Colossus 超级计算机(相当于一百万块 H100);Cursor 则授予其在 2026 年稍后以 600 亿美元收购该公司的权利,或者仅为此次合作支付 100 亿美元。
Grok Imagine — 可共享的自定义模板
4月22日 — SuperGrok 和 Premium+ 订阅者现在可以在 Grok Imagine 中创建自定义模板并公开分享。
NVIDIA × Google Cloud Next
4月22日 — 在 Google Cloud Next(拉斯维加斯)上,NVIDIA 与 Google Cloud 宣布了围绕代理式 AI 基础设施的多项重大进展。
| 公告 | 详情 |
|---|---|
| A5X 实例(Vera Rubin NVL72) | 多站点集群中最多 960,000 个 Rubin GPU,每个 token 成本低 10×,每兆瓦吞吐量高 10× |
| Google Distributed Cloud 上的 Gemini | 预览版,支持 Blackwell 和 Blackwell Ultra GPU — 数据主权 |
| Blackwell Confidential VMs | 公有云中首个 Blackwell 保密计算(confidential computing)产品 |
| Nemotron 3 Super | 可在 Gemini Enterprise Agent Platform 上使用 |
| NeMo RL API | 大规模托管强化学习(Reinforcement Learning) |
Kling AI Video 3.0 — 原生 4K 模式
4月23日 — Kling AI 在其 Video 3.0 系列中推出 原生 4K 模式。4K 生成可一键完成,无需额外的 upscaling 步骤。视觉一致性(人物、文字、风格、光照)以原生分辨率保障,适合高端制作。企业用户也可通过 fal.ai 使用。
Kling AI 同时举办 4K Short Film Creative Contest,这是一项面向全球创作者的比赛,邀请他们提交使用新模式制作的短片。
ChatGPT for Clinicians 与 OpenAI Privacy Filter
ChatGPT for Clinicians + HealthBench Professional
4月22日 — OpenAI 推出 ChatGPT for Clinicians,这是面向美国已验证医疗专业人士(医生、执业护士、医师助理、药剂师)的免费版本。该服务包括:用于复杂临床问题的 frontier 模型访问、用于重复性工作流程(转诊信、事先授权)的 skills、带引用的实时临床研究,以及自动生成继续医学教育(CME)学分。HIPAA 处理可通过协议作为可选项提供。
OpenAI 还发布了 HealthBench Professional,这是一个开放基准,用于评估 AI 在真实临床任务中的表现(由医生评估的 70 万+ 条回答)。在具备网页访问且不限时的条件下,ChatGPT for Clinicians 中的 GPT-5.4 在该基准上超过了人类医生。
OpenAI Privacy Filter
4月22日 — OpenAI 发布 Privacy Filter,这是一个 open-weight 模型(Apache 2.0),用于检测并遮蔽文本中的个人可识别信息(Personally Identifiable Information, PII)。该模型本地运行(不会向服务器发送任何数据),支持 128K tokens 上下文,并在 PII-Masking-300k 基准上取得了 97.43% 的 F1 分数。
| 特性 | 值 |
|---|---|
| 架构 | 双向 token 分类器(受约束的 Viterbi 解码) |
| 大小 | 总计 1.5B 参数,50M 活跃参数 |
| 上下文 | 128 000 tokens |
| 许可 | Apache 2.0(Hugging Face + GitHub) |
| F1 | 修正后的 PII-Masking-300k 上为 97.43% |
涵盖的 PII 类别:private_person、private_address、private_email、private_phone、private_url、private_date、account_number、secret(密码和 API 密钥)。
Perplexity 与 Cohere
Perplexity 集成 Kimi K2.6
4月23日 — Moonshot AI 的 Kimi K2.6 现已向所有 Perplexity Pro 和 Max 订阅者开放。
Cohere — vLLM 中生产可用的 W4A8
4月22日 — Cohere 宣布将其 W4A8 推理(4 位权重、8 位激活量化)集成到 vLLM 中。在 Hopper GPU 上相较于 W4A16 的结果:首 token 时间(Time To First Token)提升 58%,输出 token 时间(Time Per Output Token)提升 45%。该集成优先面向大规模生产环境中的 MoE Command A 模型。
短讯
Suno 在音乐类 App Store 中排名第一
4月21日 — AI 音乐生成平台 Suno 登上 App Store 音乐类别榜首。CEO Mikey Shulman 表示:“音乐的未来,是人人都能享受创作的未来。”
🔗 suno 的推文
Anthropic Economic Index Survey
4月22日 — Anthropic 推出 Anthropic Economic Index Survey,这是一项通过 Anthropic Interviewer 对 Claude 用户随机样本进行的月度调查。目标是收集有关 AI 经济影响的定性数据:被委派的任务、生产率提升、角色变化。结果将用于未来的 Anthropic Economic Index 报告。
🔗 调查公告
Anthropic — 生产中的 MCP 代理:数据
4月22日 — Anthropic 的一篇技术文章记录了 MCP 对生产代理的益处:MCP SDK 每月下载量超过 3 亿次,工具搜索(tool search)将工具定义 tokens 减少了 85%,而程序化工具调用(programmatic tool calling)在复杂多步骤工作流中将 token 使用量减少了 37%。
OpenAI — Responses API 中的 WebSockets:延迟降低 40%
4月22日 — OpenAI 的一篇回顾文章解释了 Responses API 中的 WebSocket 模式如何将 agent 循环的延迟降低 40%。持久连接会在内存中保留先前响应的状态缓存,避免在每次调用时重新处理全部历史记录。已投入生产:Codex、Vercel AI SDK、Cline(+39%)、Cursor(+30%)。
Perplexity Research — 增强型检索模型训练
4月22日 — Perplexity 发布了一项关于其 SFT + RL(Supervised Fine-Tuning + Reinforcement Learning)流水线的研究,用于提升搜索答案质量。关键结果:经过后训练的 Qwen 模型以更低成本达到了 GPT 模型的事实准确性。
这意味着什么
2026 年 4 月 23 日呈现出两条趋同的趋势。一方面,GPT-5.5 证实 OpenAI 在 agentic 基准测试(Terminal-Bench、ARC-AGI-2、OSWorld)上重新夺回领先地位,此前数月一直由 Claude Opus 4.7 主导。SWE-Bench Pro 上的差距仍然很小,而 Anthropic 仍保持优势——这表明两家实验室对同样的优先用例达成了一致。
另一方面,这一天标志着 具备记忆的持久型代理 时代的到来:OpenAI Workspace Agents、Anthropic Managed Agents Memory 与 Kimi K2.6 Agent Swarm 同时亮相,但采用了不同方法(Slack 集成、基于文件系统、子代理蜂群),却拥有同一个目标——让代理在没有持续监督的情况下记住、学习并行动。Rakuten 的数据(错误率 -97%,成本 -27%)给出了这一影响在工业层面的初步衡量。
GitHub Copilot 继续将其深度集成策略推进到 GitHub.com 内部(PR 聊天、从 issue 发起的 agent sessions、结构化堆栈跟踪),同时通过 BYOK 向外开放。BYOK VS Code GA 说明 Copilot 正在同时将自己定位为接口和模型。
来源
- GPT-5.5 — OpenAI
- 推文 OpenAI GPT-5.5
- 工作区智能体 — OpenAI
- 推文 工作区智能体
- 面向临床医生的 ChatGPT
- OpenAI 隐私过滤器
- WebSockets API Responses — OpenAI
- 记忆管理智能体 — Anthropic
- 日常生活连接器 — Anthropic
- 推文 连接器 — @claudeai
- Claude Code 事后分析 — @ClaudeDevs
- 推文 @bcherny
- Claude Code 变更日志
- 面向生产环境的 MCP 智能体 — Anthropic
- Anthropic 经济指数调查
- Copilot Chat PR 改进
- 来自 issues 的 Copilot 智能体会话
- Copilot 堆栈跟踪调试
- Copilot BYOK VS Code GA
- Copilot C++ 语言服务器
- Copilot Business 自助暂停
- Copilot 云智能体指标
- Gemini CLI v0.39.0
- Gemini Deep Think Ultra — @GeminiApp
- Kimi K2.6 Agent Swarm — @Kimi_Moonshot
- Kimi K2.6 设计竞技场
- Kimi K2.6 MathArena
- SpaceXAI × Cursor — @SpaceX
- Grok Imagine 模板 — @imagine
- NVIDIA × Google Cloud Next
- Kling AI 视频 3.0 模式 4K
- Kling AI 4K 短片比赛
- Perplexity Kimi K2.6
- Perplexity 研究:搜索增强型 LMs
- Cohere W4A8 vLLM
- Suno App Store 排名第一
本文件已使用 gpt-5.4-mini 模型从 fr 版本翻译为 zh 语言。有关翻译过程的更多信息,请参阅 https://github.com/jls42/ai-powered-markdown-translator