Anthropic 揭示 AI 的递归自我改进，NVIDIA 发布开源 Nemotron 3 Ultra，Suno 融资 4 亿美元

2026年6月4日以 Anthropic Institute 的一篇历史性发布拉开序幕：AI 已经在加速自身发展，Anthropic 超过 80% 的代码由 Claude 编写，生产力提升了 8 倍。与此同时，NVIDIA 发布了 Nemotron 3 Ultra，这是一款面向智能体、拥有 5500 亿参数的完全开源 MoE 模型。OpenAI 推出 Dreaming v3，这是一种面向 ChatGPT 的新内存架构，成本比以往低 5 倍。GitHub Copilot 将上下文容量提升至 100 万 tokens。Suno 则宣布完成一轮 4 亿美元的 D 轮融资，估值达到 54 亿美元。

Anthropic Institute — “When AI builds itself”：已记录的递归自我改进

6月4日 — The Anthropic Institute 发布了 “When AI builds itself”，这是首份以内部数据为支撑、官方记录 AI 可能迈向递归自我改进的文档。联合作者 Marina Favaro 和 Jack Clark 提供了 2026年5月的内部数据，显示 Claude 现在已经编写了 Anthropic 的大部分代码。

指标	数值（2026年5月）
Claude 编写的 Anthropic 代码占比	>80% 的生产环境合并行
代码/工程师生产力提升	2026年第二季度相较 2024 年提升 ×8
开放任务成功率	76%（6 个月内 +50 个百分点）
代码优化加速（Mythos Preview）	相较 Opus 4（2025年5月）约 ~52×，而后者约为 ~3×
优于人类的研究决策	64%（Mythos Preview，而 Opus 4.5 为 2025年11月的 51%）
内部调查 — 估计的生产力提升	使用 Mythos Preview 提升 ×4（130 名员工，2026年3月）

自主任务持续时间的进展 尤其引人注目：Claude Opus 3 在 2024年3月可处理约 4 分钟的任务，Claude Sonnet 3.7 在 2025年3月达到 1 小时 30 分钟，Claude Opus 4.6 在 2026年3月可运行 12 小时，而 Mythos Preview 在 2026年5月已经超过 16 小时（METR 基准的测量上限）。持续时间大约每 4 个月翻一番。

一个具体结果是：在 2026年4月，Claude 智能体端到端解决了一个开放的 AI 安全问题——提出假设、测试、迭代——并收获了 97% 的性能提升；相比之下，两名人类研究人员在一周内只获得了 23% 的提升，而累计约 800 小时计算成本约为 18,000 美元。

文章探讨了三种情景：停滞（被认为最不可能）、在有人类战略指导下实现大规模自动化，以及完全递归自我改进，即模型在没有人类干预的情况下构建自己的继任者。文章最后明确呼吁对 frontier AI 的开发进行协调且可验证的暂停，前提是其他主要实验室也参与其中。

“Our internal data shows Claude is accelerating AI development—a possible path to recursive self-improvement, or AI autonomously building a more capable successor. It’s happening faster than we thought, and the implications deserve greater attention.”

🇨🇳 我们的内部数据显示，Claude 正在加速 AI 的发展——这可能通向递归自我改进，或者 AI 自主构建一个更强大的继任者。这一切发生得比预期更快，其影响值得更高度的关注。 — @AnthropicAI

🔗 Anthropic Institute 文章

NVIDIA Nemotron 3 Ultra — 面向长时智能体的 550B MoE 开源模型

6月4日 — NVIDIA 发布了 Nemotron 3 Ultra，这是一款 5500 亿参数的 frontier 开源模型，专为长时运行的 AI 智能体（long-running agents）设计。此次发布意味着开源权重已真正落地——在 6月2日 Microsoft Build 首次宣布后，权重现已可在 HuggingFace 和 Ollama Cloud 上获取。

特性	数值
架构	Mamba-Transformer MoE 混合架构
总参数量	5500 亿
激活参数	550 亿（NVFP4）
推理速度	比同类开源 frontier 模型快 5×
智能体成本降低	-30%
HuggingFace 权重	`nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4`
云端访问	Ollama Cloud
支持的智能体 harness	OpenClaw、Hermes Agent（NousResearch）、LangChain

Mamba-Transformer MoE 混合架构可以在相同时间预算内执行更多推理循环——这正是速度提升的原因。Nemotron 3 Ultra 经过后训练，适用于复杂任务：高级编程、深入研究、规划、工具使用以及失败后的恢复。

NVIDIA 还发布了合成数据和后训练配方，这使外部团队能够复现或改进该流程。

“Today we’re shipping Nemotron 3 Ultra. A 550B MoE frontier-intelligence open model built for long-running agents. It delivers 5x faster inference and lowers the cost of complex agentic tasks by up to 30% versus other open frontier models.”

🇨🇳 今天我们发布 Nemotron 3 Ultra。这是一款 5500 亿参数、面向 frontier 的开源 MoE 模型，专为长时智能体设计。与其他开源 frontier 模型相比，它的推理速度快 5×，并将复杂智能体任务的成本降低了 30%。 — @NVIDIAAI

🔗 HuggingFace — Nemotron 3 Ultra

Dreaming v3 — 面向 ChatGPT 的新内存架构

6月4日 — OpenAI 为 ChatGPT 推出 Dreaming v3，这是一套经过全面重构的自主内存架构。该系统解决了上一代机制的三项限制：信息的新鲜度、随时间推移的纠正能力，以及向 Free 用户的大规模扩展。

目标	说明
上下文连续性	信息只需记忆一次，便可在未来对话中复用
偏好遵循	应用个人约束（饮食、时区等）
时间更新	自动修订记忆——旅行结束后，AI 知道你已经回家

系统历史： saved memories 于 2024年4月上线（手动声明），随后是 2025年4月的 “Dreaming v0”（后台自动总结）。第 3 版在架构上实现自治，服务成本约低 5 倍——正是这一成本下降，使其能够扩展到 Free 用户。

可用性： 今天起面向美国的 Plus 和 Pro 订阅用户；未来几周内将扩展到其他国家以及 Free 和 Go 用户。

“Memory Summary” 页面允许用户查看 ChatGPT 对其已知内容的可读摘要，添加或更正信息，并设置关于讨论主题的规则。

🔗 openai.com — Dreaming

Suno D 轮 — 4 亿美元，估值 54 亿美元

6月3日 — Suno 宣布完成 4 亿美元 D 轮融资，使这家生成式音乐平台的估值达到 54 亿美元。本轮由 Bond Capital 领投，新的投资者包括 IVP、USV（Union Square Ventures）、Forerunner Ventures，同时 Matrix VC、Lightspeed 和 Menlo Ventures 继续参与支持。

估值轨迹相当惊人：2024年5月融资 1.25 亿美元，2025年11月融资 2.5 亿美元、估值 24.5 亿美元，如今已达到 54 亿美元——不到七个月便翻了一倍多。

Suno 正在确立其作为全球资金最充足的 AI 创意平台之一的地位，其使命始终如一：让更多人能够在没有技术门槛的情况下，体验创作音乐的乐趣。

“We’re thrilled to announce Suno’s next chapter: a $400M Series D at a $5.4B valuation!”

🇨🇳 我们非常高兴地宣布 Suno 的下一篇章：4 亿美元 D 轮融资，估值达到 54 亿美元！ — @suno

🔗 Suno 博客 — The Next Chapter

GitHub Copilot — 100 万 tokens 上下文窗口与可配置推理

6月4日 — GitHub Copilot 现已在 VS Code、Copilot CLI 以及 GitHub Copilot 应用中提供两项重大新能力。

能力	可用性	AI 积分影响
100 万 tokens 上下文窗口	VS Code、Copilot CLI、Copilot 应用	更高
可配置推理级别	VS Code、Copilot CLI、Copilot 应用	更高

一百万 tokens 的上下文窗口 使得处理更大的代码库、更长的文档以及复杂的多文件项目时不会丢失上下文。此前，上下文限制迫使开发者将工作拆分，或在复杂项目中简化自己的请求。

可配置的推理级别 允许在速度与深度之间进行调节，并在最复杂的架构与调试挑战中启用 “extended thinking”（extended thinking）。GitHub 建议仅将最高设置保留给复杂的多文件问题——使用扩展上下文或更高推理级别会在每次交互中消耗更多 AI 积分。

扩展到更多 Copilot 入口的计划已安排在未来几周内。

🔗 GitHub Changelog — Larger context windows

GitHub Copilot — 6月4日更新

Visual Studio 中的 Copilot — 2026年5月更新

6月4日 — Visual Studio 2026 中 Copilot 的 2026年5月更新增强了规划与协作审查能力。

Agent Plan：以只读方式探索仓库，提出澄清问题，并生成保存为 .copilot/plans/plan-{titre}.md 的详细计划。点击 “Implement plan” 可切换到智能体模式。
Skills 面板：列出从工作区和用户配置文件中检测到的所有智能体技能，可按名称或关键词搜索。
多文件摘要 Diff：在 Copilot 对多个文件进行修改后，提供 “change summary” 视图，可在全局、单文件或单个块级别接受或撤销更改。
上下文窗口使用指示器：输入框顶部的图标，并提供 “Summarize conversation” 选项以释放空间。
将提交加入上下文：在 Git History 中右键单击某个提交，将其作为上下文附加到 Copilot Chat。

🔗 GitHub Changelog — Visual Studio May update

github.com 上的 Copilot Chat — 增强的 PR 上下文（正式可用）

6月4日 — Copilot Chat 已从公开预览转为面向所有 Copilot 许可证持有者的正式可用，并在 github.com 上处理 diff 和 pull request 时获得了增强能力。

代码与聊天并排：在代码旁边直接查看对话，在 PR 与聊天窗口之间无需切换即可进行内联评论和修改。
自动加载上下文：当问题涉及 diff 或 PR 时，相关上下文会自动注入——不再需要复制粘贴片段。
访问方式：可通过每个 diff 顶部的 “Ask about this diff” 按钮，或在高亮某一行代码后通过下拉菜单访问。

🔗 GitHub Changelog — Copilot Chat PR context

Claude Code v2.1.162

6月3日 — Claude Code 的 v2.1.162 版本带来了多项 UX 改进和重要的智能体修复。

功能	描述
`claude agents --json` + `waitingFor`	JSON 现在包含了待定会话的阻塞原因（例如权限提示）
`/effort` 持久化已确认	当所选级别成为新会话默认值时，明确确认
Autocomplete slash command	点击即可将命令填入提示词而不执行——按 Enter 确认
Remote Control footer pill	Remote Control 以常驻 pill 形式显示在底部，并带有会话链接
Windsurf → Devin Desktop 重命名	已在 `/ide`、`/terminal-setup`、`/scroll-speed` 中更新

修复内容包括：如果配置目录为只读则在启动时静默卡住（Claude Code 现在会以内存配置启动）、WebFetch 规则未应用于预先批准的域名、Windows 下带反斜杠的权限问题，以及多个智能体修复（Ctrl+V 图片、后台化时会话丢失、长会话的终端宽度等）。

🔗 Claude Code v2.1.162 版本发布

ElevenLabs — Flows Agent 与 Hasbro 合作

ElevenCreative 中的 Flows Agent

6月4日 — ElevenLabs 在其 ElevenCreative 界面中推出 Flows Agent。用户只需描述自己想创建的内容，智能体就会自动构建完整流水线——将平台上可用的声音、音乐和音效工具，与超过 50 个图像和视频模型 连接到一个统一画布上。

“assist” 模式允许智能体在每次付费操作前请求确认，以保持对成本的控制。市场团队因此可以在不同产品、语言和格式之间串联多种模态，并测试创意变体，而无需手动配置每一步。

🔗 ElevenLabs Flows

ElevenLabs × Hasbro — Iconic Marketplace 中的授权角色声音

6月3日 — ElevenLabs 与 Hasbro 合作，通过 Iconic Marketplace 提供官方角色声音（My Little Pony、Transformers、G.I. Joe）。这些声音由 Hasbro 与原始配音人才共同打造，并为开发者、企业和应用创作者明确规定了使用权。该方案旨在将 AI 创造力与品牌知识产权保护结合起来。

🔗 ElevenLabs × Hasbro 推文

GPT-Rosalind — 面向生命科学的新能力

6月3日 — OpenAI 宣布对 GPT-Rosalind 进行重大更新，这是其面向企业级生命科学研究的专用模型。该模型将 GPT-5.5 的智能体能力与在药物化学和基因组学方面的增强智能结合起来。

基准	领域	GPT-Rosalind 分数	GPT-5.5 分数	token 减少量
LifeSciBench	生命科学（6 个领域）	最佳	—	—
MedChemBench	药物化学	27,5%	25,1%	-7,2%
GeneBench	基因组学	21,6%	20,4%	-31%
LabWorkBench	湿实验室流程	63,2%	55,8%	-5,3%

现在所有 Codex 用户都可以使用两个新插件：Life Sciences Research plugin（检索带来源证据）和 Life Sciences NGS Analysis plugin（scRNA-seq、bulk RNA-seq 生物信息学工作流）。Novo Nordisk 是首个公布的合作伙伴。访问权限已在全球范围内扩展至符合条件的组织（合法科学研究、完善治理）。

🔗 openai.com — GPT-Rosalind

Perplexity 与美国 SBA 联合推出 Main Street AI Accelerator

6月4日 — Perplexity 与美国小企业管理局（SBA）合作推出 Main Street AI Accelerator。该计划提供价值 $25 million 的 Perplexity Computer credits：为多达 100,000 家符合条件的企业提供每家 $250 credits，以纪念美国建国 250 周年。

符合条件的包括获得 SBA 7(a)、504 和微型贷款的企业。目前申请尚未开放；专门页面提供候补名单。该举措是 Perplexity 将 Computer 扩展到美国本地经济体系战略的一部分，此前一周它刚宣布了 Computer 的 400+ enterprise 集成（Intuit QuickBooks、Vercel、Shopify、Canva）。

🔗 Main Street AI Accelerator

Cohere 在 NATO 代理式 AI 挑战赛中夺得第一名

6月4日 — Cohere 赢得了 NATO Agentic AI for Cognitive Warfare Innovation Challenge 第一名。完整领奖台如下：

Cohere（第1名）
OpenMinds（第2名）
Ipsos & Thoughtworks（第3名，并列）

这场竞赛凸显了代理式 AI 在帮助民主国家理解、预测并应对信息威胁方面日益重要的作用。对 Cohere 而言，这一 NATO 认可确认了其在国防和政府领域的主权 AI 方向——自 2026 年 4 月与 Aleph Alpha 跨大西洋合并以来，这一直是其核心战略之一。

🔗 Cohere — NATO 挑战赛

Pika —— iOS 上带 AI 代理的 Group Chat

6月4日 — Pika 在其应用中推出首个集成 AI 代理的 Group Chat。用户可邀请联系人加入群聊，Pika Agent 会参与创意对话——协助配置手机、在群组中制作 meme、协作制作短视频内容。现已通过 https://pika.me. 在 iOS 上提供。

🔗 Pika 推文

简讯

Anthropic 文章——使用 Claude 进行自助式分析 — Anthropic 团队发布了使用 Claude 构建自助式数据分析代理的最佳实践：skills、数据基础和评估。🔗 Claude 博客
Google Antigravity v2.0.11 — 由 Gemini 驱动的 IDE 稳定性补丁：两个修复（启动卡死和 “Open IDE” 按钮），没有新功能。🔗 Antigravity 更新日志
GitHub Enterprise Teams GA — Enterprise Teams 在 GitHub Enterprise Cloud 上进入正式版：企业级一次定义的组，可分配给所有组织，支持 SCIM、GitHub Apps 和完整审计。每个企业最多 2,500 个团队、每个团队最多 5,000 名成员。🔗 GitHub 更新日志
Genspark——Microsoft Build 上的 Agent365 发布合作伙伴 — 联合创始人 Ray Zhong 在 Microsoft Build 现场发言，作为全球战略合作伙伴和 Agent365 发布合作伙伴，推动将代理式 AI 集成到现有的 Microsoft enterprise 基础设施中。🔗 Genspark 推文
Cohere 支持加拿大国家 AI 战略 — CEO Aidan Gomez 重申了 Cohere 的加拿大根基，并称赞加拿大新的国家 AI 战略是迈向技术主权、在本国构建下一代 AI 的重要一步。🔗 Cohere 推文

这意味着什么

AI 的自我改进正从理论场景走向可测量的内部数据。 Anthropic Institute 的发布不是猜测——而是一份带有精确数据的实地报告：超过 80% 的代码、8 倍生产力、开放任务 76% 的成功率。自主任务时长每 4 个月翻倍，是当前动态最直接的信号。过去在 AI 安全圈中作为未来风险讨论的内容，如今已被记录为现实。Anthropic 率先呼吁协调性暂停——这反映了商业竞争与监管谨慎之间的张力。

前沿级开源正在改变维度。 Nemotron 3 Ultra 拥有 5500 亿参数——完全开源、可下载权重、合成数据和已发布配方——重新定义了面向前沿模型的“开源”含义。5× 更快的推理速度和面向代理任务 30% 的成本下降并非边缘改进：它们使得在大型专有云之外运行复杂代理成为可能。对于构建自主代理的团队来说，这是一套正在落地的新基础设施。

开发者工具链正围绕长时代理进一步收敛。 GitHub Copilot 具有 1M tokens 上下文、Claude Code v2.1.162 在 agents JSON 中加入 waitingFor、ElevenLabs 的 Flows Agent 构建多模态流水线——这三项公告共享同一范式：代理必须处理长上下文、向其他系统传递自身状态，并在无人干预下编排多种工具。Copilot 的“可配置推理”和 Claude Code 的 /effort 持久化回应的是同一个问题：用户如何根据任务复杂度来调节思考深度？

创意 AI 经济跨过了一个象征性的门槛。 Suno 在七个月内估值达到 $5.4 billion——价值翻倍——表明投资者正在押注一个面向大众规模的生成式音乐创作平台。再结合近期视频领域的融资（Runway、Pika），创意 AI 赛道如今已拥有可与传统大型创意软件厂商相当的市值。Hasbro 加入 ElevenLabs 的 Iconic Marketplace 说明知识产权持有者正在调整策略：与其阻止 AI，不如通过许可将其商业化。