搜索

Anthropic 揭示 AI 的递归自我改进,NVIDIA 发布开源 Nemotron 3 Ultra,Suno 融资 4 亿美元

Anthropic 揭示 AI 的递归自我改进,NVIDIA 发布开源 Nemotron 3 Ultra,Suno 融资 4 亿美元

ai-powered-markdown-translator

用 gpt-5.4-mini 将文章从法语翻译成中文。

在 GitHub 上查看项目 ↗

2026年6月4日以 Anthropic Institute 的一篇历史性发布拉开序幕:AI 已经在加速自身发展,Anthropic 超过 80% 的代码由 Claude 编写,生产力提升了 8 倍。与此同时,NVIDIA 发布了 Nemotron 3 Ultra,这是一款面向智能体、拥有 5500 亿参数的完全开源 MoE 模型。OpenAI 推出 Dreaming v3,这是一种面向 ChatGPT 的新内存架构,成本比以往低 5 倍。GitHub Copilot 将上下文容量提升至 100 万 tokens。Suno 则宣布完成一轮 4 亿美元的 D 轮融资,估值达到 54 亿美元。


Anthropic Institute — “When AI builds itself”:已记录的递归自我改进

6月4日 — The Anthropic Institute 发布了 “When AI builds itself”,这是首份以内部数据为支撑、官方记录 AI 可能迈向递归自我改进的文档。联合作者 Marina Favaro 和 Jack Clark 提供了 2026年5月的内部数据,显示 Claude 现在已经编写了 Anthropic 的大部分代码。

指标数值(2026年5月)
Claude 编写的 Anthropic 代码占比>80% 的生产环境合并行
代码/工程师生产力提升2026年第二季度相较 2024 年提升 ×8
开放任务成功率76%(6 个月内 +50 个百分点)
代码优化加速(Mythos Preview)相较 Opus 4(2025年5月)约 ~52×,而后者约为 ~3×
优于人类的研究决策64%(Mythos Preview,而 Opus 4.5 为 2025年11月的 51%)
内部调查 — 估计的生产力提升使用 Mythos Preview 提升 ×4(130 名员工,2026年3月)

自主任务持续时间的进展 尤其引人注目:Claude Opus 3 在 2024年3月可处理约 4 分钟的任务,Claude Sonnet 3.7 在 2025年3月达到 1 小时 30 分钟,Claude Opus 4.6 在 2026年3月可运行 12 小时,而 Mythos Preview 在 2026年5月已经超过 16 小时(METR 基准的测量上限)。持续时间大约每 4 个月翻一番。

一个具体结果是:在 2026年4月,Claude 智能体端到端解决了一个开放的 AI 安全问题——提出假设、测试、迭代——并收获了 97% 的性能提升;相比之下,两名人类研究人员在一周内只获得了 23% 的提升,而累计约 800 小时计算成本约为 18,000 美元。

文章探讨了三种情景:停滞(被认为最不可能)、在有人类战略指导下实现大规模自动化,以及完全递归自我改进,即模型在没有人类干预的情况下构建自己的继任者。文章最后明确呼吁对 frontier AI 的开发进行协调且可验证的暂停,前提是其他主要实验室也参与其中。

“Our internal data shows Claude is accelerating AI development—a possible path to recursive self-improvement, or AI autonomously building a more capable successor. It’s happening faster than we thought, and the implications deserve greater attention.”

🇨🇳 我们的内部数据显示,Claude 正在加速 AI 的发展——这可能通向递归自我改进,或者 AI 自主构建一个更强大的继任者。这一切发生得比预期更快,其影响值得更高度的关注。@AnthropicAI

🔗 Anthropic Institute 文章


NVIDIA Nemotron 3 Ultra — 面向长时智能体的 550B MoE 开源模型

6月4日 — NVIDIA 发布了 Nemotron 3 Ultra,这是一款 5500 亿参数的 frontier 开源模型,专为长时运行的 AI 智能体(long-running agents)设计。此次发布意味着开源权重已真正落地——在 6月2日 Microsoft Build 首次宣布后,权重现已可在 HuggingFace 和 Ollama Cloud 上获取。

特性数值
架构Mamba-Transformer MoE 混合架构
总参数量5500 亿
激活参数550 亿(NVFP4)
推理速度比同类开源 frontier 模型快 5×
智能体成本降低-30%
HuggingFace 权重nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4
云端访问Ollama Cloud
支持的智能体 harnessOpenClaw、Hermes Agent(NousResearch)、LangChain

Mamba-Transformer MoE 混合架构可以在相同时间预算内执行更多推理循环——这正是速度提升的原因。Nemotron 3 Ultra 经过后训练,适用于复杂任务:高级编程、深入研究、规划、工具使用以及失败后的恢复。

NVIDIA 还发布了合成数据和后训练配方,这使外部团队能够复现或改进该流程。

“Today we’re shipping Nemotron 3 Ultra. A 550B MoE frontier-intelligence open model built for long-running agents. It delivers 5x faster inference and lowers the cost of complex agentic tasks by up to 30% versus other open frontier models.”

🇨🇳 今天我们发布 Nemotron 3 Ultra。这是一款 5500 亿参数、面向 frontier 的开源 MoE 模型,专为长时智能体设计。与其他开源 frontier 模型相比,它的推理速度快 5×,并将复杂智能体任务的成本降低了 30%。@NVIDIAAI

🔗 HuggingFace — Nemotron 3 Ultra


Dreaming v3 — 面向 ChatGPT 的新内存架构

6月4日 — OpenAI 为 ChatGPT 推出 Dreaming v3,这是一套经过全面重构的自主内存架构。该系统解决了上一代机制的三项限制:信息的新鲜度、随时间推移的纠正能力,以及向 Free 用户的大规模扩展。

目标说明
上下文连续性信息只需记忆一次,便可在未来对话中复用
偏好遵循应用个人约束(饮食、时区等)
时间更新自动修订记忆——旅行结束后,AI 知道你已经回家

系统历史: saved memories 于 2024年4月上线(手动声明),随后是 2025年4月的 “Dreaming v0”(后台自动总结)。第 3 版在架构上实现自治,服务成本约低 5 倍——正是这一成本下降,使其能够扩展到 Free 用户。

可用性: 今天起面向美国的 Plus 和 Pro 订阅用户;未来几周内将扩展到其他国家以及 Free 和 Go 用户。

“Memory Summary” 页面允许用户查看 ChatGPT 对其已知内容的可读摘要,添加或更正信息,并设置关于讨论主题的规则。

🔗 openai.com — Dreaming


Suno D 轮 — 4 亿美元,估值 54 亿美元

6月3日 — Suno 宣布完成 4 亿美元 D 轮融资,使这家生成式音乐平台的估值达到 54 亿美元。本轮由 Bond Capital 领投,新的投资者包括 IVP、USV(Union Square Ventures)、Forerunner Ventures,同时 Matrix VC、Lightspeed 和 Menlo Ventures 继续参与支持。

估值轨迹相当惊人:2024年5月融资 1.25 亿美元,2025年11月融资 2.5 亿美元、估值 24.5 亿美元,如今已达到 54 亿美元——不到七个月便翻了一倍多。

Suno 正在确立其作为全球资金最充足的 AI 创意平台之一的地位,其使命始终如一:让更多人能够在没有技术门槛的情况下,体验创作音乐的乐趣。

“We’re thrilled to announce Suno’s next chapter: a $400M Series D at a $5.4B valuation!”

🇨🇳 我们非常高兴地宣布 Suno 的下一篇章:4 亿美元 D 轮融资,估值达到 54 亿美元!@suno

🔗 Suno 博客 — The Next Chapter


GitHub Copilot — 100 万 tokens 上下文窗口与可配置推理

6月4日 — GitHub Copilot 现已在 VS Code、Copilot CLI 以及 GitHub Copilot 应用中提供两项重大新能力。

能力可用性AI 积分影响
100 万 tokens 上下文窗口VS Code、Copilot CLI、Copilot 应用更高
可配置推理级别VS Code、Copilot CLI、Copilot 应用更高

一百万 tokens 的上下文窗口 使得处理更大的代码库、更长的文档以及复杂的多文件项目时不会丢失上下文。此前,上下文限制迫使开发者将工作拆分,或在复杂项目中简化自己的请求。

可配置的推理级别 允许在速度与深度之间进行调节,并在最复杂的架构与调试挑战中启用 “extended thinking”(extended thinking)。GitHub 建议仅将最高设置保留给复杂的多文件问题——使用扩展上下文或更高推理级别会在每次交互中消耗更多 AI 积分。

扩展到更多 Copilot 入口的计划已安排在未来几周内。

🔗 GitHub Changelog — Larger context windows


GitHub Copilot — 6月4日更新

Visual Studio 中的 Copilot — 2026年5月更新

6月4日 — Visual Studio 2026 中 Copilot 的 2026年5月更新增强了规划与协作审查能力。

  • Agent Plan:以只读方式探索仓库,提出澄清问题,并生成保存为 .copilot/plans/plan-{titre}.md 的详细计划。点击 “Implement plan” 可切换到智能体模式。
  • Skills 面板:列出从工作区和用户配置文件中检测到的所有智能体技能,可按名称或关键词搜索。
  • 多文件摘要 Diff:在 Copilot 对多个文件进行修改后,提供 “change summary” 视图,可在全局、单文件或单个块级别接受或撤销更改。
  • 上下文窗口使用指示器:输入框顶部的图标,并提供 “Summarize conversation” 选项以释放空间。
  • 将提交加入上下文:在 Git History 中右键单击某个提交,将其作为上下文附加到 Copilot Chat。

🔗 GitHub Changelog — Visual Studio May update


github.com 上的 Copilot Chat — 增强的 PR 上下文(正式可用)

6月4日 — Copilot Chat 已从公开预览转为面向所有 Copilot 许可证持有者的正式可用,并在 github.com 上处理 diff 和 pull request 时获得了增强能力。

  • 代码与聊天并排:在代码旁边直接查看对话,在 PR 与聊天窗口之间无需切换即可进行内联评论和修改。
  • 自动加载上下文:当问题涉及 diff 或 PR 时,相关上下文会自动注入——不再需要复制粘贴片段。
  • 访问方式:可通过每个 diff 顶部的 “Ask about this diff” 按钮,或在高亮某一行代码后通过下拉菜单访问。

🔗 GitHub Changelog — Copilot Chat PR context


Claude Code v2.1.162

6月3日 — Claude Code 的 v2.1.162 版本带来了多项 UX 改进和重要的智能体修复。

功能描述
claude agents --json + waitingForJSON 现在包含了待定会话的阻塞原因(例如权限提示)
/effort 持久化已确认当所选级别成为新会话默认值时,明确确认
Autocomplete slash command点击即可将命令填入提示词而不执行——按 Enter 确认
Remote Control footer pillRemote Control 以常驻 pill 形式显示在底部,并带有会话链接
Windsurf → Devin Desktop 重命名已在 /ide/terminal-setup/scroll-speed 中更新

修复内容包括:如果配置目录为只读则在启动时静默卡住(Claude Code 现在会以内存配置启动)、WebFetch 规则未应用于预先批准的域名、Windows 下带反斜杠的权限问题,以及多个智能体修复(Ctrl+V 图片、后台化时会话丢失、长会话的终端宽度等)。

🔗 Claude Code v2.1.162 版本发布


ElevenLabs — Flows Agent 与 Hasbro 合作

ElevenCreative 中的 Flows Agent

6月4日 — ElevenLabs 在其 ElevenCreative 界面中推出 Flows Agent。用户只需描述自己想创建的内容,智能体就会自动构建完整流水线——将平台上可用的声音、音乐和音效工具,与超过 50 个图像和视频模型 连接到一个统一画布上。

“assist” 模式允许智能体在每次付费操作前请求确认,以保持对成本的控制。市场团队因此可以在不同产品、语言和格式之间串联多种模态,并测试创意变体,而无需手动配置每一步。

🔗 ElevenLabs Flows


ElevenLabs × Hasbro — Iconic Marketplace 中的授权角色声音

6月3日 — ElevenLabs 与 Hasbro 合作,通过 Iconic Marketplace 提供官方角色声音(My Little Pony、Transformers、G.I. Joe)。这些声音由 Hasbro 与原始配音人才共同打造,并为开发者、企业和应用创作者明确规定了使用权。该方案旨在将 AI 创造力与品牌知识产权保护结合起来。

🔗 ElevenLabs × Hasbro 推文


GPT-Rosalind — 面向生命科学的新能力

6月3日 — OpenAI 宣布对 GPT-Rosalind 进行重大更新,这是其面向企业级生命科学研究的专用模型。该模型将 GPT-5.5 的智能体能力与在药物化学和基因组学方面的增强智能结合起来。

基准领域GPT-Rosalind 分数GPT-5.5 分数token 减少量
LifeSciBench生命科学(6 个领域)最佳
MedChemBench药物化学27,5%25,1%-7,2%
GeneBench基因组学21,6%20,4%-31%
LabWorkBench湿实验室流程63,2%55,8%-5,3%

现在所有 Codex 用户都可以使用两个新插件:Life Sciences Research plugin(检索带来源证据)和 Life Sciences NGS Analysis plugin(scRNA-seq、bulk RNA-seq 生物信息学工作流)。Novo Nordisk 是首个公布的合作伙伴。访问权限已在全球范围内扩展至符合条件的组织(合法科学研究、完善治理)。

🔗 openai.com — GPT-Rosalind


Perplexity 与美国 SBA 联合推出 Main Street AI Accelerator

6月4日 — Perplexity 与美国小企业管理局(SBA)合作推出 Main Street AI Accelerator。该计划提供价值 $25 million 的 Perplexity Computer credits:为多达 100,000 家符合条件的企业提供每家 $250 credits,以纪念美国建国 250 周年。

符合条件的包括获得 SBA 7(a)、504 和微型贷款的企业。目前申请尚未开放;专门页面提供候补名单。该举措是 Perplexity 将 Computer 扩展到美国本地经济体系战略的一部分,此前一周它刚宣布了 Computer 的 400+ enterprise 集成(Intuit QuickBooks、Vercel、Shopify、Canva)。

🔗 Main Street AI Accelerator


Cohere 在 NATO 代理式 AI 挑战赛中夺得第一名

6月4日 — Cohere 赢得了 NATO Agentic AI for Cognitive Warfare Innovation Challenge 第一名。完整领奖台如下:

  1. Cohere(第1名)
  2. OpenMinds(第2名)
  3. Ipsos & Thoughtworks(第3名,并列)

这场竞赛凸显了代理式 AI 在帮助民主国家理解、预测并应对信息威胁方面日益重要的作用。对 Cohere 而言,这一 NATO 认可确认了其在国防和政府领域的主权 AI 方向——自 2026 年 4 月与 Aleph Alpha 跨大西洋合并以来,这一直是其核心战略之一。

🔗 Cohere — NATO 挑战赛


Pika —— iOS 上带 AI 代理的 Group Chat

6月4日 — Pika 在其应用中推出首个集成 AI 代理的 Group Chat。用户可邀请联系人加入群聊,Pika Agent 会参与创意对话——协助配置手机、在群组中制作 meme、协作制作短视频内容。现已通过 https://pika.me. 在 iOS 上提供。

🔗 Pika 推文


简讯

  • Anthropic 文章——使用 Claude 进行自助式分析 — Anthropic 团队发布了使用 Claude 构建自助式数据分析代理的最佳实践:skills、数据基础和评估。🔗 Claude 博客

  • Google Antigravity v2.0.11 — 由 Gemini 驱动的 IDE 稳定性补丁:两个修复(启动卡死和 “Open IDE” 按钮),没有新功能。🔗 Antigravity 更新日志

  • GitHub Enterprise Teams GA — Enterprise Teams 在 GitHub Enterprise Cloud 上进入正式版:企业级一次定义的组,可分配给所有组织,支持 SCIM、GitHub Apps 和完整审计。每个企业最多 2,500 个团队、每个团队最多 5,000 名成员。🔗 GitHub 更新日志

  • Genspark——Microsoft Build 上的 Agent365 发布合作伙伴 — 联合创始人 Ray Zhong 在 Microsoft Build 现场发言,作为全球战略合作伙伴和 Agent365 发布合作伙伴,推动将代理式 AI 集成到现有的 Microsoft enterprise 基础设施中。🔗 Genspark 推文

  • Cohere 支持加拿大国家 AI 战略 — CEO Aidan Gomez 重申了 Cohere 的加拿大根基,并称赞加拿大新的国家 AI 战略是迈向技术主权、在本国构建下一代 AI 的重要一步。🔗 Cohere 推文


这意味着什么

AI 的自我改进正从理论场景走向可测量的内部数据。 Anthropic Institute 的发布不是猜测——而是一份带有精确数据的实地报告:超过 80% 的代码、8 倍生产力、开放任务 76% 的成功率。自主任务时长每 4 个月翻倍,是当前动态最直接的信号。过去在 AI 安全圈中作为未来风险讨论的内容,如今已被记录为现实。Anthropic 率先呼吁协调性暂停——这反映了商业竞争与监管谨慎之间的张力。

前沿级开源正在改变维度。 Nemotron 3 Ultra 拥有 5500 亿参数——完全开源、可下载权重、合成数据和已发布配方——重新定义了面向前沿模型的“开源”含义。5× 更快的推理速度和面向代理任务 30% 的成本下降并非边缘改进:它们使得在大型专有云之外运行复杂代理成为可能。对于构建自主代理的团队来说,这是一套正在落地的新基础设施。

开发者工具链正围绕长时代理进一步收敛。 GitHub Copilot 具有 1M tokens 上下文、Claude Code v2.1.162 在 agents JSON 中加入 waitingFor、ElevenLabs 的 Flows Agent 构建多模态流水线——这三项公告共享同一范式:代理必须处理长上下文、向其他系统传递自身状态,并在无人干预下编排多种工具。Copilot 的“可配置推理”和 Claude Code 的 /effort 持久化回应的是同一个问题:用户如何根据任务复杂度来调节思考深度?

创意 AI 经济跨过了一个象征性的门槛。 Suno 在七个月内估值达到 $5.4 billion——价值翻倍——表明投资者正在押注一个面向大众规模的生成式音乐创作平台。再结合近期视频领域的融资(Runway、Pika),创意 AI 赛道如今已拥有可与传统大型创意软件厂商相当的市值。Hasbro 加入 ElevenLabs 的 Iconic Marketplace 说明知识产权持有者正在调整策略:与其阻止 AI,不如通过许可将其商业化。


来源