搜索

Karpathy 加入 Anthropic,Google I/O 2026 拉开 Gemini 3.5 代理时代,Cohere 收购 Reliant AI

Karpathy 加入 Anthropic,Google I/O 2026 拉开 Gemini 3.5 代理时代,Cohere 收购 Reliant AI

ai-powered-markdown-translator

使用 gpt-5.4-mini 从法语翻译成中文的文章。

在 GitHub 上查看项目 ↗

2026 年 5 月 19 日对 AI 来说是忙碌的一天:Andrej Karpathy 离开舞台加入 Anthropic,Google I/O 2026 围绕 Gemini 3.5 系列发布了一系列代理式公告,xAI 推出带有 Office 文档生成能力的 Grok Skills,而 Cohere 则在生物制药领域完成了一项战略收购。与此同时,OpenAI 加强了 AI 内容的来源标识,而生成式媒体世界也获得了新的能力。


Andrej Karpathy 加入 Anthropic

5 月 19 日 — Andrej Karpathy 在 X 上宣布他已加入 Anthropic。该消息在数小时内就获得了超过 1130 万次浏览、10.2 万个“赞”和 1.3 万次转发——这是一项非同寻常的互动,衡量了这次招聘在社区中的影响力。

“Personal update: I’ve joined Anthropic. I think the next few years at the frontier of LLMs will be especially formative. I am very excited to join the team here and get back to R&D. I remain deeply passionate about education and plan to resume my work on it in time.”

🇨🇳 个人更新:我已经加入 Anthropic。我认为未来几年处在 LLM 前沿会特别有收获。我非常期待加入团队并回到研发工作。我对教育依然怀有深厚的热情,并计划在适当的时候重新投入这项工作。@karpathy 在 X 上

Karpathy 是这个领域最知名的人物之一。他的经历包括:斯坦福博士、OpenAI 创始成员、Tesla 的 AI 负责人,之后以 nanoGPT 教程系列和被数百万人观看的机器学习课程成为独立人物。

他加入 Anthropic 显著增强了基础研究团队,恰逢前沿实验室之间的竞争加剧之时。前 OpenAI 人士加入 Anthropic——这对行业中的人才流动是一个强烈信号。

Anthropic 并未说明他的具体职责。该公告恰逢 Code with Claude London 活动以及当天的多个重大发布。


Google I/O 2026 — Gemini 3.5 的代理时代

5 月 19 日 — Google I/O 2026 今天举行,核心主题是 Gemini 代理时代agentic Gemini era)。Google 在主题演讲中宣布了一组彼此一致的公告,全部围绕 Gemini 的自主行动、主动性与持久性能力展开。

“Three years ago, Gemini started by understanding the world. With Gemini 2, models learned to think and reason. Late last year, Gemini 3 brought any idea to life. Today, we’re continuing that journey with our Gemini 3.5 series, starting with Gemini 3.5 Flash, delivering frontier performance for agents and coding.”

🇨🇳 “三年前,Gemini 从理解世界开始。随着 Gemini 2,模型学会了思考与推理。去年年底,Gemini 3 让任何想法都变成现实。今天,我们继续沿着这条道路前进,推出我们的 Gemini 3.5 系列,从 Gemini 3.5 Flash 开始,为代理和编码提供领先性能。”@GoogleAI 在 X 上

I/O 2026 主题演讲的主要公告:

公告类别
Gemini 3.5 Flash新模型(代理 + 编码)
Gemini Omni多模态视频模型
Gemini Spark24/7 个人代理
Daily Brief个性化晨间代理
Neural Expressive应用的新设计
Managed Agents API面向开发者的 Antigravity 基础设施
Google AI Studio更新为带有代理模板

🔗 Google I/O 2026 博客


Gemini 3.5 Flash — 为代理带来速度与智能

5 月 19 日Gemini 3.5 Flash 是新一代 3.5 的首个模型。它旨在结合前沿智能(frontier intelligence)与闪电般的行动速度(lightning-fast action),专门针对代理和编码场景进行了优化。

Gemini 3.5 Flash 是 Antigravity 代理(Managed Agents API)和 Gemini Spark 的底层引擎。它自 5 月 19 日起可通过 Gemini API 和 Google AI Studio 使用。

代际关键能力
Gemini 1理解世界
Gemini 2推理与思考
Gemini 3多模态创作
Gemini 3.5 Flash代理、编码、闪电般速度

该模型在发布当天也已在 GitHub Copilot 中进入正式可用(generally available)状态——覆盖 Pro、Pro+、Business 和 Enterprise 计划。GitHub 报告称其在 Flash 速度下接近 Pro 级性能,具备高效工具使用、更快响应时间和较高缓存效率。部署正在逐步推进;Copilot Enterprise 和 Business 管理员需要在设置中启用 Gemini 3.5 Flash 策略。

Copilot 属性
适用计划Pro, Pro+, Business, Enterprise
支持的 IDEVS Code, Visual Studio, JetBrains, Xcode, Eclipse, GitHub Mobile
高级倍率14×(临时,可能变化)

🔗 GitHub Copilot 公告


Gemini Omni — 从任何内容创造任何东西

5 月 19 日 — Google DeepMind 推出 Gemini Omni,被描述为“迈向一个能够从任何内容创造任何东西的模型的第一步——从视频开始”。它将 Gemini 的智能与 Google 的生成式媒体系统(Veo、Imagen)结合起来。

“We’re dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video. It combines Gemini’s intelligence with our generative media systems - representing a leap forward in world understanding, multimodality, and editing.”

🇨🇳 “我们推出 Gemini Omni:这是我们迈向一个能够从任何内容创造任何东西的模型的第一步——从视频开始。它将 Gemini 的智能与我们的生成式媒体系统结合起来,代表着在世界理解、多模态与编辑方面的一次跃进。”@GoogleDeepMind 在 X 上

在 Gemini 应用中,Gemini Omni 支持从文本、图像或现有视频生成高质量电影级视频,通过自然对话进行视频编辑(电影感缩放、仅通过提示词即可更换背景)、创建类似用户的个性化 AI 化身,并一键应用内置模板。

可用性: 自 5 月 19 日起分批向全球 Google AI Plus、Pro 和 Ultra 订阅用户开放。


Gemini Spark — 24/7 个人代理

5 月 19 日 — Google 发布 Gemini Spark,一个 24 小时全天候可用的个人 AI 代理。这是 Gemini 本质上的根本性变化:它从被动助手转变为主动伙伴,即使用户关闭设备,它也会在后台工作(云架构)。

Spark 运行于 Gemini 3.5 Flash,并通过 Antigravity 基础设施提供支持。它与 Workspace 工具(Gmail、Docs、Slides、Calendar)深度集成。

能力细节
例行任务自动触发器(如:分析月度账单)
技能学习按用户指示
完整工作流会议总结 → Google Doc → 跟进邮件
MCP 连接上线即支持 Canva、OpenTable、Instacart
用户控制高影响操作前需要确认

可用性: 本周进行信任测试;下周面向美国 Google AI Ultra 订阅用户开放测试版。预计将于 2026 年夏季进入 Gemini macOS 应用。


Gemini API 中的 Managed Agents — 开放的 Antigravity 基础设施

5 月 19 日 — Google 在 Gemini API 中推出 Managed Agents,允许开发者在隔离的临时 Linux 环境中通过一行代码部署代理。该基础设施由基于 Gemini 3.5 Flash 构建的 Antigravity 代理提供支持。

这意味着 Google 内部的代理基础设施向外部开发者开放。第一个托管代理是 Deep Research(2025 年 12 月);现在开发者可以创建自己的代理。

开发者功能细节
部署只需一次 API 调用 — 远程 Linux 环境
功能网页浏览、代码执行、文件管理
自定义AGENTS.mdSKILL.md 文件
持久会话完整状态恢复
可复用代理通过 client.agents.create() 注册
企业版Gemini Enterprise Agent Platform(私有预览)

可用性: 5 月 19 日晚起在 Gemini API 中提供预览;Google AI Studio 中提供模板。

🔗 Managed Agents API 公告


Claude Managed Agents — 自托管沙箱与 MCP 隧道

5 月 19 日 — 在 Code with Claude London 活动中,Anthropic 为 Claude Managed Agents 发布了两项新的重大功能。

Self-hosted sandboxes(公开测试版) — Claude 代理现在可以在客户基础设施上托管的沙箱中运行。团队可以将敏感文件、软件包和服务保留在自己的边界内,并使用已有的网络策略、审计日志和安全工具。

MCP tunnels(研究预览) — 代理可以访问位于私有网络中的 MCP 服务器,而无需将其公开暴露。MCP 隧道通过 Claude Console 管理,并同时支持 Managed Agents 和 Messages API。

功能状态提供商
Self-hosted sandboxes公开测试版Cloudflare, Daytona, Modal, Vercel
MCP tunnels研究预览(按需访问)通过 Claude Console

🔗 Claude Managed Agents 公告


Grok Skills — 持久专业能力与 Office 文档

5 月 18 日 — xAI 为 Grok 4.3 推出了 Skills,这是一项持久记忆功能,允许 Grok 一次性学习偏好、格式规则和工作流步骤,然后在后续所有对话中应用它们。

“I’m leveling up my Skills. Automate your workflows and get things done in record time with prebuilt and custom Skills.”

🇨🇳 我正在通过 Skills 提升自己的能力。借助预构建和自定义的 Skills,以创纪录的速度自动化你的工作流并完成任务。@grok 在 X 上

文档类型能力
Word (.docx)创建和编辑,支持完整格式(标题、表格、项目符号)
PowerPoint带有视觉层级和演讲者备注的幻灯片
Excel公式、彩色区块、清晰结构
PDF创建、合并、拆分和提取
Skill Creator通过对话构建新的自定义 skills

Skills 可在 grok.com、iOS 和 Android 上使用。用户自定义 skills 始终优先于默认内置 skills。

🔗 Grok Skills 公告


Cohere 收购 Reliant AI — 面向生物制药的主权 AI

5 月 19 日 — Cohere 宣布收购 Reliant AI,这是一家专注于生物制药 AI 的公司,在蒙特利尔和柏林设有办公室。此次交易加强了 Cohere 在医疗和生命科学领域的主权 AI(sovereign AI)战略。

“Healthcare represents one of the most consequential opportunities for AI and it demands secure, sovereign, and domain-specific systems.”

🇨🇳 医疗保健是 AI 最重要的机遇之一,并且需要安全、主权化且面向特定领域的系统。 — Aidan Gomez,Cohere 联合创始人兼首席执行官

收购带来的内容:

要素细节
团队专注于生物制药的高水平研究人员
数据专有生物医学数据库
技术智能研究工作台(intelligent research workbench
转移客户GSK、Medicus Pharma、Kyowa Kirin

新产品:North for Pharma — Cohere 宣布正在开发一套面向生物制药团队的代理式 AI 系统,适用于研发、临床开发和科学分析。它扩展了已面向金融和电信行业提供的 “North” 套件。

Karl Moritz Hermann(Reliant AI 前 CEO)将担任柏林的 VP of AI Verticalizations。Marc Bellemare(联合创始人、Canada CIFAR AI Chair、Mila)将担任蒙特利尔的 VP of Modelling。

🔗 Cohere 公告


KPMG × Anthropic — 全球联盟(276,000 名员工,138 个国家)

5 月 19 日 — 全球最大的专业服务公司之一 KPMG 宣布与 Anthropic 建立全球战略联盟。该公司将 Claude 集成到其 Digital Gateway 平台中,并向其在 138 个国家的 276,000+ 名员工开放 Claude 使用权限。

主要方向包括:将 Claude Cowork 和 Managed Agents 集成到 Digital Gateway 中,为税务和法律领域的客户提供新工具,KPMG 成为 Anthropic 面向私募股权基金的首选合作伙伴,以及 KPMG 团队通过 Claude Code(经由 KPMG Blaze)来现代化老旧信息系统。

“Building an AI agent to help clients adjust to changing tax regulations used to take weeks and required teams to switch between multiple tools and chat windows. With Cowork and Managed Agents integrated in Digital Gateway, that same capability takes minutes.”

🇨🇳 过去,创建一个帮助客户适应不断变化的税务法规的 AI 代理往往需要数周时间,并且要在多个工具之间来回切换。如今,借助集成到 Digital Gateway 中的 Cowork 和 Managed Agents,这一能力只需几分钟即可完成。 — Rema Serafi,KPMG US 税务副总裁

此次部署建立在 KPMG 美国内部两年的采用基础之上。

🔗 Anthropic × KPMG 公告


Gemini App — Neural Expressive 和 Daily Brief

5 月 19 日 — Gemini 应用迎来两项重大更新。

Neural Expressive 是面向 AI 时代的一种新设计语言:流畅动画、鲜艳色彩、新字体、触觉反馈。Gemini Live(语音对话)现在已直接集成到主界面中——在打字和对话之间无缝切换。自 5 月 19 日起面向所有用户在 web、Android 和 iOS 上全球推出。

Daily Brief 是一个每天早晨基于 Gmail、Calendar 和用户优先事项生成个性化摘要的代理。它不仅仅是简单概述:它还会组织、排序并建议可执行的下一步。将首先面向 Plus、Pro 和 Ultra 订阅用户逐步推出,从美国开始。


OpenAI — C2PA、SynthID 和公开验证工具

5 月 19 日 — OpenAI 宣布了一种多层次的方法来标识 AI 生成内容的来源,结合了三种互补机制。

机制范围抵抗修改能力
C2PA 元数据图像、音频、视频中等(可移除)
SynthID 水印(Google DeepMind)仅图像
openai.com/verify 工具OpenAI 生成的内容不适用

OpenAI 现在将 Google DeepMind 的隐形数字水印 SynthID 集成到所有通过 ChatGPT、Codex 和 OpenAI API 生成的图像中。SynthID 会将来源直接编码到图像像素中,且不可感知,并能抵御大多数常见修改(裁剪、滤镜、压缩)。公开工具 openai.com/verify 允许任何人上传图像以检测是否存在 SynthID 水印——目前仅限于 OpenAI 内容的预览。

🔗 OpenAI 公告


NVIDIA Sana WM — 单 GPU 世界模型

5月19日 — NVIDIA AI 发布 Sana WM(World Model)。基于一张图片、一段文本描述和一条相机轨迹,模型可生成连贯且可控的视频——全部运行在单个 GPU 上。

其架构依托四项创新:Hybrid Linear Attention、Dual-Branch Camera Control、Two-Stage Generation Pipeline 和 Robust Annotation Pipeline。该项目完全开源(论文 + 代码 + 模型)。

🔗 NVIDIA AI 公告


Wan2.7-Image — 色彩调色板控制

5月19日 — Alibaba 为 Wan2.7-Image 推出 色彩调色板控制Palette Control)。该功能可以提取任意图像的色彩调色板——如同一件艺术杰作——并将其应用到新的创作中。可直接在 wan.video 上使用。该公告在 X 上获得了 529 742 次浏览。

🔗 Alibaba Wan 公告


ElevenLabs — 用于教学的阿尔伯特·爱因斯坦声音

5月19日 — ElevenLabs 宣布在其平台中引入重建的 阿尔伯特·爱因斯坦 声音,形式为一个专用于教学的对话式代理。该代理展示了语音 AI 如何让学习更具互动性、可访问性并支持多语言。演示可在 start.elevenlabs.io 上查看。教师可通过 Impact 计划免费获得 Pro 套餐。

与此同时,ElevenLabs 还宣布在 波兰 进行试点:今年夏天在公共医疗服务(NFZ)中部署语音代理。

🔗 ElevenLabs 公告


xAI Grok 集成进 OpenClaw — 多消息平台的本地开源代理

5月19日 — xAI 宣布将 Grok 集成到 OpenClaw 中,这是一款个人用、开源且本地优先(local-first)的代理。Grok 和 X Premium 订阅用户现在可以在 OpenClaw 中使用 Grok;该工具可在任何硬件上运行(Mac Mini、笔记本、Raspberry Pi),并连接 WhatsApp、Telegram、Slack、Discord、Signal 和 iMessage。

🔗 xAI 公告


Z.ai GLM-5.1 — 开源 SWE-Bench Pro 第一名,MIT,200K 上下文

5月18日 — Z.ai(Zhipu AI)将 GLM-5.1 上线到 OrcaRouter。该模型宣称在 SWE-Bench Pro(真实环境代码修复基准)上的开源模型中排名第一,甚至超过了某些闭源模型。MIT 许可证,200K tokens 上下文,面向长周期代理式编程(long-horizon agentic coding)。

🔗 OrcaRouter 公告


简讯

  • The Problem Solvers(Anthropic) — 新视频系列,展示创始人与 Claude 一起构建产品。首批集数:Scott Wu(Cognition/Devin)和 Kay Zhu(Genspark)。🔗 claude.com/problem-solvers

  • Manus × Higgsfield(MCP 连接器) — Manus 通过 MCP 集成 Higgsfield,为创作者在其工作流中对图像/视频生成提供专业级控制。🔗 manus.im/blog

  • OpenAI Guaranteed Capacity — 新方案允许企业通过 1 到 3 年的承诺预留 OpenAI 计算资源访问权限,并根据期限享受递增折扣。🔗 openai.com

  • Perplexity Computer — Rho — 借助 Perplexity Computer,Rho 将每周会议时间缩短了 90%,并在 12 周内节省了 120 小时;该工具会监控 Slack、Notion、Jira、Figma 和 Google Docs。🔗 Perplexity 在 X 上


这意味着什么

Managed Agents 的融合。 Google 和 Anthropic 几乎在同一天、几乎同一时间,以相同名称宣布了相似的基础设施:Managed Agents。在 Google 这边,它是通过 Gemini API 开放的 Antigravity——只需一次调用,就能在隔离的 Linux sandbox 中部署一个代理。在 Anthropic 这边,则是 self-hosted sandboxes(Cloudflare、Daytona、Modal、Vercel)以及面向私有网络的 MCP tunnels。这种融合并非偶然:它标志着一种新的标准化 AI 基础设施层正在出现,位于原始模型与最终应用之间。

企业级 AI 正围绕主权性展开。 Cohere 收购 Reliant AI、KPMG 与 Anthropic 在 Digital Gateway 中围绕 Claude 的联盟,以及 OpenAI Guaranteed Capacity 方案,描绘出同样的趋势:大型组织希望将 AI 系统置于自己的边界内,使用自己的数据、自己的安全规则,并获得多年期的容量承诺。“主权”(sovereign)已经成为 2026 年企业级 AI 的关键词。

长周期代理式编程竞赛。 Gemini 3.5 Flash(针对 agents + coding 优化)、Z.ai 的 GLM-5.1(开源 SWE-Bench Pro 第一名,200K 上下文)、Grok Skills(持久化工作流)——它们都瞄准同一个用例:一个代理能在没有人工介入的情况下,连续数小时处理复杂任务。GitHub Copilot 在同一天集成 Gemini 3.5 Flash,这说明开发者工具链吸收新模型的速度有多快。

AI 内容的来源与可信度。 OpenAI 公布的 C2PA + SynthID + openai.com/verify 组合(并结合 Google DeepMind 的 SynthID)代表了一种前所未有的多层方法:用元数据表达上下文,用不可见水印保证即使内容被修改后仍可追踪,再用公共工具进行验证。朝着生成内容可追溯性的这一趋势,正逐步成为行业标准,并由 OpenAI、Google 和 C2PA 联盟共同推动。


来源