搜索

Qwen3.7-Max、GitHub 安全事件、NVIDIA Verified Agent Skills、Runway Aleph 2.0

Qwen3.7-Max、GitHub 安全事件、NVIDIA Verified Agent Skills、Runway Aleph 2.0

ai-powered-markdown-translator

由 gpt-5.4-mini 将文章从法语翻译成中文。

在 GitHub 上查看项目 ↗

AI 生态系统度过了信息密集的一周:Alibaba 推出其旗舰模型 Qwen3.7-Max,专为 agentic 时代打造;GitHub 披露一起涉及恶意 VS Code 扩展的安全事件;NVIDIA 发布面向代理 skills 的开放治理框架;Runway 则用 Aleph 2.0 和 Edit Studio 更新其视频编辑模型。开发者工具方面,Claude Code 2.1.146 将 /simplify 重命名为 /code-review,而 Codex 26.519 则在 macOS 上引入了 Appshots。


Qwen3.7-Max — Alibaba 面向 agentic 时代的旗舰产品

5月21日 — Alibaba 推出 Qwen3.7-Max,其全新旗舰专有模型,专为自主代理而设计。该模型接续了在 5 月 18 日于 Arena 上评测的 Qwen3.7-Max-Preview 和 Qwen3.7-Plus-Preview。

其定位明确为“Agent Era”:Qwen3.7-Max 面向的不只是点式理解任务,而是长时间自主运行与复杂编排的领域。

指标数值
AAII 分数56,6
相比前一版本的提升+4,8 分
连续自主运行时长(核心测试)35 小时
工具调用次数(核心测试)1 000+
主推文浏览量~325 000

公布的五项能力:

  1. 端到端编码代理 — 前端原型、多文件重构、真实调试
  2. 桌面生产力 — 通过 MCP 集成和多代理管理完成任务
  3. 长时自主运行 — 在内核优化任务上连续 35 小时,1 000+ 次工具调用且无关键幻觉
  4. 与 scaffolds 无关 — 兼容 Claude Code、OpenClaw、Qwen Code 或任何自定义栈
  5. 增强的科学推理 — AAII 分数:56,6(+4,8 分)

据 Tongyi Lab(Alibaba)称,Qwen3.7-Max 是“我们最新的专有模型,专为代理时代打造”,具备前沿编码代理、桌面生产力助手,以及长时自主运行能力——始终可靠,与 scaffolds 无关。

该模型可通过 Qwen Studio(chat.qwen.ai)和 Alibaba Cloud API 使用。

🔗 Qwen3.7-Max 官方博客


GitHub — 安全事件:恶意 VS Code 扩展

5月20日 — GitHub 公开一起重大安全事件:一名员工从 Microsoft marketplace 安装了一个恶意 VS Code 扩展,从而导致 GitHub 内部仓库遭到未授权访问。

X 上最初的公告获得了 1,340 万次浏览、8,000 次转发和 25,000 个点赞——显示出该事件对社区造成了相当大的影响。GitHub 随后发布了一个由 5 部分组成的线程,详细说明时间线与已采取的措施。

“1/ Yesterday we detected and contained a compromise of an employee device involving a poisoned VS Code extension. We removed the malicious extension version, isolated the endpoint, and began incident response immediately.”

🇨🇳 昨天,我们检测并遏制了一起涉及被投毒 VS Code 扩展的员工设备入侵事件。我们已移除该扩展的恶意版本、隔离受影响终端,并立即启动了事件响应。@github 在 X 上

发生了什么:

  • 入口:来自 Microsoft marketplace 的恶意 VS Code 扩展
  • GitHub 员工设备被攻破
  • GitHub 内部仓库遭到未授权访问

根据 GitHub 的说法,未受影响的内容:

  • 未确认对客户数据造成影响(企业、组织、公共或私有仓库)

立即采取的措施:

  • 移除恶意扩展
  • 隔离受影响的终端
  • 分析日志(logs)并轮换密钥
  • 加强基础设施监控

GitHub 承诺在调查结束后发布完整报告。此事件重新引发了关于 VS Code 扩展 marketplace 安全性的讨论;该市场拥有数以万计的扩展,但其验证仍然有限。

🔗 GitHub 在 X 上的公告


NVIDIA Verified Agent Skills — 面向 AI 代理治理的开放标准

5月21日 — NVIDIA 推出 NVIDIA-Verified Agent Skills,这是一个用于保障 AI 代理能力(skills)的开放治理框架。该倡议回应了一个日益严峻的问题:skills 提升了代理的能力,同时也引入了潜在漏洞。

按照 NVIDIA 的定义,一个“已验证”skill 依赖四个支柱:

组件描述
Cataloging来自 NVIDIA 产品团队的每日同步
SkillSpector基于 OWASP LLM 和 MITRE ATLAS 的风险扫描器
密码学签名可通过 OpenSSF Model Signing 验证的分离签名 skill.oms.sig
Skill Card (SKILLCARD.yaml)机器可读元数据:来源、依赖、限制、状态

该框架尤其能够检测:易受攻击的依赖项、提示注入、trigger abuseexcessive agencytool poisoning

技术规范通过 agentskills.io 开放(SKILL.md 格式),并原生兼容 Claude CodeOpenAI CodexCursor。NVIDIA 的公共 skills 目录可在 github.com/nvidia/skills 查看。

“Verified means cataloged, scanned, signed, and documented with a skill card.”

🇨🇳 经过验证,就意味着已编目、已扫描、已签名,并配有能力说明卡。 — NVIDIA 开发者博客,2026年5月21日

该规范是开放的,并兼容三大主流 AI 编码工具(Claude Code、Codex、Cursor),这表明其目标是成为行业标准,而不仅仅是 NVIDIA 内部工具。

🔗 NVIDIA 开发者博客


Runway Aleph 2.0 与 Edit Studio — 支持最长 30 秒、1080p 的视频编辑

5月21日 — Runway 推出 Aleph 2.0,这是其视频编辑模型的一次重大更新,并配套推出了 Edit Studio,一个面向营销团队和电影制作人的新界面。

Aleph 2.0 的核心新特性是 image-level 控制:用户提供一帧经过编辑的图像作为视觉参考,模型会将该修改一致地应用到整段视频中。与以往在生成前无法得知最终结果的方法不同,这种方式可对输出提供可预测的控制。

功能详情
最长时长30 秒
分辨率1080p
控制方式图像级参考帧(image-level)
多镜头编辑是 — 自动应用于多个镜头
访问权限所有 Runway 付费方案

Aleph 2.0 的编辑能力:

  • 精确局部编辑:只有被修改的区域发生变化,其余部分保持不变
  • 多镜头编辑:修改可应用于包含多个剪辑的视频
  • 最长 30 秒、1080p 的片段——足以用于广告和短内容

Edit Studio 的使用场景: 产品替换、背景更换、季节性活动变体、光照修正、移除干扰元素、整体重设计。

“With Aleph 2.0, your edited frame defines what the change should look like, and the model carries it through to the right parts of your video.”

🇨🇳 借助 Aleph 2.0,你编辑后的图像定义了期望的外观,而模型会将其应用到视频中对应的部分。 — Runway,官方博客 2026年5月21日

🔗 Runway 官方公告


Claude Code 2.1.146 — /code-review 与后台 agents 修复

5月21日 — Anthropic 发布 2.1.146 版本的 Claude Code,带来一个主要新功能和多项重要稳定性修复。

命令 /simplify 被重命名为 /code-review,并新增可选努力级别(/code-review high)。这一变化明确将该功能重新定位为 agentic 工作流中的代码审查工具。

领域修复
Windows PowerShell修复通过 winget/Microsoft Store 使用 pwsh 时的 v2.1.124 回归问题
MCP 分页resources/listprompts/list 不再会丢失第 1 页之后的条目
后台会话修复 Windows Terminal 闪烁、NTFS worktrees、/backgroundclaude agents 阻塞
自动模式当 skill 或用户依赖 AskUserQuestion 时,予以保留
Bedrock使用 awsCredentialExport 修复跨账户认证
VSCode Voice修复麦克风反馈静音问题,并为 WSLg 提供 sox 建议

🔗 Claude Code CHANGELOG


Claude Code /usage — 按组件拆分 token 消耗

5月21日 — Anthropic 的 Claude Code 负责人 Boris Cherny 在 X 上宣布,/usage 命令将有一次重要扩展:下一版本将能够精确显示一次会话中哪些 SkillsAgentsMCPsPlugins 在消耗 tokens。

这一功能超越了前一天的 UI 重设计。它提供了按组件划分的粒度——从而可以识别最消耗上下文的扩展。该功能目前已可在 CLI 中使用,Desktop 应用也将很快上线。该公告在 X 上获得了 137,527 次浏览,并引发大量希望选择性禁用未使用连接器的请求。

“In the next version of Claude Code: run /usage to see a breakdown of which Skills, Agents, MCPs, and Plugins are using your tokens CLI today, coming to Desktop next”

🇨🇳 在 Claude Code 的下一个版本中:运行 /usage,即可查看 Skills、Agents、MCPs 和 Plugins 的 token 消耗分布——今天可在 CLI 中使用,不久后将在 Desktop 上提供。@bcherny 在 X 上


Google I/O 2026 — 官方“100 项公告”回顾

5月20日 — Google 发布官方回顾文章 “100 things announced at I/O 2026”,作为整个活动发布内容的参考文档。已确认的公告包括:Antigravity 2.0 CLI(Gemini CLI 的继任者)、Universal Cart(跨品牌购物)、Google Pics(智能照片管理)、Ask YouTube(向 YouTube 视频提问)、Android XR glasses 以及 SynthID 的扩展。该文档汇总了 Google I/O 2026 的规模,并作为开发者寻找所有官方细节的主要来源。

🔗 Google 博客 — I/O 2026 100 项公告


Gemini Connected Apps — OpenTable、Canva 和 Instacart

5月21日 — Google Gemini 将其 Connected Apps 扩展至三个新合作伙伴:OpenTable(餐厅预订)、Canva(视觉内容创作)和 Instacart(食品杂货采购)。Gemini 不再只是检索信息——它开始以用户名义在数字生态中执行实际动作。此次 I/O 后的公告具体体现了 Gemini Spark 的 agentic 愿景:该代理无需离开应用即可在流行的第三方服务上执行操作。

🔗 Gemini Connected Apps 公告


GitHub Copilot — 四项开发者更新

指标报告迁移至 copilot-reports.github.com

5月20日 — Copilot Usage Metrics 报告的下载 URL 从旧的 Azure Front Door 域名(azurefd.net)迁移到稳定域名 copilot-reports.github.com对使用防火墙或代理的组织的要求: 尽快将新域名加入企业 allowlist。旧域名在过渡期内仍将保持可用,但之后会被弃用。对于 GitHub Enterprise Cloud 实例,新域名采用 copilot-reports.SUBDOMAIN.ghe.com 格式。若 Azure 不可用,系统会回退到 *.blob.core.windows.net

🔗 GitHub Copilot 更新日志

云端代理 — Claude Haiku 4.5 和 GPT-5.4-mini,0.33x 计费

5月18日 — Copilot 云端代理新增两种经济型模型:Claude Haiku 4.5GPT-5.4-mini,二者的计费均为标准倍率的 0.33x(而标准模型为 1x)。这一扩展使用户能够根据任务类型选择合适工具——对于简单的 lint 修复或单元测试,使用轻量且快速的模型;对于复杂重构,则使用更强大的模型。模型选择在将任务委派给云端代理时完成,从而可根据实际工作复杂度优化成本/质量比。

🔗 云端代理更新日志

Web 聊天 — 上下文侧边栏正式可用

5月18日 — github.com 上的 Copilot Chat 现在会以 侧边栏 的形式直接出现在所查看资源(PR、issue、仓库)旁边,无需再跳转到专用页面。随着用户在同一会话中浏览多个 PR 和 issue,上下文会自动累积——跨资源引用可继续访问,而不会丢失对话脉络。完整页面的沉浸式体验仍可通过“More → In immersive chat”访问。也可以将对话转换为 agent 会话,以创建 PR 或发起深入搜索。对所有 Copilot 方案均已 GA 可用。

🔗 Copilot Chat web 更新日志

Genspark 免费集成 Gemini 3.5 Flash

5月20日 — Genspark 在 Google I/O 公布后次日即集成 Gemini 3.5 Flash,并在 AI Chat Agent 和 Genspark Claw 中免费提供。该平台(同时可用 70+ 模型)体现了其响应式集成策略:采用最新模型,而不强迫用户手动选择。Gemini 3.5 Flash 是 Google 迄今性能最强的 Flash 模型,针对复杂任务的响应速度进行了优化。

🔗 Genspark 公告


Kling AI 登陆戛纳 — RAPHAEL RAPHAEL,100% AI 电影

5月21日 — Kling AI 在 2026 年戛纳电影节上展示 RAPHAEL RAPHAEL,这是一个大规模 100% 由 AI 生成的长片项目。此公告不同于 5 月 20 日关于 House of David 的帖子(这是首部将 Kling 以工业级规模引入 Hollywood 的剧集,拥有 4,400 万观众,在美国 Prime Video 上排名第 1)。Kling AI 因而在 2026 年戛纳电影节上巩固了其多项目存在,确立了自己作为电影 AI 视频领域主要参与者的地位。

🔗 Kling AI 公告


BFL FLUX Erase — 物体移除与文本擦除

5月21日 — Black Forest Labs 推出 FLUX Erase,这是面向 FLUX 图像的智能擦除功能。该功能包含三项主要能力:物体移除(干净删除并以一致方式重建背景)、文本擦除(在保留底层设计的同时删除文字)以及自动移除与被擦除物体相关的阴影。该功能专为精确修补(precision inpainting)而设计:只修改目标区域,不会降低图像其余部分的质量。可通过 web 工具 flux-tools.bfl.ai/erase 和 BFL API(docs.bfl.ai/flux_erase)使用,无需等待名单即可立即访问。

🔗 BFL 公告


ElevenReader — 20 万+ 高级标题,支持自选声音

5月21日 — ElevenLabs 将 20 万+ 高级标题 集成到 ElevenReader 中:包括有声书和 eBooks 的授权畅销书,其中成千上万本可使用 从 ElevenLabs 声音中自选的叙述者声音。这一扩展使 ElevenReader 成为一个可自定义的音频阅读平台,用户不再局限于一本书的原始旁白,而是可以为任意兼容标题选择自己喜欢的声音。该应用可在 elevenreader.io 访问,并提供免费入门使用。

🔗 ElevenLabs 公告


xAI Grok × OpenCode — Grok 在 CLI 代码编辑器中构建

5月21日 — Grok 或 X Premium 订阅者现在可以在 OpenCode 中使用 Grok Build 模型。OpenCode 是一款面向代码库智能的命令行代码编辑器(CLI coding editor)。这次集成紧随两天前在 OpenClaw 中公布的集成之后——xAI 正在逐步将其订阅扩展到更多第三方工具。该访问权限已包含在现有的 Grok/X Premium 订阅中,不额外收费。OpenCode 与 OpenClaw 的区别在于其对代码的特定聚焦:代码库分析、导航以及辅助重构。

🔗 xAI 公告


Codex 26.519 — Appshots、Goal mode GA、computer use 解锁、插件共享

5月21日 — OpenAI 发布 Codex 26.519,带来了多项新的 macOS 和企业功能。Appshots 允许通过连续双击两个 Command 键,将前台应用窗口发送到 Codex 线程中——可见窗口以及通过 macOS 辅助功能 API 可访问的文本都会被捕获。Goal mode 结束实验状态,进入正式可用(app、IDE extension、CLI)。Remote computer use:Codex 现在可以在 Mac 锁屏后继续使用桌面应用。插件共享 现已面向 ChatGPT Business 提供。

功能状态平台
Appshots新增(GA)仅 macOS
Goal modeGA(原为实验性)App、IDE extension、CLI
Remote computer use(Mac 锁定)新增macOS + Codex Mobile
插件共享新增(Business)ChatGPT Business

🔗 Codex 更新日志


简讯

  • Gemini Daily Brief — 正式可用 — 每日摘要现已向所有 Google AI Plus、Pro 和 Ultra 订阅者开放(18+),最初仅限美国。 🔗 来源
  • Grok × Imagine — 游戏资产(810万次观看) — 直接使用 Grok 和 @imagine 对游戏资产进行原型设计的病毒式演示,获得了游戏社区的强烈参与。 🔗 来源
  • Cohere Command A+ — W4A4 权重已在 HuggingFace 上提供 — Command A+ 的 W4A4 量化权重可供下载,使其能够在 2× H100 上部署,速度相较 BF16 提升 +47%。 🔗 来源

这意味着什么

智能体时代正在多个前线同时确立。 Qwen3.7-Max 的发布带来了 35 小时的持续自主运行和 1000+ 次工具调用,再结合 NVIDIA Verified Agent Skills 对智能体能力治理进行标准化,这表明行业正在从实验阶段走向结构化阶段。NVIDIA 将其标准建立在开放规范 agentskills.io 之上——并兼容 Claude Code、Codex 和 Cursor——这暗示着无论底层模型如何,AI 智能体都将趋向统一的通用接口。

AI 工具链安全正成为关键议题。 GitHub 事件中,一个来自官方 Microsoft marketplace 的恶意 VS Code 扩展攻破了一台内部设备,这说明行业尚未 fully 解决一个新的攻击面。时间点颇具象征意义:NVIDIA 在 GitHub 公布事件的同一天推出了 Verified Agent Skills。随着 AI 智能体开始接管关键系统,未验证的 skills 和扩展正在成为日益增长的攻击向量。

开发者工具正围绕消费透明度不断整合。 Claude Code /usage 的按组件拆分,加上 Codex 的 Appshots 和 GA 版 Goal mode,揭示出一个趋势:新一代 AI 开发者工具如今必须解释它们消耗了什么,以及如何消耗。按 Skills/Agents/MCPs/Plugins 的粒度拆分,回应了那些在生产环境中部署智能体并希望理解真实成本的团队的实际需求。

生成式视频 AI 正进入电影工业。 Runway Aleph 2.0 的可预测 image-level 控制、Kling AI 在戛纳推出的 100% AI 长片(RAPHAEL RAPHAEL),以及确认 House of David(4400 万观看者、美国 Prime Video 排名第 1)在工业规模上使用 Kling,标志着一个转折点。电影工作室不再只是测试这项技术——他们正在将其整合进标准生产流水线。


来源