搜索

Anthropic 揭露工业化蒸馏攻击,OpenAI 放弃 SWE-bench Verified,gpt-realtime-1.5

Anthropic 揭露工业化蒸馏攻击,OpenAI 放弃 SWE-bench Verified,gpt-realtime-1.5

Anthropic 今天发布了一份报告,详细说明了由三个中国实验室——DeepSeek、Moonshot AI 和 MiniMax——发起的工业化蒸馏活动,这些实验室通过 24,000 个欺诈账户与 Claude 进行了超过 1,600 万次对话。另一方面,OpenAI 宣布不再将 SWE-bench Verified 作为其 frontier 模型的参考,理由是证明该基准中有 59.4% 的测试存在缺陷,并且多个顶级模型在训练过程中记住了参考修补(gold patches)。在工具方面,gpt-realtime-1.5 改进了 Realtime API 的语音功能,Responses API 引入了 WebSockets 以支持长期运行的代理,Gemini 推出了用于视频创作的新 Veo 3.1 模板。


Anthropic:三家中国实验室的工业化蒸馏攻击

2月23日 — Anthropic 发布报告,揭示 DeepSeek、Moonshot AI (Kimi) 和 MiniMax 对 Claude 发起了大规模的非法蒸馏活动。

事件经过

这三家实验室创建了约 24,000 个欺诈账户,通过 API 与 Claude 生成了超过 1,600 万次对话,违反了 Anthropic 的使用条款和区域访问限制——中国并不拥有 Claude 的商业访问权限。

所用技术为“模型蒸馏”,即用能力较弱的模型在更强模型的输出上进行训练。这在内部使用时是合法的,但当竞争对手在未经许可的情况下提取另一家实验室的能力时,就构成非法行为。

按实验室划分的规模

实验室交流量主要目标
DeepSeek+150 000 次对话推理、评分细则、审查友好替代方案
Moonshot AI (Kimi)+3,4 百万次对话代理式推理、编码、计算机使用、视觉
MiniMax+13 百万次对话代理式编码、工具使用、编排

显著手法

DeepSeek 的活动以其提示要求 Claude 逐步表述内部推理而显著——从而大规模生成 chain-of-thought 类型的训练数据。Anthropic 还检测到旨在训练 DeepSeek 提供政治敏感问题替代答案的任务。

Anthropic 在 MiniMax 活动仍在进行时就检测到其行为。当 Anthropic 发布新模型时,MiniMax 在 24 小时内将近一半流量重定向到新系统——这表明其持续自动化监控 Anthropic 的输出。

所用基础设施基于所谓的 “hydra cluster” 架构:由欺诈账户网络分发 API 流量并使用第三方云平台。单个代理网络同时管理超过 20,000 个账户。

Anthropic 的应对

Anthropic 实施了多项对策:使用分类器和行为指纹系统检测蒸馏模式,与其他实验室、云供应商和主管部门共享技术数据,加强对教育与研究账户的核查,并在产品、API 与模型层面开发反制措施。

“These labs created over 24,000 fraudulent accounts and generated over 16 million exchanges with Claude, extracting its capabilities to train and improve their own models.”

🇨🇳 这些实验室创建了超过 24,000 个欺诈账户,并与 Claude 产生了超过 1,600 万次对话,提取了其能力以训练并改进自己的模型。@AnthropicAI 在 X 上

🔗 Anthropic 报告 🔗 @AnthropicAI 的公告


OpenAI 放弃 SWE-bench Verified:59.4% 的测试存在缺陷

2月23日 — OpenAI 发布分析,说明为何公司将不再报告 SWE-bench Verified 的分数,并建议行业也这样做。

背景

自 2024 年 8 月创立以来,SWE-bench Verified 已成为衡量模型在软件开发自主任务上进展的参考标准。经过快速增长——一年内从 0% 到 75%——过去六个月分数在 74.9% 到 80.9% 之间停滞。OpenAI 进行了深入审计,以判断这一平台化是否反映模型的天花板,或是基准自身的问题。

审计结果:两个主要问题

在审计的 138 个问题子集(占数据集 27.6%)中,至少 59.4% 的问题包含会拒绝功能上正确解答的测试。缺陷分布如下:

缺陷类型占缺陷案例份额
对实现细节过于苛刻的测试35.5 %
测试了题目中未指定的功能18.8 %
其它缺陷(不稳定测试、规格模糊等)5.1 %

第二个问题是 训练数据污染:SWE-bench 的题目来自于被广泛用于训练的开源仓库。通过自动化的 red-teaming 管道,OpenAI 证明 GPT-5.2、Claude Opus 4.5 和 Gemini 3 Flash Preview 都能逐字复现某些问题的参考修补(gold patches)——这说明这些示例在训练期间曾被看到。

建议

OpenAI 已停止报告 SWE-bench Verified 的分数,并建议改用 SWE-bench Pro ——其公开拆分数据明显较少被污染。公司也呼吁学术界投资于非污染的私有基准,例如由领域专家撰写并采用整体评分的 GDPVal。

🔗 OpenAI 文章


OpenAI:gpt-realtime-1.5 与 Responses API 中的 WebSockets

在 Realtime API 中的 gpt-realtime-1.5

2月23日 — OpenAI 宣布在 Realtime API 中提供 gpt-realtime-1.5。这一新语音模型替代了之前的版本,并为实时会话应用带来改进。

gpt-realtime-1.5 提供了更好的指令跟随能力、更可靠的工具使用,以及更高的多语言精确度。像 Genspark 这样的合作伙伴在 alpha 阶段测得的具体结果包括:人工接入率从 43.7% 提升到 66%,并在评估对话中的精确率达到 97.9%。该模型可在现有 Realtime API 中直接使用,无需更改基础设施。

🔗 推文 @OpenAIDevs

Responses API 中的 WebSockets

2月23日 — OpenAI 在 Responses API 中引入了 WebSockets 支持,面向需要大量工具调用的长期运行代理。

持久的 WebSocket 连接允许每轮只发送新的输入,而无需在每次请求中重传完整上下文。状态在交互间保存在内存中,从而避免冗余重算。根据 OpenAI 的说法,这种方法能将包含 20 次或以上工具调用的代理运行加速 20% 到 40%

🔗 推文 @OpenAIDevs — 公告


Anthropic:The AI Fluency Index

2月23日 — Anthropic 发布了 “The AI Fluency Index” 研究报告,通过分析用户在 Claude 上的真实行为来衡量他们对 AI 的掌握程度。

该研究追踪了数千次 Claude.ai 对话中的 11 种不同行为,例如用户与 Claude 反复迭代和细化工作的频率,以衡量人们在实践中如何发展出对 AI 的实际使用能力。该报告旨在推动有关 AI 采用的教育性与理解性工作,而不仅仅停留在简单的使用指标上。

“We tracked 11 behaviors across thousands of Claude.ai conversations—for example, how often people iterate and refine their work with Claude—to measure how people actually develop AI skill in practice.”

🇨🇳 我们跟踪了数千次 Claude.ai 对话中的 11 种行为——例如人们在多大频率上与 Claude 迭代和完善他们的工作——以衡量人们在实践中如何真正发展出对人工智能的掌握能力。@AnthropicAI 在 X 上

🔗 AI 流利度指数


Gemini:用于视频创作的 Veo 3.1 新模板

2月23日 — Google 在 Gemini 应用中推出了 Veo 3.1 的新模板,简化了面向所有用户的 AI 视频创作流程。

访问方式:打开 gemini.google 或移动应用,然后在工具菜单中选择 “Create videos”。模板库会显示,每个模板都可以通过参考照片和/或文本描述进行定制。

这一公告发生在 Gemini 生态系统的密集一周内:2月19日,Google 发布了在 ARC-AGI-2 上得分 77.1% 的 Gemini 3.1 Pro;2月18日,Lyria 3 在应用中引入了直接的音乐生成。Veo 3.1 的模板补充了在单一应用内向多模态创作扩展的能力。

🔗 @GeminiApp 的公告


Pika AI Selves:由 IA 代理自主制作的纪录片系列

2月23日 — Pika 宣布其 “AI Selves”——作为创作者个性与技能的 AI 扩展——已自主导演并剪辑了以他们与人类在 Pika 的协作为主题的纪录片系列。

Pika 的 “AI Self” 概念区别于传统的 AI 代理:它不是单纯执行任务的工具,而是将特定创作者的技能、个性和审美品味整合进来的扩展体。演示以一整套由这些 AI 实体完全制作的纪录片形式呈现,在剪辑和导演过程中无人类干预。

🔗 @pika_labs 的公告


含义

Anthropic 揭露的蒸馏事件超越了单纯的违反使用条款:这是首次在大规模层面记录竞争实验室如何系统性地提取 frontier 模型的能力。MiniMax 行动的复杂性——在 24 小时内将流量重定向到新模型、基于 20,000 个账户的 “hydra” 基础设施——表明其具备持续且自动化的监视能力。Anthropic 呼吁产业与政策制定者协调应对,并将其与对芯片的出口控制相结合,标志着实验室间竞争出现了新的战线。

OpenAI 决定放弃 SWE-bench Verified 对行业而言是一个结构性信号:面向公众的编码基准已被最强模型的训练数据污染。向 SWE-bench Pro 和像 GDPVal 这样的私有基准的转变,预示着评估标准将被重新配置——这也使得公开的模型间比较更加难以解读。

在工具层面,OpenAI 的两项公告(gpt-realtime-1.5 和 WebSockets)针对具体用例:生产环境中的语音代理和需要大量工具调用的长期代理运行。对于每次会话需要串联 50 或 100 次工具调用的工作流而言,WebSockets 带来的 20–40% 的提升并非微不足道。


资料来源

本文件已使用 gpt-5-mini 模型从法语 (fr) 翻译成中文 (zh)。有关翻译过程的更多信息,请参阅 https://gitlab.com/jls42/ai-powered-markdown-translator