Anthropicが産業的な蒸留攻撃を暴露、OpenAIはSWE-bench Verifiedを廃止、gpt-realtime-1.5

Anthropicは本日、DeepSeek、Moonshot AI、MiniMaxという3つの中国の研究所による大規模な蒸留キャンペーンを詳述する報告を公開しました。これらは24,000の不正アカウントを通じてClaudeとのやり取りを1600万件以上収集したとされています。一方OpenAIは、ベンチマークのテストの59.4％に欠陥があることを示したとして、frontierモデルの参照としてSWE-bench Verifiedの報告を中止すると発表しました。ツール面では、gpt-realtime-1.5がRealtime APIの音声機能を改善し、Responses APIにWebSocketsが導入されて長時間実行のエージェント向けに利用可能になり、GeminiはVeo 3.1の新テンプレートを動画作成向けに展開しています。

Anthropic：三つの中国の研究所による産業的蒸留攻撃

2月23日 — Anthropicは、DeepSeek、Moonshot AI（Kimi）、MiniMaxがClaudeに対する大規模な不正な蒸留キャンペーンを実行したとする報告書を公開しました。

何が起きたか

これら3つの研究所は約24,000の不正アカウントを作成し、APIを通じてClaudeとのやり取りを1600万件以上生成しました。これはAnthropicの利用規約および地域別のアクセス制限（中国は商用でClaudeにアクセスできない）に違反しています。

用いられた手法である「モデルの蒸留」は、上位モデルの出力を用いて下位のモデルを訓練する手法です。内部利用では正当ですが、競合が他社の許可なく能力を抽出するために行うと不正になります。

研究所別のボリューム

研究所	やり取り数	主なターゲット
DeepSeek	+150,000 やり取り	推論、ルーブリック評価、検閲回避の代替案
Moonshot AI (Kimi)	+3.4 million やり取り	エージェント的推論、コーディング、computer use、視覚
MiniMax	+13 million やり取り	エージェント的コーディング、ツール利用、オーケストレーション

注目すべき技術

DeepSeekのキャンペーンは、Claudeに内部の理由付けをステップごとに説明させるプロンプトを大量に送る点が目立ち、chain-of-thoughtタイプの訓練データを大規模に生成しました。Anthropicはまた、政治的に敏感な質問に対する代替案を提示させるタスクも検出しています。

AnthropicはMiniMaxのキャンペーンを活動中に検出しました。Anthropicが新モデルをリリースした際、MiniMaxは24時間以内にトラフィックのほぼ半分を新システムにリダイレクトしました。これはAnthropicの出力を自動監視していることを示しています。

使用されたインフラは「hydra cluster」アーキテクチャに基づいており、不正アカウントのネットワークがAPIトラフィックを分散し、サードパーティのクラウドプラットフォームを利用していました。単一のプロキシネットワークが同時に2万以上のアカウントを管理していたケースもありました。

Anthropicの対応

Anthropicは複数の対策を導入しています：蒸留パターンを検出するための分類器と行動フィンガープリンティングシステム、他の研究所やクラウドプロバイダ、当局との技術データ共有、教育・研究アカウントの審査強化、製品・API・モデルレベルでの対策開発などです。

“These labs created over 24,000 fraudulent accounts and generated over 16 million exchanges with Claude, extracting its capabilities to train and improve their own models.”

🇯🇵 これらの研究所は24,000件以上の不正アカウントを作成し、Claudeとのやり取りを1,600万件以上生成して、その能力を抽出し自社のモデルを訓練・改良するために利用しました。 — @AnthropicAI の X での投稿

🔗 Anthropicレポート 🔗 @AnthropicAI の発表

OpenAIがSWE-bench Verifiedを廃止：59.4％のテストが欠陥あり

2月23日 — OpenAIは、なぜ同社がSWE-bench Verifiedのスコアを報告しなくなったかを説明する分析を公開し、業界にも同様の対応を推奨しています。

背景

SWE-bench Verifiedは2024年8月の公開以来、ソフトウェア自動化タスクにおける進捗を測る基準となってきました。1年で0％から75％へ急上昇した後、過去6か月は74.9％から80.9％の間で停滞しています。OpenAIは、この停滞がモデルの限界によるのか、ベンチマーク自体の欠陥によるのかを判断するために詳細な監査を実施しました。

監査の結果：二つの主要問題

監査した138件の問題（データセットの27.6％）のうち、少なくとも59.4％が機能的に正しい解答を不合格にするテストを含んでいることが判明しました。欠陥の内訳は次の通りです：

欠陥の種類	欠陥の割合
実装の細部に対して過度に厳しいテスト	35.5 %
問題文に明記されていない機能をテストしている	18.8 %
その他の欠陥（flaky tests、仕様の曖昧さ）	5.1 %

第二の問題は訓練データの汚染です：SWE-benchの問題は訓練で広く使われるオープンソースのリポジトリ由来であり、OpenAIは自動化されたred-teamingパイプラインを使って、GPT-5.2、Claude Opus 4.5、Gemini 3 Flash Previewが一部の問題で参照用の修正（gold patches）を逐語的に再現できることを示しました。これはこれらの例が訓練中に見られていた証拠です。

推奨

OpenAIはSWE-bench Verifiedのスコア報告を停止し、代わりにSWE-bench Proの使用を推奨しています — 公開スプリットは汚染が有意に少ないとされています。さらに、OpenAIはGDPValのように専門家が作成し総合的に評価するプライベートで非汚染のbenchmarkに学術界が投資することを呼びかけています。

🔗 OpenAIの記事

OpenAI：gpt-realtime-1.5 と Responses API の WebSockets

Realtime APIの gpt-realtime-1.5

2月23日 — OpenAIはRealtime APIで gpt-realtime-1.5 の利用可能化を発表しました。この新しい音声モデルは前バージョンに置き換わり、リアルタイム会話アプリケーション向けの改善をもたらします。

gpt-realtime-1.5 は指示の追従性が向上し、ツールの利用がより信頼できるようになり、多言語での精度も改善されています。Gensparkなどのパートナーはアルファ段階で具体的な成果を報告しており：人間接続率が43.7％から66％に上昇し、評価対象の会話での精度は97.9％でした。モデルは既存のRealtime APIでインフラ変更なしに利用可能です。

🔗 @OpenAIDevs のツイート

Responses APIのWebSockets

2月23日 — OpenAIはResponses APIにWebSocketsサポートを導入しました。これはツール呼び出しの多い長時間実行のエージェントを想定した機能です。

持続的なWebSocket接続では、各ターンで新しい入力のみを送信すればよく、毎回コンテキスト全体を再送する必要がありません。状態は対話間でメモリに保持され、冗長な再計算が不要になります。OpenAIによれば、この方法はツール呼び出しが20回以上のエージェント実行で**20〜40％**の高速化をもたらすとされています。

🔗 @OpenAIDevs のツイート — 発表

Anthropic：The AI Fluency Index

2月23日 — Anthropicは「The AI Fluency Index」という研究報告を公開しました。Claudeの実際の利用行動を分析して、ユーザーのAI習熟度を測ることを目的としています。

本研究はClaude.ai上の何千もの会話を通じて11種類の行動を追跡しました — 例えば、ユーザーがClaudeとともに作業をどの頻度で反復・改善するか、など — 人々が実践の中でどのようにAIに関する有効なスキルを育てていくかを測定しています。報告は単純な利用統計を超えて、教育とAI採用の理解を深めることを目指しています。

“We tracked 11 behaviors across thousands of Claude.ai conversations—for example, how often people iterate and refine their work with Claude—to measure how people actually develop AI skill in practice.”

🇯🇵 私たちはClaude.ai上の何千もの会話を通じて11の行動を追跡しました — 例えば、人々がClaudeとともに作業をどの頻度で反復・洗練するか — 実際に人々が実践でどのようにAIの習熟度を高めていくかを測定するためです。 — @AnthropicAI の X での投稿

🔗 AI Fluency Index

Gemini：動画作成向けのVeo 3.1新テンプレート

2月23日 — GoogleはGeminiアプリでVeo 3.1の新テンプレートを展開し、AIによる動画作成をより手軽にしました。

アクセス方法：gemini.google を開くかモバイルアプリを起動し、ツールメニューで「Create videos」を選択します。テンプレートギャラリーが表示され、各テンプレートは参照写真やテキスト説明でカスタマイズ可能です。

この発表はGeminiエコシステムにとって濃い一週間の一部です：2月19日にGoogleはGemini 3.1 ProをARC-AGI-2で77.1％のスコアでリリースし、2月18日にはLyria 3がアプリ内での音楽生成を導入していました。Veo 3.1のテンプレートは単一アプリ内でのマルチモーダル制作の拡張を補完します。

🔗 @GeminiApp の発表

Pika AI Selves：エージェントAIが自律的に制作したドキュメンタリーシリーズ

2月23日 — Pikaは、クリエイターの個性やスキルを拡張する「AI Selves」が、自律的にドキュメンタリーシリーズの監督と編集を行ったと発表しました。テーマはPikaのチームと人間との協働です。

Pikaの「AI Self」コンセプトは従来のエージェントとは異なります：単なるタスク実行ツールではなく、特定のクリエイターの能力、個性、審美眼を組み込む拡張であるという点です。デモは、これらのAIエンティティが人間の介入なしに全編の監督と編集を行ったドキュメンタリーシリーズとして提示されました。

🔗 @pika_labs の発表

意味するところ

Anthropicが暴露した蒸留の件は単なる利用規約違反を越え、競合する研究所がfrontierモデルの能力を体系的に抽出してきたことを初めて大規模に文書化したものです。MiniMaxの高度な作戦（24時間でのトラフィックリダイレクト、2万アカウント規模のhydraインフラなど）は継続的かつ自動化された監視を示唆します。Anthropicが業界と政策立案者に協調した対応を呼びかけていることは、チップ輸出管理と合わせてAI研究所間の新たな競争の前線を形作るものです。

OpenAIがSWE-bench Verifiedの報告をやめた決定は業界全体への構造的なシグナルです：公開のコーディングベンチマークは、最も性能の高いモデルの訓練データによって汚染されつつあります。SWE-bench ProやGDPValのような非汚染のプライベートbenchmarkへの移行推奨は、評価基準の再構成を示唆しており、モデル間の公開比較の解釈をさらに困難にします。

ツール面では、OpenAIの両発表（gpt-realtime-1.5とWebSockets）は実運用のユースケースに直接働きかけます：音声エージェントの本番運用とツール呼び出しが多い長時間実行のエージェントです。WebSocketsによる20〜40％の性能向上は、セッションあたり50〜100回のツール呼び出しを連続して行うワークフローにとって無視できない改善です。

出典

この文書は gpt-5-mini モデルを使用して fr 版から ja 言語に翻訳されました。翻訳プロセスの詳細については、https://gitlab.com/jls42/ai-powered-markdown-translator をご覧ください。