Anthropic enthüllt industrielle Distillationsangriffe, OpenAI stellt SWE-bench Verified ein, gpt-realtime-1.5

Anthropic veröffentlicht heute einen Bericht, der industrielle Distillationskampagnen von drei chinesischen Laboren — DeepSeek, Moonshot AI und MiniMax — dokumentiert, die mehr als 16 Millionen Austausche mit Claude über 24.000 betrügerische Konten gesammelt haben. OpenAI kündigt derweil an, SWE-bench Verified als Referenz für seine Frontier-Modelle aufzugeben, nachdem gezeigt wurde, dass 59,4 % der Tests des Benchmarks fehlerhaft sind und mehrere Spitzenmodelle während des Trainings die Referenzkorrekturen memoriert haben. Bei den Tools verbessert gpt-realtime-1.5 die Realtime API für Sprache, WebSockets kommen in die Responses API für lang laufende Agenten, und Gemini rollt neue Veo 3.1-Templates für Videoproduktion aus.

Anthropic: industrielle Distillationsangriffe durch drei chinesische Labore

23. Februar — Anthropic veröffentlicht einen Bericht, der offenlegt, dass DeepSeek, Moonshot AI (Kimi) und MiniMax groß angelegte, unerlaubte Distillationskampagnen gegen die Claude-Modelle durchgeführt haben.

Was passiert ist

Die drei Labore haben etwa 24.000 betrügerische Konten erstellt, um über die API mehr als 16 Millionen Austausche mit Claude zu generieren, was gegen die Nutzungsbedingungen von Anthropic und regionale Zugangsbeschränkungen verstößt — kommerzieller Zugang zu Claude besteht nicht in China.

Die verwendete Technik, die Modelldestillation, besteht darin, ein weniger leistungsfähiges Modell auf den Ausgaben eines leistungsfähigeren Modells zu trainieren. Innerhalb eines Unternehmens ist das legitim; es wird illegal, wenn Wettbewerber ohne Erlaubnis die Fähigkeiten eines anderen Labors extrahieren.

Volumen pro Labor

Lab	Volumen an Austauschen	Hauptzielbereiche
DeepSeek	+150.000 Austausche	Schlussfolgerungen, Rubrik-Bewertung, zensursichere Alternativen
Moonshot AI (Kimi)	+3,4 Millionen Austausche	agentisches Reasoning, Coding, Computer-Nutzung, Vision
MiniMax	+13 Millionen Austausche	agentisches Coding, Tool-Nutzung, Orchestrierung

Bemerkenswerte Techniken

Die DeepSeek-Kampagne zeichnet sich durch Prompts aus, die Claude auffordern, sein internes reasoning Schritt für Schritt zu artikulieren — wodurch großflächig Chain-of-Thought-Trainingsdaten erzeugt wurden. Anthropic entdeckte außerdem Aufgaben, die darauf abzielten, DeepSeek darin zu trainieren, Alternativen für politisch sensible Fragen vorzuschlagen.

Anthropic entdeckte die MiniMax-Kampagne, während sie noch aktiv war. Als Anthropic ein neues Modell veröffentlichte, leitete MiniMax innerhalb von 24 Stunden fast die Hälfte seines Traffics auf das neue System um — ein Hinweis auf automatisierte Überwachung der Anthropic-Ausgaben.

Die genutzte Infrastruktur basierte auf „hydra cluster“-Architekturen: Netzwerke betrügerischer Konten, die den Traffic über die API verteilen, sowie Drittanbieter-Cloudplattformen. Ein einziger Proxy-Cluster verwaltete mehr als 20.000 Konten gleichzeitig.

Anthropics Reaktion

Anthropic setzt mehrere Gegenmaßnahmen um: Klassifizierer und verhaltensbasiertes Fingerprinting zur Erkennung von Distillationsmustern, Austausch technischer Daten mit anderen Laboren, Cloud-Anbietern und Behörden, verschärfte Prüfungen für Bildungs- und Forschungskonten sowie Entwicklung von Gegenmaßnahmen auf Produkt-, API- und Modellebene.

“These labs created over 24,000 fraudulent accounts and generated over 16 million exchanges with Claude, extracting its capabilities to train and improve their own models.”

🇩🇪 Diese Labore haben mehr als 24.000 betrügerische Konten erstellt und mehr als 16 Millionen Austausche mit Claude generiert, wobei sie dessen Fähigkeiten extrahierten, um ihre eigenen Modelle zu trainieren und zu verbessern. — @AnthropicAI auf X

🔗 Anthropic-Bericht
🔗 Ankündigung @AnthropicAI

OpenAI stellt SWE-bench Verified ein: 59,4 % fehlerhafte Tests

23. Februar — OpenAI veröffentlicht eine Analyse, in der dargelegt wird, warum das Unternehmen keine SWE-bench Verified-Scores mehr melden wird und empfiehlt der Branche, dem Beispiel zu folgen.

Kontext

Seit seiner Einführung im August 2024 ist SWE-bench Verified zum De-facto-Standard geworden, um Fortschritte von Modellen bei Aufgaben der autonomen Softwareentwicklung zu messen. Nach einem schnellen Anstieg — von 0 % auf 75 % in einem Jahr — stagnieren die Scores in den letzten sechs Monaten zwischen 74,9 % und 80,9 %. OpenAI führte ein tiefgehendes Audit durch, um zu klären, ob diese Deckelung die Limiten der Modelle oder Fehler des Benchmarks widerspiegelt.

Ergebnisse des Audits: zwei Hauptprobleme

Bei einer Stichprobe von 138 auditierten Problemen (27,6 % des Datasets) weisen mindestens 59,4 % Tests auf, die funktional korrekte Lösungen ablehnen. Die Verteilung der Fehler:

Fehlerart	Anteil der fehlerhaften Fälle
Tests, die zu restriktiv bei Implementierungsdetails sind	35,5 %
Tests auf Features, die nicht in der Aufgabenstellung spezifiziert sind	18,8 %
Sonstige Fehler (flaky tests, mehrdeutige Spezifikationen)	5,1 %

Das zweite Problem ist die Kontamination der Trainingsdaten: SWE-bench-Probleme stammen aus weit verbreiteten Open-Source-Repositorien, die fürs Training genutzt werden. Mit einem automatisierten Red-Teaming-Pipeline demonstrierte OpenAI, dass GPT-5.2, Claude Opus 4.5 und Gemini 3 Flash Preview in der Lage sind, die Referenzkorrekturen (gold patches) für bestimmte Probleme wörtlich zu reproduzieren — ein Beleg dafür, dass diese Beispiele während des Trainings gesehen wurden.

Empfehlungen

OpenAI hat aufgehört, SWE-bench Verified-Scores zu melden, und empfiehlt stattdessen die Nutzung von SWE-bench Pro — dessen öffentlicher Split deutlich weniger Kontamination aufweist. Das Unternehmen ruft außerdem die akademische Gemeinschaft dazu auf, in nicht kontaminierte private Benchmarks zu investieren, wie etwa GDPVal (Aufgaben von Fachexperten erstellt mit ganzheitlicher Bewertung).

🔗 OpenAI-Artikel

OpenAI: gpt-realtime-1.5 und WebSockets in der Responses API

gpt-realtime-1.5 in der Realtime API

23. Februar — OpenAI kündigt die Verfügbarkeit von gpt-realtime-1.5 in der Realtime API an. Dieses neue Sprachmodell ersetzt die vorherige Version und bringt Verbesserungen für Echtzeit-Konversationsanwendungen.

gpt-realtime-1.5 bietet besseres Instruktions-Following, zuverlässigere Tool-Nutzung und höhere multilinguale Genauigkeit. Partner wie Genspark haben in der Alpha-Phase konkrete Ergebnisse gemessen: Anstieg der Rate menschlicher Verbindungen von 43,7 % auf 66 % und eine Genauigkeitsrate von 97,9 % in bewerteten Gesprächen. Das Modell ist direkt in der bestehenden Realtime API verfügbar, ohne Infrastrukturänderungen.

🔗 Tweet @OpenAIDevs

WebSockets in der Responses API

23. Februar — OpenAI führt WebSocket-Unterstützung in der Responses API ein, konzipiert für Agenten mit lang andauernder Ausführung und intensiver Tool-Nutzung.

Eine persistente WebSocket-Verbindung ermöglicht, bei jedem Durchgang nur die neuen Inputs zu senden, ohne den gesamten Kontext bei jeder Anfrage neu zu übertragen. Der Status bleibt im Speicher zwischen den Interaktionen erhalten, wodurch redundante Neuberechnungen vermieden werden. Laut OpenAI beschleunigt dieser Ansatz agentische Läufe mit 20 oder mehr Tool-Aufrufen um 20 bis 40 %.

🔗 Tweet @OpenAIDevs — Ankündigung

Anthropic: The AI Fluency Index

23. Februar — Anthropic veröffentlicht “The AI Fluency Index”, einen Forschungsbericht, der die Beherrschung von KI-Fähigkeiten unter Claude-Nutzern durch Analyse realer Verhaltensweisen misst.

Die Studie verfolgte 11 verschiedene Verhaltensweisen über Tausende von Gesprächen auf Claude.ai — z. B. wie häufig Nutzer ihre Arbeit mit Claude iterieren und verfeinern — um zu messen, wie Personen praktisch effektive KI-Kompetenz entwickeln. Der Bericht ist Teil einer Bildungs- und Verständnisinitiative zur KI-Adoption, jenseits reiner Nutzungsmetriken.

“We tracked 11 behaviors across thousands of Claude.ai conversations—for example, how often people iterate and refine their work with Claude—to measure how people actually develop AI skill in practice.”

🇩🇪 Wir haben 11 Verhaltensweisen über Tausende von Claude.ai-Gesprächen verfolgt — beispielsweise wie häufig Menschen ihre Arbeit mit Claude iterieren und verfeinern — um zu messen, wie Menschen in der Praxis tatsächlich KI-Kompetenz entwickeln. — @AnthropicAI auf X

🔗 AI Fluency Index

Gemini: neue Veo 3.1-Templates für Videoproduktion

23. Februar — Google rollt neue Templates für Veo 3.1 in der Gemini-App aus, die die KI-gestützte Videoproduktion für alle Nutzer vereinfachen.

So zugreifen: gemini.google öffnen oder die mobile App starten und im Tool-Menü “Create videos” auswählen. Die Template-Galerie erscheint, und jedes Template lässt sich mit einem Referenzfoto und/oder einer textlichen Beschreibung anpassen.

Diese Ankündigung fällt in eine intensive Woche für das Gemini-Ökosystem: Am 19. Februar hatte Google Gemini 3.1 Pro mit einem Score von 77,1 % auf ARC-AGI-2 gestartet, und am 18. Februar führte Lyria 3 die Musikeinspielung direkt in der App ein. Die Veo 3.1-Templates ergänzen diese Expansion hin zu multimodaler Erstellung innerhalb einer einzigen Anwendung.

🔗 Ankündigung @GeminiApp

Pika AI Selves: eine Dokumentarserie autonom von IA-Agenten produziert

23. Februar — Pika kündigt an, dass seine “AI Selves” — KI-Erweiterungen der Persönlichkeit und der Fähigkeiten eines Creators — autonom ihre eigene Dokumentarserie geführt und geschnitten haben, thematisch über ihre Zusammenarbeit mit Menschen bei Pika.

Das Pika-Konzept des “AI Self” unterscheidet sich von klassischen KI-Agenten: Statt ein Werkzeug zu sein, das Aufgaben ausführt, ist ein “AI Self” eine Erweiterung, die die Fähigkeiten, Persönlichkeit und ästhetischen Vorlieben eines spezifischen Creators integriert. Die Demonstration besteht aus einer vollständig von diesen KI-Entitäten produzierten Dokumentarserie, ohne menschlichen Eingriff bei Schnitt und Regie.

🔗 Ankündigung @pika_labs

Was das bedeutet

Der von Anthropic aufgedeckte Distillationsfall geht über eine bloße Verletzung der Nutzungsbedingungen hinaus: Er dokumentiert erstmals in großem Maßstab, wie konkurrierende Labore systematisch die Fähigkeiten eines Frontier-Modells extrahieren. Die Sophistication der MiniMax-Operation — Traffic-Umleitung auf ein neues Modell innerhalb von 24 Stunden, “hydra”-Infrastruktur mit 20.000 Konten — deutet auf kontinuierliche, automatisierte Überwachung hin. Anthropics Aufruf zu einer koordinierten Branchen- und Politikreaktion, verbunden mit Exportkontrollen für Chips, zeichnet eine neue Front im Wettbewerb zwischen KI-Laboren.

OpenAIs Entscheidung, SWE-bench Verified aufzugeben, ist ein strukturelles Signal an die gesamte Branche: öffentliche Coding-Benchmarks sind inzwischen von Trainingsdaten leistungsfähiger Modelle kontaminiert. Die Empfehlung, zu SWE-bench Pro und privaten Benchmarks wie GDPVal zu wechseln, kündigt eine Neukonfiguration der Bewertungsstandards an — was öffentliche Modellvergleiche noch schwerer interpretierbar macht.

Bei den Tools zielen die beiden OpenAI-Ankündigungen (gpt-realtime-1.5 und WebSockets) auf konkrete Anwendungsfälle: sprachbasierte Produktionsagenten und lang laufende agentische Runs mit vielen Tool-Aufrufen. Ein Zeitgewinn von 20–40 % durch WebSockets ist für Workflows mit 50 oder 100 Tool-Aufrufen pro Sitzung nicht unerheblich.

Quellen

Dieses Dokument wurde von der fr-Version in die Sprache en unter Verwendung des Modells gpt-5-mini übersetzt. Für weitere Informationen zum Übersetzungsprozess siehe https://gitlab.com/jls42/ai-powered-markdown-translator