Anthropic espone attacchi di distillazione industriale, OpenAI abbandona SWE-bench Verified, gpt-realtime-1.5

Anthropic pubblica oggi un rapporto che dettaglia campagne di distillazione industriale condotte da tre laboratori cinesi — DeepSeek, Moonshot AI e MiniMax — che hanno raccolto più di 16 milioni di scambi con Claude tramite 24 000 account fraudolenti. OpenAI annuncia dal canto suo l’abbandono di SWE-bench Verified come riferimento per i suoi modelli frontier, dopo aver dimostrato che il 59,4 % dei test del benchmark è difettoso e che diversi modelli di punta hanno memorizzato le correzioni di riferimento durante l’addestramento. Sul fronte degli strumenti, gpt-realtime-1.5 migliora la Realtime API vocale, WebSockets arrivano nella Responses API per agenti a lunga durata, e Gemini distribuisce nuovi template Veo 3.1 per la creazione video.

Anthropic: attacchi di distillazione industriale da parte di tre laboratori cinesi

23 febbraio — Anthropic pubblica un rapporto che rivela che DeepSeek, Moonshot AI (Kimi) e MiniMax hanno condotto campagne di distillazione illecita su larga scala contro i modelli Claude.

Cosa è successo

I tre laboratori hanno creato circa 24 000 account fraudolenti per generare oltre 16 milioni di scambi con Claude tramite l’API, in violazione delle condizioni d’uso di Anthropic e delle restrizioni di accesso regionali — la Cina non ha accesso commerciale a Claude.

La tecnica utilizzata, la distillazione di modello, consiste nell’addestrare un modello meno performante sulle uscite di un modello più capace. Legittima se usata internamente, diventa illecita quando concorrenti estraggono le capacità di un altro laboratorio senza autorizzazione.

Volume per laboratorio

Lab	Volume di scambi	Bersagli principali
DeepSeek	+150 000 scambi	Ragionamento, valutazione per rubriche, alternative censorship-safe
Moonshot AI (Kimi)	+3,4 milioni di scambi	Ragionamento agentico, coding, uso del computer, vision
MiniMax	+13 milioni di scambi	Coding agentico, uso di tool, orchestrazione

Tecniche notevoli

La campagna di DeepSeek si distingue per i suoi prompt che chiedevano a Claude di articolare il suo ragionamento interno passo dopo passo — generando così dati di addestramento di tipo chain-of-thought su larga scala. Anthropic ha anche rilevato compiti volti ad addestrare DeepSeek a proporre alternative a domande politicamente sensibili.

Anthropic ha rilevato la campagna MiniMax mentre era ancora attiva. Quando Anthropic ha rilasciato un nuovo modello, MiniMax ha reindirizzato in 24 ore quasi la metà del suo traffico verso il nuovo sistema — dimostrando un monitoraggio automatizzato delle uscite di Anthropic.

L’infrastruttura utilizzata si basa su architetture “hydra cluster”: reti di account fraudolenti che distribuiscono il traffico sull’API e piattaforme cloud di terze parti. Un singolo network proxy gestiva più di 20 000 account simultaneamente.

Risposta di Anthropic

Anthropic mette in atto diverse contromisure: classificatori e sistemi di fingerprinting comportamentale per rilevare i pattern di distillazione, condivisione di dati tecnici con altri laboratori, fornitori cloud e autorità, rafforzamento delle verifiche per account educational e di ricerca, e sviluppo di contromisure a livello di prodotto, API e modello.

“These labs created over 24,000 fraudulent accounts and generated over 16 million exchanges with Claude, extracting its capabilities to train and improve their own models.”

🇮🇹 Questi laboratori hanno creato più di 24.000 account fraudolenti e generato oltre 16 milioni di scambi con Claude, estraendo le sue capacità per addestrare e migliorare i propri modelli. — @AnthropicAI su X

🔗 Rapporto Anthropic 🔗 Annuncio @AnthropicAI

OpenAI abbandona SWE-bench Verified: 59,4 % di test difettosi

23 febbraio — OpenAI pubblica un’analisi che spiega perché l’azienda non riporterà più i punteggi SWE-bench Verified e raccomanda all’industria di fare lo stesso.

Contesto

Dalla sua creazione nell’agosto 2024, SWE-bench Verified è diventato lo standard di riferimento per misurare i progressi dei modelli su compiti di sviluppo software autonomo. Dopo una rapida progressione — da 0 % a 75 % in un anno — i punteggi si sono stabilizzati tra il 74,9 % e l’80,9 % negli ultimi sei mesi. OpenAI ha condotto un audit approfondito per capire se questo plateau rifletta i limiti dei modelli o difetti del benchmark stesso.

Risultati dell’audit: due problemi principali

Su un sottoinsieme di 138 problemi sottoposti ad audit (27,6 % del dataset), almeno il 59,4 % presenta test che rigettano soluzioni funzionalmente corrette. La ripartizione dei difetti:

Tipo di difetto	Percentuale dei casi difettosi
Test troppo restrittivi sui dettagli di implementazione	35,5 %
Test di funzionalità non specificate nell’enunciato	18,8 %
Altri difetti (test flaky, specifiche ambigue)	5,1 %

Il secondo problema è la contaminazione dei dati di addestramento: i problemi SWE-bench provengono da repository open source ampiamente usati per l’addestramento. Attraverso una pipeline di red-teaming automatizzata, OpenAI ha dimostrato che GPT-5.2, Claude Opus 4.5 e Gemini 3 Flash Preview sono tutti in grado di riprodurre parola per parola le correzioni di riferimento (gold patches) per alcuni problemi — prova che questi esempi sono stati visti durante l’addestramento.

Raccomandazioni

OpenAI ha smesso di riportare i punteggi SWE-bench Verified e raccomanda di usare SWE-bench Pro al suo posto — il suo split pubblico presenta significativamente meno contaminazione. L’azienda invita anche la comunità accademica a investire in benchmark privati non contaminati, come GDPVal (compiti redatti da esperti del dominio con valutazione olistica).

🔗 Articolo OpenAI

OpenAI: gpt-realtime-1.5 e WebSockets nella Responses API

gpt-realtime-1.5 nella Realtime API

23 febbraio — OpenAI annuncia la disponibilità di gpt-realtime-1.5 nella Realtime API. Questo nuovo modello vocale sostituisce la versione precedente e apporta miglioramenti per le applicazioni conversazionali in tempo reale.

gpt-realtime-1.5 offre un miglior follow delle istruzioni, un uso degli strumenti più affidabile e una migliore accuratezza multilingue. Partner come Genspark hanno misurato risultati concreti durante la fase alpha: aumento del tasso di connessione umana dal 43,7 % al 66 %, e un tasso di accuratezza del 97,9 % sulle conversazioni valutate. Il modello è disponibile direttamente nella Realtime API esistente senza cambiamenti infrastrutturali.

🔗 Tweet @OpenAIDevs

WebSockets nella Responses API

23 febbraio — OpenAI introduce il supporto WebSockets nella Responses API, pensato per agenti a lunga durata con chiamate strumenti intensive.

Una connessione WebSocket persistente permette di inviare solo i nuovi input a ogni turno, senza ritrasmettere l’intero contesto a ogni richiesta. Lo stato viene mantenuto in memoria tra le interazioni, evitando ricalcoli ridondanti. Secondo OpenAI, questo approccio accelera le esecuzioni agentiche che comportano 20 chiamate a tool o più del 20 al 40 %.

🔗 Tweet @OpenAIDevs — annuncio

Anthropic: The AI Fluency Index

23 febbraio — Anthropic pubblica “The AI Fluency Index”, un rapporto di ricerca che misura la padronanza dell’IA tra gli utenti di Claude analizzando i loro comportamenti reali.

Lo studio ha seguito 11 comportamenti distinti attraverso migliaia di conversazioni su Claude.ai — per esempio, la frequenza con cui gli utenti iterano e affinano il loro lavoro con Claude — per misurare come le persone sviluppano una competenza efficace con l’IA nella pratica. Il rapporto rientra in un approccio educativo e di comprensione dell’adozione dell’IA, al di là delle semplici metriche di utilizzo.

“We tracked 11 behaviors across thousands of Claude.ai conversations—for example, how often people iterate and refine their work with Claude—to measure how people actually develop AI skill in practice.”

🇮🇹 Abbiamo monitorato 11 comportamenti attraverso migliaia di conversazioni su Claude.ai — per esempio, la frequenza con cui le persone iterano e affinano il loro lavoro con Claude — per misurare come le persone sviluppano realmente una competenza nell’IA nella pratica. — @AnthropicAI su X

🔗 Indice di Fluidità dell’IA (AI Fluency Index)

Gemini: nuovi template Veo 3.1 per la creazione video

23 febbraio — Google distribuisce nuovi template per Veo 3.1 nell’app Gemini, semplificando la creazione video tramite IA per tutti gli utenti.

Per accedervi: aprire gemini.google o l’app mobile, quindi selezionare “Create videos” nel menu degli strumenti. La galleria di template viene mostrata e ogni modello può essere personalizzato con una foto di riferimento e/o una descrizione testuale.

Questa annunciò si inserisce in una settimana intensa per l’ecosistema Gemini: il 19 febbraio, Google aveva lanciato Gemini 3.1 Pro con un punteggio del 77,1 % su ARC-AGI-2, e il 18 febbraio, Lyria 3 aveva introdotto la generazione musicale direttamente nell’app. I template Veo 3.1 completano questa espansione verso la creazione multimodale all’interno di una singola applicazione.

🔗 Annuncio @GeminiApp

Pika AI Selves: una serie documentaristica realizzata in modo autonomo da agenti IA

23 febbraio — Pika annuncia che i suoi “AI Selves” — estensioni IA della personalità e delle competenze di un creatore — hanno diretto e montato in modo autonomo la propria serie documentaristica, sul tema della loro collaborazione con gli umani presso Pika.

Il concetto di “AI Self” di Pika si distingue dagli agenti IA classici: invece di essere uno strumento che esegue compiti, un “AI Self” sarebbe un’estensione che incorpora competenze, personalità e gusto estetico di un creatore specifico. La dimostrazione assume la forma di una serie documentaristica interamente realizzata da queste entità IA, senza intervento umano nella regia e nel montaggio.

🔗 Annuncio @pika_labs

Cosa significa

Il caso di distillazione rivelato da Anthropic va oltre la semplice violazione delle condizioni d’uso: documenta per la prima volta su larga scala come laboratori concorrenti estraggano sistematicamente le capacità di un modello frontier. La sofisticazione dell’operazione MiniMax — reindirizzamento del traffico in 24 ore verso un nuovo modello, infrastruttura “hydra” con 20 000 account — suggerisce un monitoraggio continuo e automatizzato. L’appello di Anthropic a una risposta coordinata dell’industria e dei decisori politici, articolato con i controlli all’export sulle GPU, delinea un nuovo fronte nella competizione tra laboratori di IA.

La decisione di OpenAI di abbandonare SWE-bench Verified è un segnale strutturale per l’intero settore: i benchmark di coding pubblici sono ora contaminati dai dati di addestramento dei modelli più performanti. Il passaggio raccomandato verso SWE-bench Pro e benchmark privati come GDPVal annuncia una riconfigurazione degli standard di valutazione — rendendo le comparazioni pubbliche tra modelli ancora più difficili da interpretare.

Sul fronte degli strumenti, le due annunci OpenAI (gpt-realtime-1.5 e WebSockets) mirano a casi d’uso concreti: agenti vocali in produzione ed esecuzioni agentiche a lunga durata con numerose chiamate a tool. Il guadagno del 20-40 % dato dai WebSockets non è marginale per i flussi di lavoro che concatenano 50 o 100 chiamate a strumenti per sessione.

Fonti

Questo documento è stato tradotto dalla versione fr verso la lingua it utilizzando il modello gpt-5-mini. Per maggiori informazioni sul processo di traduzione, consultare https://gitlab.com/jls42/ai-powered-markdown-translator