Claude Sonnet 4.6, open-weight Qwen3.5-397B, Google lancia Lyria 3

Anthropic colpisce duro con Claude Sonnet 4.6, un modello che rivaleggia con Opus su molti compiti al prezzo di Sonnet. Parallelamente, Qwen pubblica il suo primo modello Qwen3.5 in open-weight con 397 miliardi di parametri, e Google integra Lyria 3 — il suo modello di generazione musicale — direttamente in Gemini.

Claude Sonnet 4.6: prestazioni Opus al prezzo Sonnet

17 febbraio — Anthropic lancia Claude Sonnet 4.6, descritto come il Sonnet più capace fino ad oggi. Il modello rappresenta un aggiornamento completo su coding, uso del computer (computer use), ragionamento a lungo contesto, pianificazione di agenti, lavoro intellettuale e design. Integra una finestra di contesto di 1 milione di token in beta.

Il posizionamento è chiaro: prestazioni che avrebbero richiesto un modello Opus sono ora accessibili alla tariffa Sonnet, ovvero $3 /$ 15 per milione di token (invariato rispetto a Sonnet 4.5). Sonnet 4.6 diventa il modello predefinito sui piani Free e Pro in claude.ai e Claude Cowork.

Benchmark e feedback degli utenti

In Claude Code, i tester hanno preferito Sonnet 4.6 a Sonnet 4.5 circa il 70% delle volte, riportando una migliore lettura del contesto prima della modifica del codice e un consolidamento della logica condivisa invece di duplicarla. Ancora più notevole: gli utenti hanno preferito Sonnet 4.6 a Opus 4.5 (il modello frontier di novembre 2025) il 59% delle volte, citando meno sovra-ingegnerizzazione, meno “pigrizia” e una migliore esecuzione delle istruzioni.

Benchmark	Punteggio
SWE-bench Verified	80.2% (con modifica del prompt)
OSWorld (computer use)	Progresso maggiore in 16 mesi
OfficeQA	Eguaglia Opus 4.6
Vending-Bench Arena	Strategia emergente di investimento/pivot

Il computer use progredisce significativamente: Sonnet 4.6 migliora anche la resistenza alle prompt injection rispetto a Sonnet 4.5, raggiungendo un livello paragonabile a Opus 4.6.

Aggiornamenti di prodotto associati

L’annuncio è accompagnato da diversi rilasci in disponibilità generale sull’API Claude: esecuzione di codice, memoria, chiamate a strumenti programmatici, ricerca di strumenti ed esempi di utilizzo di strumenti. La ricerca web e gli strumenti fetch integrano ora un filtraggio dinamico — Claude scrive ed esegue automaticamente codice per filtrare i risultati di ricerca, mantenendo solo il contenuto rilevante nel contesto.

🔗 Ricerca web migliorata con filtraggio dinamico

Per gli utenti di Claude in Excel, il componente aggiuntivo supporta ora i connettori MCP (S&P Global, LSEG, Daloopa, PitchBook, Moody’s, FactSet), disponibile sui piani Pro, Max, Team ed Enterprise.

🔗 Annuncio ufficiale

Anthropic misura l’autonomia degli agenti IA in condizioni reali

18 febbraio — Anthropic pubblica uno studio che analizza milioni di interazioni uomo-agente attraverso Claude Code e l’API pubblica, con un obiettivo: capire come gli umani gestiscono l’autonomia degli agenti nella pratica.

Risultati chiave

Metrica	Valore
Durata massima autonoma (99.9° percentile)	~45 minuti (raddoppiato in 3 mesi)
Auto-approve (utenti esperti)	40%+ (vs 20% per i nuovi)
Quota di software engineering nel traffico API	~50%
Azioni con guardrail	80%
Azioni con umano nel loop	73%
Azioni irreversibili	0.8%

Un risultato controintuitivo: gli utenti esperti aumentano sia il tasso di auto-approve SIA il tasso di interruzione. Passano da una supervisione azione per azione a un monitoraggio attivo con intervento mirato. Inoltre, Claude si ferma per chiedere chiarimenti più spesso di quanto gli umani lo interrompano, in particolare su compiti complessi.

Lo studio conclude che esiste un divario significativo tra capacità e utilizzo: l’autonomia che i modelli sono in grado di gestire supera ampiamente quella che viene loro concessa nella pratica — un fenomeno che i ricercatori chiamano “surplus di autonomia non distribuita”.

🔗 Studio completo

Anthropic: partnership con Ruanda e Infosys

17 febbraio — Parallelamente al lancio di Sonnet 4.6, Anthropic firma un protocollo d’intesa con il governo del Ruanda per distribuire Claude nei settori della sanità, dell’istruzione e della pubblica amministrazione. La partnership, condotta con il Ministero dell’ICT e dell’Innovazione, include la formazione dei dipendenti pubblici e il dispiegamento di un compagno di apprendimento IA in otto paesi africani.

Anthropic annuncia anche una collaborazione con Infosys per costruire agenti IA destinati alle telecomunicazioni e ad altre industrie regolamentate.

🔗 Partnership con il Ruanda

Qwen3.5-397B-A17B: primo open-weight della serie 3.5

16 febbraio — Alibaba Qwen pubblica Qwen3.5-397B-A17B, il primo modello open-weight della serie Qwen3.5. Si tratta di un progresso significativo con un’architettura ibrida che combina attenzione lineare e Mixture-of-Experts (MoE) sparsa.

Caratteristica	Dettagli
Parametri totali	397B (architettura ibrida MoE)
Architettura	Attenzione lineare ibrida + MoE sparsa
Throughput	Da 8.6x a 19.0x superiore a Qwen3-Max
Lingue	201 lingue e dialetti
Licenza	Apache 2.0
Addestramento	Apprendimento per rinforzo su larga scala
Specialità	Nativo multimodale, agenti reali

Il modello è disponibile immediatamente su Hugging Face, ModelScope, Alibaba Cloud Model Studio e tramite Qwen Code. Con 201 lingue supportate e una licenza Apache 2.0, è uno dei modelli open-weight più ambiziosi del momento in termini di copertura linguistica e throughput di inferenza.

🔗 Tweet @Alibaba_Qwen

Google Lyria 3: la generazione musicale arriva in Gemini

18 febbraio — Google e DeepMind presentano Lyria 3, un modello di generazione musicale IA integrato direttamente nell’applicazione Gemini. Gli utenti possono creare tracce musicali di 30 secondi a partire da prompt testuali, foto o video, con generazione di testi personalizzati.

Funzionalità	Dettagli
Input	Testo, immagini, video
Output	Tracce audio di 30 secondi
Personalizzazione	Vari stili musicali, testi generati
Disponibilità	Beta in Gemini (18+ anni)

Lyria 3 dimostra una notevole flessibilità nelle combinazioni di strumenti e generi, permettendo creazioni che vanno dal jingle alle composizioni lo-fi. Il rilascio globale è progressivo.

🔗 Tweet @GoogleAI

OpenAI EVMbench: benchmark di sicurezza per smart contract

18 febbraio — OpenAI e Paradigm lanciano EVMbench, un benchmark che valuta la capacità degli agenti IA di rilevare, correggere e sfruttare le vulnerabilità negli smart contract Ethereum. Il benchmark si basa su 120 vulnerabilità curate provenienti da 40 audit (principalmente competizioni Code4rena).

Modalità	Descrizione	GPT-5.3-Codex	GPT-5 (6 mesi)
Exploit	Eseguire attacchi di drenaggio	72.2%	31.9%
Detect	Revisionare e rilevare vulnerabilità	< copertura completa	-
Patch	Correggere preservando la funzionalità	< copertura completa	-

Un risultato interessante: gli agenti IA hanno più successo nello sfruttamento (obiettivo esplicito) che nel rilevamento e nella correzione, dove spesso abbandonano dopo la prima vulnerabilità trovata. OpenAI ribadisce il suo impegno di $10M in crediti API per la sicurezza informatica difensiva.

🔗 Annuncio EVMbench

Rapporto Tecnico GLM-5: Z.ai documenta il suo modello

18 febbraio — Z.ai pubblica il rapporto tecnico completo di GLM-5, dettagliando le innovazioni architettoniche del modello lanciato l’11 febbraio (744B parametri, 40B attivi, licenza MIT).

Tre innovazioni chiave documentate: Dynamic Sparse Attention (DSA) per ridurre i costi di addestramento e inferenza, un’infrastruttura RL asincrona che disaccoppia generazione e addestramento, e algoritmi RL per agenti che consentono interazioni complesse e a lungo orizzonte. Il rapporto è disponibile su arXiv.

🔗 Tweet @Zai_org · 🔗 arXiv

Cohere Labs Tiny Aya: IA multilingue ultracompatta

17 febbraio — Cohere Labs presenta Tiny Aya, una famiglia di piccoli modelli linguistici che supportano 70+ lingue con soli 3.35 miliardi di parametri. L’obiettivo: rendere l’IA multilingue accessibile ovunque, anche sui telefoni e offline.

Tiny Aya si rivolge a tre tipi di pubblico: ricercatori che lavorano in lingue diverse dall’inglese, sviluppatori che costruiscono per comunità digitalmente svantaggiate e applicazioni integrate che richiedono traduzioni affidabili senza dipendenza dal cloud. Il modello include una capacità di traduzione offline, migliorando la privacy e riducendo la latenza.

🔗 Tweet @cohere

Runway Gen-4.5 disponibile via API + Claude Code Skill

17 febbraio — Runway apre l’accesso a Gen-4.5 tramite la sua API, permettendo agli sviluppatori di integrare la generazione di immagini, video e audio direttamente nei loro progetti. L’annuncio è accompagnato da un Claude Code Skill dedicato, disponibile su GitHub, che permette di generare contenuti multimediali Runway senza lasciare l’ambiente di sviluppo.

🔗 Tweet @runwayml · 🔗 GitHub Skills

Manus Agents: agente personale con memoria a lungo termine

16 febbraio — Manus lancia Manus Agents, una capacità che permette a ogni utente di disporre di un agente personale direttamente nelle conversazioni chat. L’agente combina memoria a lungo termine (stile, tono e preferenze mantenute), capacità complete di creazione (video, slide, siti, immagini) e integrazioni dirette con Gmail, Calendar e Notion.

🔗 Tweet @ManusAI

ElevenAgents for Support

17 febbraio — ElevenLabs lancia ElevenAgents for Support, agenti conversazionali IA per il supporto clienti. Operanti in voce e canali digitali in oltre 70 lingue, questi agenti si basano sulla piattaforma agentica di ElevenLabs e sui suoi oltre 4 milioni di dispiegamenti in produzione.

🔗 ElevenLabs Agents

NotebookLM x Zillow: notebook immobiliare

18 febbraio — NotebookLM lancia in partnership con Zillow un Featured Notebook gratuito per gli acquirenti immobiliari, centralizzando i consigli degli esperti sulla preparazione finanziaria, la valutazione del mercato e le procedure di acquisto.

🔗 Tweet @NotebookLM

Cosa significa questo

Questa settimana illustra due tendenze principali. La prima è la democratizzazione delle prestazioni frontier: Sonnet 4.6 porta capacità Opus a una tariffa 5 volte inferiore, mentre Qwen3.5 rende un modello da 397B parametri accessibile in Apache 2.0. La seconda è l’espansione degli agenti IA in nuovi ambiti — lo studio di Anthropic mostra che le sessioni autonome più lunghe sono raddoppiate in tre mesi, e attori come Manus, ElevenLabs e Runway stanno costruendo agenti specializzati (chat personale, supporto clienti, creazione multimediale).

L’arrivo della generazione musicale in Gemini con Lyria 3 e il benchmark EVMbench per la sicurezza blockchain mostrano anche che l’IA generativa e l’IA di sicurezza continuano a strutturarsi come campi a sé stanti.