OpenAI lancia GPT-5.5, Anthropic apre la memoria agli Managed Agents, Kimi K2.6 Agent Swarm

Il 23 aprile 2026 segna una giornata intensa: OpenAI lancia GPT-5.5 con l’85% su ARC-AGI-2 e una tariffa API di $5/M token in entrata, mentre Anthropic apre la memoria persistente in beta per i suoi Managed Agents e pubblica un post-mortem su Claude Code. In parallelo, GitHub Copilot rilascia sette aggiornamenti in tre giorni, Kimi K2.6 distribuisce uno sciame (swarm) di 300 sotto-agenti, e SpaceX sigla una partnership di coding con Cursor.

GPT-5.5 : il modello frontier di OpenAI

23 aprile — OpenAI lancia GPT-5.5, il suo modello più potente a oggi, progettato per il lavoro reale e gli agenti. Migliora in modo significativo il coding agentico, l’uso del computer (computer use), il lavoro sulla conoscenza e la ricerca scientifica, mantenendo al contempo la latenza di GPT-5.4.

Disponibilità e prezzi

GPT-5.5 è disponibile immediatamente per gli abbonati ChatGPT Plus, Pro, Business ed Enterprise, oltre che in Codex. L’accesso API arriverà “molto presto”.

Offerta	Accesso API	Entrata	Uscita
GPT-5.5 standard	Presto	$5 / M token	$30 / M token
GPT-5.5 Pro	Presto	$30 / M token	$180 / M token

La finestra di contesto in Codex raggiunge 400K token. È disponibile una modalità Fast — 1,5× più veloce, 2,5× il costo.

Benchmark

Valutazione	GPT-5.5	GPT-5.4	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82.7%	75.1%	69.4%	68.5%
Expert-SWE (interno)	73.1%	68.5%	—	—
SWE-Bench Pro	58.6%	57.7%	64.3%	54.2%
GDPval	84.9%	83.0%	80.3%	67.3%
OSWorld-Verified	78.7%	75.0%	78.0%	—
ARC-AGI-2	85.0%	73.3%	75.8%	77.1%
FrontierMath Tier 4	35.4%	27.1%	22.9%	16.7%
CyberGym	81.8%	79.0%	73.1%	—
BixBench (bioinformatica)	80.5%	74.0%	—	—

GPT-5.5 è in testa sulla maggior parte dei benchmark, con un’eccezione notevole: SWE-Bench Pro, dove Claude Opus 4.7 mantiene il vantaggio (64.3% contro 58.6%).

Infrastruttura e sicurezza

Il modello è stato co-progettato con NVIDIA GB200/GB300 NVL72. Codex ha utilizzato GPT-5.5 per ottimizzare la propria infrastruttura, guadagnando un +20% di velocità di generazione dei token. Sul fronte della cybersicurezza, GPT-5.5 è classificato High nel Preparedness Framework di OpenAI (non Critical); il programma Trusted Access Cyber è stato esteso anche a lui.

Ricerca scientifica

Oltre al codice, GPT-5.5 ha aiutato a dimostrare un nuovo teorema sui numeri di Ramsey (combinatoria), verificato formalmente in Lean. Ha inoltre analizzato un dataset genomico di 62 campioni e 28.000 geni in pochi minuti — un compito che avrebbe richiesto mesi a un team di ricercatori.

« GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use. »

🇮🇹 GPT-5.5 è notevolmente più intelligente e persistente di GPT-5.4, con prestazioni di coding migliori e un uso degli strumenti più affidabile. — Michael Truell, co-fondatore e CEO di Cursor

🔗 Annuncio GPT-5.5

L’ondata degli agenti persistenti

Tre annunci importanti convergono il 23 aprile attorno all’agente persistente, capace di agire autonomamente per lunghi periodi e di trattenere il contesto da una sessione all’altra.

OpenAI Workspace Agents in ChatGPT

22 aprile — OpenAI presenta gli agenti di workspace (Workspace Agents): agenti condivisi che un team crea una sola volta, usa insieme in ChatGPT o Slack e migliora progressivamente. Alimentati da Codex nel cloud, possono eseguire attività complesse anche quando l’utente è disconnesso. I Workspace Agents sostituiscono gradualmente i GPT, che restano disponibili durante la transizione.

Tipo di agente	Funzionalità
Verificatore software	Esamina richieste, confronta policy, crea ticket IT
Router feedback prodotto	Monitora Slack/supporto/forum → ticket prioritizzati
Generatore di report	Estrae dati il venerdì, crea grafici, sintesi
Agente di prospecting	Cerca lead, valuta, redige email, aggiorna CRM
Responsabile rischi terze parti	Valuta fornitori, produce report strutturato

Disponibili in research preview per Business, Enterprise, Edu e Teachers; gratuiti fino al 6 maggio 2026, poi fatturazione in crediti.

Secondo Ankur Bhatt (AI Engineering, Rippling), ciò che prima richiedeva da 5 a 6 ore a settimana ai commerciali ora viene eseguito automaticamente in background su ogni opportunità.

🔗 Workspace Agents

Anthropic — Memoria per i Claude Managed Agents

23 aprile — La memoria per i Claude Managed Agents è disponibile in beta pubblica sulla Claude Platform. Gli agenti possono ora imparare da una sessione all’altra grazie a un livello di memoria montato direttamente su un file system: gli agenti utilizzano le stesse capacità bash e di esecuzione di codice che impiegano già per le attività agentiche.

Funzionalità	Dettaglio
Store condivisibili	Più agenti, ambiti di accesso diversi (sola lettura / lettura-scrittura)
Accesso concorrente	Senza sovrascritture tra sessioni parallele
Registro di audit	Quale sessione, quale agente, quale memoria
Ripristino	Su qualsiasi versione precedente
Esportabilità	Memorie gestibili tramite l’API

I risultati dei clienti illustrano l’impatto concreto:

Cliente	Risultato
Rakuten	-97% di errori al primo passaggio, -27% di costo, -34% di latenza
Wisedocs	+30% di velocità di verifica documentale
Netflix	Continuità del contesto tra sessioni senza aggiornamento manuale
Ando	Memoria di piattaforma senza infrastruttura dedicata

Memory in Claude Managed Agents lets us put continuous learning into production at scale. Our agents distill lessons from every session, delivering 97% fewer first-pass errors at 27% lower cost and 34% lower latency.

🇮🇹 La memoria nei Managed Agents ci permette di portare l’apprendimento continuo in produzione su larga scala. I nostri agenti distillano gli insegnamenti di ogni sessione, offrendo il 97% di errori in meno al primo passaggio, con il 27% di costo in meno e il 34% di latenza in meno. — Yusuke Kaji, General Manager AI for Business, Rakuten

🔗 Memoria Managed Agents

Claude Code : post-mortem qualità e due nuove versioni

Post-mortem e reset dei limiti

23 aprile — Il team Claude Code ha pubblicato un post-mortem su tre problemi di qualità segnalati nel mese passato. Tutti sono corretti in v2.1.116+. I limiti di utilizzo sono stati azzerati per tutti gli abbonati.

Over the past month, some of you reported Claude Code’s quality had slipped. We investigated, and published a post-mortem on the three issues we found. All are fixed in v2.1.116+ and we’ve reset usage limits for all subscribers.

🇮🇹 Nel corso del mese passato, alcuni di voi hanno segnalato un calo della qualità di Claude Code. Abbiamo indagato e pubblicato un post-mortem sui tre problemi che abbiamo individuato. Tutti sono corretti in v2.1.116+ e abbiamo azzerato i limiti di utilizzo per tutti gli abbonati. — @ClaudeDevs

v2.1.117 e v2.1.118

Versione	Funzionalità principali
v2.1.118	Modalità visiva Vim (`v`/`V`) con selezione e operatori; `/usage` unificato (fonde `/cost` e `/stats`); temi personalizzati in `/theme`; hook che invocano strumenti MCP tramite `type: "mcp_tool"`; `DISABLE_UPDATES` rigoroso; ereditarietà delle impostazioni gestite di Windows tramite WSL
v2.1.117	Sforzo predefinito passato a `high` per Pro/Max su Opus 4.6 e Sonnet 4.6 (era `medium`); fork di sotto-agenti attivabile su build esterne; `glob`/`Grep` sostituiti da `bfs`/`ugrep` integrati per ricerche più rapide; fix delle sessioni Opus 4.7 (contesto 1M calcolato correttamente); fix Bedrock+Opus 4.7 con thinking disattivato

🔗 CHANGELOG Claude Code

Nuovi connettori Claude per la vita quotidiana

23 aprile — Anthropic amplia il suo repertorio di connettori alle applicazioni consumer. Da luglio 2025, erano disponibili più di 200 connettori per strumenti professionali; questo aggiornamento aggiunge 15 servizi di uso quotidiano.

Applicazione	Categoria
AllTrails	Escursionismo
Audible	Audiolibri
Booking.com	Viaggi
Instacart	Spesa online
Intuit Credit Karma	Finanza
Intuit TurboTax	Fiscalità
Resy	Prenotazioni ristoranti
Spotify	Musica
StubHub	Biglietteria
Taskrabbit	Servizi a domicilio
Thumbtack	Professionisti locali
TripAdvisor	Viaggi
Uber	Trasporti
Uber Eats	Consegna pasti
Viator	Attività turistiche

Claude suggerisce ora automaticamente i connettori pertinenti in base al contesto della conversazione. Disponibili su tutti i piani (gratis incluso), web, desktop e mobile (mobile in beta). Nessun posizionamento a pagamento né risposta sponsorizzata; i dati di un’app non vengono usati per addestrare i modelli.

🔗 Connettori vita quotidiana

GitHub Copilot — Sette aggiornamenti in tre giorni

GitHub Copilot ha pubblicato sette voci nel suo changelog tra il 22 e il 23 aprile.

Chat per le pull request (3 nuove capacità)

23 aprile — Copilot Chat integra ora tre capacità per le pull request, accessibili tramite github.com/copilot o il pulsante Copilot sui diff (preview pubblica):

Comprensione della PR (pull request understanding) : commenti, cambiamenti, commit e review integrati come contesto
Review della PR : review strutturata su richiesta
Riassunto della PR : riassunto conciso delle modifiche

🔗 Miglioramenti di Copilot Chat per le pull request

Sessioni di agente controllabili da issue e progetti

23 aprile — Il cloud agent è ora controllabile direttamente da issue e board di progetto GitHub: indicatore di sessione nell’intestazione dell’issue, pannello laterale di avanzamento, sessioni abilitate di default in tutte le viste dei progetti.

🔗 Sessioni agente da issue

Debug strutturato delle stack trace sul web

23 aprile — Copilot Chat su github.com guida ora l’analisi delle stack trace in sei passaggi strutturati: cosa è fallito, perché, la causa radice, le prove tratte dal codice, il livello di fiducia e le verifiche successive.

🔗 Debug stack trace

BYOK VS Code disponibile (GA)

22 aprile — Bring Your Own Key (porta la tua chiave API) è in disponibilità generale per gli utenti Copilot Business ed Enterprise in VS Code. Anthropic, Gemini, OpenAI, OpenRouter, Azure sono supportati, così come i modelli locali tramite Ollama e Foundry Local. La fatturazione è diretta tramite il provider scelto, al netto delle quote Copilot.

🔗 BYOK VS Code GA

C++ Language Server in preview pubblica per Copilot CLI

22 aprile — Il Microsoft C++ Language Server (motore IntelliSense di Visual Studio/VS Code) è disponibile in preview pubblica per Copilot CLI. Fornisce dati semantici precisi (definizioni dei simboli, riferimenti, gerarchie di chiamate, tipi) in sostituzione della ricerca grep iterativa. Prerequisito: autenticazione Copilot CLI + compile_commands.json.

🔗 C++ Language Server

Nuove iscrizioni Business self-serve sospese

22 aprile — GitHub sospende le nuove iscrizioni self-serve per Copilot Business sui piani GitHub Free e GitHub Team. I clienti esistenti non sono interessati.

🔗 Pausa Business self-serve

Campo `used_copilot_cloud_agent` nelle metriche API

23 aprile — A seguito del rebranding “coding agent” → “cloud agent”, l’API metrics aggiunge il campo used_copilot_cloud_agent nei report utenti (1 giorno e 28 giorni mobili). Il vecchio campo used_copilot_coding_agent è mantenuto fino al 1° agosto 2026.

🔗 Metriche cloud agent

Gemini CLI v0.39.0 e Deep Think per tutti gli Ultra

Gemini CLI v0.39.0

23 aprile — Google pubblica Gemini CLI v0.39.0, versione stabile contrassegnata “Latest”. Il punto forte è il nuovo comando /memory inbox per rivedere e convalidare le skills estratte automaticamente dal CLI durante le sessioni di lavoro.

Funzionalità	Descrizione
`/memory inbox`	Revisione delle skills estratte automaticamente
`invoke_subagent` unificato	Strumento sotto-agente rifattorizzato in un’interfaccia unica
Formattazione compatta	Migliore leggibilità in modalità compatta
Plan Mode — conferme	Convalida richiesta prima dell’attivazione delle skills
Avvio alleggerito	Processo padre leggero per un avvio più rapido
Migrazione JSONL streaming	Registrazione delle sessioni chat in JSONL

Scorciatoie da tastiera aggiunte: Ctrl+Backspace per la cancellazione parola per parola (Windows Terminal), Ctrl+Shift+G.

🔗 Gemini CLI v0.39.0

Deep Think aperto a tutti gli abbonati Ultra

22 aprile — Google apre la modalità Deep Think (ragionamento approfondito, extended thinking) all’intera base di abbonati Gemini Ultra. Questa modalità era precedentemente ad accesso limitato; ora è disponibile direttamente dal menu strumenti dell’app Gemini (web e mobile).

🔗 Tweet @GeminiApp

Kimi K2.6 : sciame di 300 sotto-agenti e benchmark open-weights

Agent Swarm — 300 sotto-agenti paralleli

23 aprile — Moonshot AI lancia Kimi K2.6 Agent Swarm: un sistema in grado di distribuire 300 sotto-agenti in parallelo su 4.000 step per esecuzione, contro 100 agenti e 1.500 step per K2.5.

Capacità	K2.5	K2.6
Sotto-agenti paralleli	100	300
Step per esecuzione	1.500	4.000
Tipi di output	Testo chat	100+ file reali, review da 100.000 parole, dataset da 20.000 righe

I sotto-agenti combinano competenze eterogenee: ricerca web, analisi dati, coding, scrittura long-form e generazione visiva. Disponibile su kimi.com/agent-swarm.

🔗 Tweet @Kimi_Moonshot

Benchmark: numero 1 open-weights

23 aprile — Kimi K2.6 raggiunge il primo posto tra i modelli open-weights su due benchmark: - Design Arena : stessa fascia di performance di Claude Opus 4.7

MathArena open (modalità Think) : davanti a GLM 5.1

🔗 Design Arena

SpaceXAI × Cursor e Grok Imagine

Partnership SpaceXAI × Cursor

22 aprile — SpaceXAI (entità nata dall’avvicinamento xAI/SpaceX) e Cursor annunciano una partnership per creare “l’IA per la codifica e il lavoro della conoscenza più performante al mondo”. SpaceX porta il supercomputer Colossus (equivalente a un milione di H100); Cursor gli concede il diritto di acquisire la società più avanti nel 2026 per $60 miliardi, oppure di pagare $10 miliardi per la sola collaborazione.

🔗 Tweet @SpaceX

Grok Imagine — Template personalizzati condivisibili

22 aprile — Gli abbonati SuperGrok e Premium+ possono ora creare template personalizzati in Grok Imagine e condividerli pubblicamente.

🔗 Tweet @imagine

NVIDIA × Google Cloud Next

22 aprile — Al Google Cloud Next (Las Vegas), NVIDIA e Google Cloud annunciano diversi importanti progressi attorno all’infrastruttura IA agentica.

Annuncio	Dettaglio
Instance A5X (Vera Rubin NVL72)	Fino a 960 000 GPU Rubin in cluster multisito, 10× meno costose per token, 10× più throughput per megawatt
Gemini su Google Distributed Cloud	Preview con GPU Blackwell e Blackwell Ultra — sovranità dei dati
Confidential VM Blackwell	Prima offerta di confidential computing Blackwell nel cloud pubblico
Nemotron 3 Super	Disponibile sulla Gemini Enterprise Agent Platform
NeMo RL API	Reinforcement Learning gestito su larga scala

🔗 Blog NVIDIA × Google Cloud

Kling AI Video 3.0 — Modalità 4K nativa

23 aprile — Kling AI lancia la modalità 4K nativa nella sua serie Video 3.0. La generazione 4K avviene in un solo clic, senza un ulteriore passaggio di upscaling. La coerenza visiva (personaggi, testi, stili, illuminazione) è garantita in risoluzione nativa per la produzione di fascia alta. Disponibile anche tramite fal.ai per le aziende.

Kling AI organizza contemporaneamente un 4K Short Film Creative Contest, concorso globale che invita i creatori a presentare cortometraggi realizzati con la nuova modalità.

🔗 Tweet @Kling_ai

ChatGPT for Clinicians e OpenAI Privacy Filter

ChatGPT for Clinicians + HealthBench Professional

22 aprile — OpenAI lancia ChatGPT for Clinicians, una versione gratuita per i professionisti sanitari verificati negli Stati Uniti (medici, nurse practitioner, assistenti medici, farmacisti). Il servizio include l’accesso ai modelli frontier per le domande cliniche complesse, skill per workflow ripetitivi (lettere di riferimento, autorizzazioni preventive), ricerca clinica citata in tempo reale e generazione automatica dei crediti di formazione continua (CME). Il trattamento HIPAA è disponibile come opzione tramite accordo.

OpenAI pubblica anche HealthBench Professional, un benchmark aperto che valuta l’IA su compiti clinici reali (oltre 700 000 risposte valutate da medici). GPT-5.4 in ChatGPT for Clinicians supera i medici umani su questo benchmark in condizioni senza limiti di tempo e con accesso al web.

🔗 ChatGPT for Clinicians

OpenAI Privacy Filter

22 aprile — OpenAI pubblica Privacy Filter, un modello open-weight (Apache 2.0) per rilevare e mascherare le informazioni personalmente identificabili (Personally Identifiable Information, PII) nel testo. Il modello gira in locale (nessun dato inviato a un server), supporta 128K token di contesto e raggiunge un punteggio F1 del 97.43% sul benchmark PII-Masking-300k.

Caratteristica	Valore
Architettura	Classificatore di token bidirezionale (decodifica Viterbi vincolata)
Dimensione	1.5B parametri totali, 50M attivi
Contesto	128 000 token
Licenza	Apache 2.0 (Hugging Face + GitHub)
F1	97.43% su PII-Masking-300k corretto

Categorie di PII coperte: private_person, private_address, private_email, private_phone, private_url, private_date, account_number, secret (password e chiavi API).

🔗 OpenAI Privacy Filter

Perplexity e Cohere

Perplexity integra Kimi K2.6

23 aprile — Kimi K2.6 di Moonshot AI è ora disponibile per tutti gli abbonati Pro e Max di Perplexity.

🔗 Tweet @perplexity_ai

Cohere — W4A8 production-ready in vLLM

22 aprile — Cohere annuncia l’integrazione della sua inferenza W4A8 (quantizzazione a 4 bit per i pesi, 8 bit per le attivazioni) in vLLM. Risultati su GPU Hopper rispetto a W4A16: +58% nel tempo al primo token (Time To First Token) e +45% nel tempo per token di output (Time Per Output Token). L’integrazione punta in primo luogo ai modelli MoE Command A su larga scala in produzione.

🔗 Blog Cohere W4A8

Brevi

Suno numero 1 nell’App Store musica

21 aprile — Suno, la piattaforma di generazione musicale IA, raggiunge il primo posto dell’App Store nella categoria musica. Il CEO Mikey Shulman annuncia: «The future of music is one where everyone enjoys creating. »

🔗 Tweet @suno

Anthropic Economic Index Survey

22 aprile — Anthropic lancia l’Anthropic Economic Index Survey, un’indagine mensile condotta tramite Anthropic Interviewer su un campione casuale di utenti Claude. L’obiettivo è raccogliere dati qualitativi sull’impatto economico dell’IA: attività delegate, guadagni di produttività, evoluzione dei ruoli. I risultati alimenteranno i futuri report Anthropic Economic Index.

🔗 Annuncio indagine

Anthropic — Agenti MCP in produzione: i numeri

22 aprile — Un articolo tecnico di Anthropic documenta i benefici di MCP per gli agenti di produzione: gli SDK MCP superano 300 milioni di download al mese, la ricerca degli strumenti (tool search) riduce del 85% i token di definizione degli strumenti, e le chiamate agli strumenti programmatiche (programmatic tool calling) riducono l’uso di token del 37% su workflow multi-step complessi.

🔗 Blog MCP production agents

OpenAI — WebSockets nell’API Responses: guadagno del 40% di latenza

22 aprile — Articolo retrospettivo di OpenAI che spiega come la modalità WebSocket nell’API Responses riduca del 40% la latenza dei loop degli agenti. La connessione persistente mantiene una cache in memoria dello stato delle risposte precedenti, evitando di rielaborare l’intera cronologia a ogni chiamata. Già in produzione: Codex, Vercel AI SDK, Cline (+39%), Cursor (+30%).

🔗 Articolo WebSockets

Perplexity Research — Addestramento di modelli di ricerca aumentata

22 aprile — Perplexity pubblica una ricerca sul suo pipeline SFT + RL (Supervised Fine-Tuning + Reinforcement Learning) per migliorare la qualità delle risposte di ricerca. Risultato chiave: modelli Qwen post-addestrati raggiungono la factualità dei modelli GPT a costi inferiori.

🔗 Research Perplexity

Cosa significa

Il 23 aprile 2026 delinea due tendenze convergenti. Da un lato, GPT-5.5 conferma che OpenAI ha ripreso la leadership sui benchmark agentici (Terminal-Bench, ARC-AGI-2, OSWorld) dopo diversi mesi in cui Claude Opus 4.7 dominava. Il divario resta ridotto su SWE-Bench Pro, dove Anthropic mantiene il vantaggio — segno che entrambi i laboratori convergono sugli stessi casi d’uso prioritari.

Dall’altro lato, la giornata segna l’ingresso nell’era degli agenti persistenti con memoria: OpenAI Workspace Agents, Anthropic Managed Agents Memory e Kimi K2.6 Agent Swarm arrivano contemporaneamente con approcci diversi (integrazione Slack, filesystem-based, sciame di sotto-agenti), ma con lo stesso obiettivo — far sì che l’agente ricordi, impari e agisca senza supervisione costante. I numeri Rakuten (-97% di errori, -27% di costo) forniscono una prima misura industriale dell’impatto.

GitHub Copilot continua la sua strategia di integrazione profonda in GitHub.com (PR chat, sessioni agent dalle issue, stack trace strutturate) aprendo al contempo l’esterno tramite BYOK. Il BYOK VS Code GA segnala che Copilot si posiziona tanto come interfaccia quanto come modello.

Fonti

Questo documento è stato tradotto dalla versione fr alla lingua it utilizzando il modello gpt-5.4-mini. Per ulteriori informazioni sul processo di traduzione, consulta https://gitlab.com/jls42/ai-powered-markdown-translator