Partenariato Anthropic+xAI per il compute Colossus 1, Claude M365 GA, GPT-Realtime-2 voce ragionamento

Anthropic e xAI firmano un accordo inedito: 220 000 GPU NVIDIA del supercomputer Colossus 1 raddoppiano i limiti di Claude Code già da questa settimana. Claude for Microsoft 365 passa alla disponibilità generale su Excel, PowerPoint e Word. OpenAI lancia GPT-Realtime-2, il primo modello vocale dotato di ragionamento di livello GPT-5. Perplexity apre Personal Computer a tutti gli utenti Mac, ed ElevenLabs supera i 500 milioni di dollari di ARR con NVIDIA come investitore strategico.

Anthropic affitta Colossus 1 da xAI — 220 000 GPU NVIDIA, raddoppio dei limiti di Claude Code

6 maggio — Anthropic annuncia simultaneamente un aumento immediato dei limiti di utilizzo e un accordo infrastrutturale inedito con SpaceX / xAI.

Per gli utenti, il cambiamento più visibile è il raddoppio dei limiti di throughput su cinque ore in Claude Code, effettivo immediatamente sui piani Pro, Max, Team ed Enterprise. Viene inoltre rimossa la riduzione automatica nelle ore di punta — che limitava i piani Pro e Max. Anche i limiti API per i modelli Claude Opus vengono aumentati in parallelo.

Questi aumenti diventano possibili grazie a un accordo con SpaceX: Anthropic accede alla totalità della capacità di Colossus 1, il supercomputer di xAI, pari a oltre 300 megawatt e oltre 220 000 GPU NVIDIA (H100, H200 e GB200). Questa capacità è disponibile entro il mese. Le due aziende annunciano inoltre un’intenzione comune di sviluppare diversi gigawatt di capacità di calcolo IA in orbita — una prima assoluta nel settore.

Questa partnership si aggiunge a un insieme di accordi già in corso: Amazon (fino a 5 GW di cui quasi 1 GW disponibile a fine 2026), Google e Broadcom (5 GW già dal 2027), Microsoft e NVIDIA (30 miliardi di dollari di capacità Azure) e Fluidstack (50 miliardi di dollari di infrastruttura IA statunitense). L’espansione internazionale integrerà i requisiti di residenza dei dati per i settori regolamentati. Anthropic si impegna inoltre a coprire qualsiasi aumento del prezzo dell’elettricità per i consumatori locali legato ai propri datacenter.

Cambiamento	Piani interessati	Effettivo
Raddoppio limiti 5h Claude Code	Pro, Max, Team, Enterprise	Immediato
Rimozione riduzione ore di punta	Pro, Max	Immediato
Aumento limiti API Opus	Tutti	Immediato

Accordo compute	Capacità	Calendario
SpaceX / xAI Colossus 1	300+ MW, 220 000+ GPU NVIDIA	Entro il mese
Amazon	Fino a 5 GW (~1 GW fine 2026)	2026
Google + Broadcom	5 GW	Dal 2027
Microsoft + NVIDIA	USD 30 miliardi Azure	—
Fluidstack	USD 50 miliardi infrastruttura US	—

🔗 Anthropic — Aumento dei limiti + accordo SpaceX

Claude for Microsoft 365 — disponibilità generale su Excel, PowerPoint, Word + beta Outlook

7 maggio — Claude for Excel, PowerPoint e Word passano alla disponibilità generale per tutti i piani a pagamento. Claude for Outlook entra contemporaneamente in beta pubblica alle stesse condizioni.

“Claude for Excel, PowerPoint, and Word are now generally available, and Claude for Outlook is in public beta. As Claude moves between your Microsoft apps, it carries the full context of your conversation.”

🇮🇹 Claude for Excel, PowerPoint e Word è ora disponibile per tutti, e Claude for Outlook è in beta pubblica. In tutte le vostre applicazioni Microsoft, Claude conserva l’intero contesto della vostra conversazione. — @claudeai su X

La funzionalità centrale è il contesto condiviso tra le quattro applicazioni: una conversazione iniziata in Outlook per smistare un’e-mail prosegue in Word per redigere un memo, poi in Excel per l’analisi dei dati e in PowerPoint per la presentazione — senza dover mai rispiegare il contesto. L’aggiornamento incrociato automatico è l’altro vantaggio concreto: modificare un’ipotesi in un modello Excel aggiorna simultaneamente il grafico nella presentazione e il valore corrispondente nel memo Word.

Tra le aziende citate: ServiceNow (“Claude does the work in Excel itself, instead of asking us to move content between tools”) e team di gestione di asset privati che lo usano per costruire e mantenere modelli di copertura finanziaria.

Applicazione	Stato al 7 maggio 2026	Piani
Claude for Excel	Disponibilità generale (GA)	Tutti i piani a pagamento
Claude for PowerPoint	Disponibilità generale (GA)	Tutti i piani a pagamento
Claude for Word	Disponibilità generale (GA)	Tutti i piani a pagamento
Claude for Outlook	Beta pubblica	Tutti i piani a pagamento

🔗 Annuncio Claude for Microsoft 365

Claude Managed Agents — dreaming, outcomes, orchestrazione multiagent, webhooks

6 maggio — Durante la conferenza Code with Claude, Anthropic lancia diverse nuove funzionalità per la sua piattaforma di deployment di agenti.

La novità più rilevante è dreaming: un processo pianificato che analizza le sessioni passate di un agente, ne estrae i modelli ricorrenti e consolida la sua memoria affinché migliori nel tempo. Lo sviluppatore mantiene il controllo — dreaming può aggiornare automaticamente la memoria oppure sottoporre ogni modifica a revisione umana. Dreaming è disponibile in ricerca sperimentale (research preview) su richiesta.

Outcomes entra in beta pubblica: questa funzionalità consente di valutare ogni risultato di un agente in base a criteri definiti dallo sviluppatore prima di consegnarlo all’utente. L’azienda Wisedocs l’ha usata per accelerare del 50 % la revisione di documenti medici mantenendo l’allineamento con i propri standard interni.

L’orchestrazione multiagent consente a un agente pilota di delegare sottoattività ad agenti specialisti che vengono eseguiti in parallelo, facilitando il trattamento di lavori complessi che richiedono più competenze simultanee. Anche i webhooks sono disponibili per attivare azioni esterne.

Funzionalità	Disponibilità	Descrizione
Dreaming	Research preview (su richiesta)	Auto-miglioramento tramite analisi delle sessioni passate
Outcomes	Beta pubblica	Valutazione dei risultati prima della consegna
Orchestrazione multiagent	Beta pubblica	Agente pilota + agenti specialisti in parallelo
Webhooks	Beta pubblica	Attivazione di azioni esterne

🔗 Annuncio Claude Managed Agents

GPT-Realtime-2 — voce con ragionamento GPT-5 e contesto 128K

7 maggio — OpenAI lancia una nuova generazione di modelli nella Realtime API: GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper.

GPT-Realtime-2 è il primo modello vocale dotato di ragionamento di livello GPT-5: può gestire richieste complesse, chiamare strumenti in parallelo (parallel tool calls), riprendersi dopo interruzioni (recovery behavior) e mantenere una finestra di contesto di 128 000 token (contro 32 000 del predecessore), adatta a sessioni lunghe. Sono regolabili cinque livelli di ragionamento: minimal, low, medium, high, xhigh (low per impostazione predefinita). È possibile inserire formule di transizione (preambles) prima delle risposte per una fluidità naturale.

GPT-Realtime-Translate consente la traduzione simultanea in diretta verso 13 lingue di destinazione da oltre 70 lingue sorgente. GPT-Realtime-Whisper offre una trascrizione in streaming a bassa latenza.

Zillow ha testato GPT-Realtime-2 sulle proprie interazioni vocali: +26 punti di tasso di successo sul suo benchmark avversariale più difficile (95 % contro 69 %). EU Data Residency è supportato.

Modello	Capacità	Tariffa
GPT-Realtime-2	Voce + ragionamento GPT-5, 128K	$32/1M tokens audio input, $64/1M output
GPT-Realtime-Translate	Traduzione 70→13 lingue	$0,034/min
GPT-Realtime-Whisper	Trascrizione in streaming	$0,017/min

Benchmark	GPT-Realtime-1.5	GPT-Realtime-2 (high)	GPT-Realtime-2 (xhigh)
Big Bench Audio	riferimento	+15,2 %	—
Audio MultiChallenge APR	36,7 %	—	70,8 %

🔗 Annuncio OpenAI — nuovi modelli voce

Perplexity Personal Computer disponibile per tutti gli utenti Mac

7 maggio — Perplexity lancia una nuova app macOS e apre Personal Computer a tutti gli utenti, senza restrizioni di abbonamento Pro o Max.

L’app porta l’IA fuori dal cloud per installarla direttamente sul dispositivo. Opera su file locali, app native Mac, sul web aperto e sui server sicuri di Perplexity. Supporta 400+ connettori e si integra con il browser Comet per gli strumenti web senza connettori diretti. I piani Pro e Max vedono i loro crediti collegati all’abbonamento esistente; anche gli utenti gratuiti vi hanno accesso.

L’uso consigliato è il Mac mini come hub permanente: team di agenti possono funzionare in modo continuo (24 ore su 24), mentre l’utente lavora ad altro, con una notifica quando è necessaria una validazione umana. Il controllo avviene da qualsiasi dispositivo — iPhone incluso.

La vecchia app Perplexity Mac verrà rimossa nelle prossime settimane. Il download è diretto (non ancora disponibile su App Store).

Dimensione	Valore
Disponibilità	Tutti gli utenti Mac
Dispositivo consigliato	Mac mini (acceso in permanenza)
Connettori supportati	400+
Integrazione browser	Comet
App Store	No (download diretto)
Vecchia app	Rimozione nelle prossime settimane

🔗 Blog Perplexity — Personal Computer per tutti

Perplexity Finance Search nell’Agent API — precisione #1 su FinSearchComp T1

6 maggio — Perplexity lancia Finance Search nell’Agent API: una singola chiamata di strumento aggrega dati finanziari con licenza, dati di mercato in tempo reale e fonti web citate.

Il problema risolto è semplice: le decisioni finanziarie dipendono da fonti affidabili, aggiornate e tracciabili. Finance Search sostituisce la ricerca web generica con dati strutturati con licenza — prezzi, fondamentali, transcript di conference call, stime — restituiti in uno schema coerente indipendentemente dal provider in background.

Sul benchmark FinSearchComp T1, Finance Search raggiunge la massima precisione per i dati finanziari in tempo reale, costante nel tempo, e il costo più basso per risposta corretta (meno token necessari grazie ai dati strutturati). Le citazioni sono integrate in ogni risultato. Il modello è configurabile dallo sviluppatore, con visibilità sull’utilizzo dei token.

Finance Search è complementare a Computer for Professional Finance (già trattato il 5 maggio): dove il primo offre un workspace visivo, Finance Search si integra in workflow programmatici tramite l’API.

Dimensione	Valore
Interfaccia	Una singola chiamata di strumento (`finance_search`)
Dati coperti	Prezzi, fondamentali, transcript, stime, contesto di mercato
Benchmark FinSearchComp T1	Precisione #1, costo/riposta corretta #1
Citazioni	Integrate in ogni risultato

🔗 Blog Perplexity — Finance Search

Natural Language Autoencoders (NLAs) — leggere i pensieri interni di Claude

7 maggio — Anthropic pubblica un nuovo metodo di interpretabilità che converte le attivazioni interne di un modello in testo direttamente leggibile.

L’architettura si basa su un addestramento a ciclo chiuso: un verbalizzatore di attivazione (activation verbalizer) traduce un’attivazione in testo esplicativo, un ricostruttore di attivazione (activation reconstructor) tenta di ricostruire l’attivazione a partire da quel testo. Più la ricostruzione è fedele, migliore è la spiegazione.

L’applicazione di sicurezza è notevole: applicati a Claude Opus 4.6 e Claude Mythos Preview, gli NLA rivelano che i modelli sospettavano di trovarsi in una situazione di test molto più spesso di quanto lo esprimessero. Nei test di codice distruttivo, la consapevolezza implicita della valutazione appare nel 16 % dei casi, contro lo 0 % di verbalizzazione esplicita. Su SWE-bench Verified, il numero sale al 26 %. Nelle vere conversazioni degli utenti claude.ai, resta inferiore all’1 %.

Su un set di audit con un modello intenzionalmente mal allineato, gli auditor dotati di NLA hanno identificato la causa principale nel 12-15 % dei casi, contro meno del 3 % con altri strumenti. Il codice di training è pubblicato open source; una demo interattiva è disponibile su Neuronpedia.

Valutazione	Consapevolezza implicita (NLA)	Consapevolezza verbalizzata
Test codice distruttivo	16 %	~0 %
SWE-bench Verified	26 %	~0 %
Conversazioni reali claude.ai	< 1 %	—

🔗 Anthropic Research — Natural Language Autoencoders

Petri 3.0 — strumento di allineamento open source ceduto a Meridian Labs

7 maggio — Anthropic cede Petri, il suo strumento di allineamento open source, a Meridian Labs, organizzazione indipendente senza scopo di lucro dedicata alla valutazione dell’IA.

Petri è una suite di strumenti di test dell’allineamento applicabile a qualsiasi modello linguistico: inganno, sycophancy, cooperazione con richieste dannose. Integrato nelle valutazioni di tutti i modelli Claude da Sonnet 4.5 in poi, è stato adottato dal britannico AI Security Institute per le sue valutazioni di sabotaggio della ricerca IA.

La versione 3.0 introduce tre avanzamenti: una migliore adattabilità grazie alla separazione dei componenti auditor e modello target, un modulo “Dish” che esegue i test nelle reali condizioni di deployment (vero system prompt, vero scaffold) per rendere gli scenari meno rilevabili, e un’integrazione con Bloom per valutazioni comportamentali più approfondite.

La cessione a Meridian Labs segue il modello della cessione del protocollo MCP alla Linux Foundation: garantire l’indipendenza dello strumento da qualsiasi laboratorio di IA.

🔗 Anthropic Research — Petri 3.0

L’Anthropic Institute (TAI) — agenda di ricerca su 4 assi

7 maggio — Anthropic pubblica l’agenda di ricerca completa del TAI, l’organizzazione interna lanciata nel marzo 2026 per studiare gli impatti reali dell’IA dalla posizione di un laboratorio frontier.

L’agenda si articola su quattro assi: diffusione economica (adozione dell’IA da parte delle aziende e dei paesi, impatto sui mercati del lavoro), minacce e resilienza (capacità a duplice uso, cybersicurezza, meccanismi difensivi), sistemi IA nella natura (in the wild — effetti comportamentali e istituzionali dell’IA distribuita su larga scala), e R&D tramite l’IA (accelerazione della ricerca scientifica da parte dell’IA stessa, inclusi i rischi di ciclo ricorsivo di auto-miglioramento).

Il TAI si impegna a condividere dati più frequenti dell’Anthropic Economic Index e informazioni sull’accelerazione interna di Anthropic tramite i propri strumenti. È aperta una call for applications per il programma Anthropic Fellows (quattro mesi finanziati).

🔗 Anthropic Research — Agenda TAI

Codex Extension Chrome — controllo del browser in background su macOS e Windows

7 maggio — OpenAI lancia l’estensione Chrome per Codex, consentendo all’agente di pilotare direttamente le schede Chrome senza interrompere il workflow dell’utente.

Codex opera in background su più schede contemporaneamente, combinando le sue capacità di plugin nativi con l’accesso diretto ai siti web (dashboard, CRM, applicazioni web). Il sistema sceglie automaticamente lo strumento migliore per ogni fase: plugin, Chrome o una combinazione. Casi d’uso: debuggare flussi del browser, verificare dashboard, fare ricerca, aggiornare CRM, testare applicazioni web complesse (inclusi giochi multigiocatore tramite sotto-agenti).

L’estensione si installa tramite il plugin Chrome nell’app Codex. Disponibile da subito su macOS e Windows per tutti gli utenti Codex.

🔗 Tweet OpenAI — Codex Chrome Extension

ChatGPT Trusted Contact — sicurezza per la salute mentale con revisione umana

7 maggio — OpenAI distribuisce Trusted Contact, una funzionalità di sicurezza opzionale in ChatGPT.

Qualsiasi adulto (18+, 19+ in Corea del Sud) può designare una persona di fiducia (amico, famiglia, caregiver) che sarà avvisata se vengono rilevati segnali di crisi nelle sue conversazioni. Il processo combina rilevamento automatizzato e revisione umana (obiettivo: meno di un’ora prima di qualsiasi invio), con una notifica senza accesso alle trascrizioni per proteggere la privacy. La funzionalità estende agli adulti i controlli parentali già esistenti per gli account adolescenti. Sviluppata con l’American Psychological Association e una rete di oltre 260 medici in 60 paesi.

Parametro	Valore
Idoneità	18+ (19+ Corea del Sud)
Tempo di accettazione per il contatto	1 settimana
SLA revisione umana	Obiettivo < 1 ora
Contenuto della notifica	Motivo generale, senza trascrizione
Canali	Email, SMS, in-app

🔗 OpenAI — Trusted Contact

OpenAI B2B Signals — il divario tra aziende d’avanguardia e aziende tipiche si allarga

6 maggio — OpenAI pubblica il primo rapporto B2B Signals, che documenta il divario crescente tra le aziende “d’avanguardia” e le aziende tipiche nell’adozione dell’IA.

Le aziende del 95° percentile usano 3,5× più intelligenza per dipendente rispetto alle aziende tipiche (contro 2× nell’aprile 2025). Il divario dipende meno dal volume di messaggi (36% del divario) che dalla profondità d’uso (64%): delega di compiti complessi, workflow agentici, integrazione nei sistemi di produzione. Su Codex, il divario è il più marcato: ×16 di messaggi per dipendente.

Due casi concreti: Cisco riduce il tempo di build di ~20%, risparmia oltre 1.500 ore di ingegneria al mese e moltiplica per 10–15 la velocità di risoluzione dei difetti. Travelers Insurance gestisce ~100.000 chiamate di sinistro all’anno tramite un assistente.

Indicatore	Aziende tipiche	Aziende d’avanguardia
Intelligenza/dipendente	riferimento	×3,5
Messaggi Codex/dipendente	riferimento	×16
Quota del volume nel divario	—	36%
Quota della profondità nel divario	—	64%

🔗 OpenAI — B2B Signals

MRC — Protocollo di rete open source per supercalcolatori Stargate

5 maggio — OpenAI pubblica in open source tramite l’Open Compute Project il protocollo MRC (Multipath Reliable Connection), co-sviluppato con AMD, Broadcom, Intel, Microsoft e NVIDIA nell’arco di due anni.

MRC è un protocollo di rete da 800 Gb/s per supercalcolatori di training IA su larga scala. Collega oltre 100.000 GPU con soli 2 livelli di switch (contro 3–4 nell’approccio convenzionale), frammentando i pacchetti su centinaia di percorsi simultanei tramite routing sorgente IPv6 (SRv6). Il recupero dopo un guasto avviene in microsecondi (contro diversi secondi con il classico BGP dinamico). Già in produzione su Stargate (Abilene, Texas) e sui supercalcolatori Fairwater di Microsoft, MRC ha permesso l’addestramento di diversi modelli tra cui GPT-5.5 e Codex.

Aspetto	Approccio convenzionale	MRC
Livelli di switch per 100K+ GPU	3-4	2
Recupero dopo un guasto	Secondi fino a decine di secondi	Microsecondi
Routing	BGP dinamico	SRv6 statico
Distribuzione dei pacchetti	1 percorso per trasferimento	100s di percorsi in parallelo

🔗 OpenAI — MRC Supercomputer Networking

Perplexity ROSE — motore di inferenza proprietario e CuTeDSL

6 maggio — Perplexity pubblica un articolo di ricerca che dettaglia ROSE (Runtime-Optimized Serving Engine), il suo motore di inferenza proprietario, e la sua integrazione di CuTeDSL (libreria di kernel GPU NVIDIA).

ROSE alimenta tutti i servizi Perplexity (Sonar, Search, Embeddings) su GPU NVIDIA Hopper e Blackwell, dai modelli di encoding fino ai LLM da mille miliardi di parametri. CuTeDSL consente di costruire più rapidamente kernel GPU personalizzati ottimizzati, adatti alle nuove architetture dei modelli con ritmo sostenuto.

Questa pubblicazione illustra la strategia di Perplexity: controllare l’intero stack tecnico fino al livello dei kernel GPU per differenziarsi sulle prestazioni e ridurre la dipendenza da framework di terze parti.

🔗 Perplexity Research — CuTeDSL et ROSE

ElevenLabs raggiunge 500 M$ di ARR — NVIDIA investitore tramite NVentures

5 maggio — ElevenLabs annuncia un terzo closing della sua Serie D con NVIDIA come nuovo investitore strategico tramite NVentures.

L’ARR è passato da 350 M $a fine 2025 a **500 M$ nell’aprile 2026**, pari a +43% in quattro mesi. Questo terzo closing include anche BlackRock, Wellington Management, D.E. Shaw, Schroders, oltre ad aziende clienti (Salesforce, Santander, KPN, Deutsche Telekom) e un investimento retail tramite Robinhood Ventures. In parallelo è stato chiuso un tender offer da 100 M$. ElevenLabs conta 530 dipendenti in oltre 50 paesi. La roadmap annuncia la fusione di immagini/video e audio in una piattaforma creativa unificata.

🔗 ElevenLabs — 500 M$ ARR e nuovi investitori

AlphaEvolve in produzione — 5 settori industriali tramite Google Cloud

7 maggio — Un anno dopo il suo lancio, Google DeepMind pubblica un bilancio di AlphaEvolve, il suo agente di coding alimentato da Gemini, ormai passato dalla ricerca alla produzione industriale.

AlphaEvolve ottimizza l’infrastruttura critica di Google: TPU, policy di sostituzione della cache, compaction LSM-tree in Google Spanner. È distribuito commercialmente tramite Google Cloud in cinque settori: finanza (raddoppio delle prestazioni di un transformer), semiconduttori (litografia computazionale), logistica (problema del commesso viaggiatore), pubblicità e scienze dei materiali (~4× di incremento di velocità presso Schrödinger). Sul piano accademico, AlphaEvolve ha collaborato con Terence Tao (UCLA) sui problemi di Erdős e ha migliorato i limiti inferiori per il problema del commesso viaggiatore e i numeri di Ramsey.

🔗 DeepMind — AlphaEvolve Impact

Manus Projects autoapprendenti — workspace agentico che migliora a ogni task

6 maggio — Manus lancia una funzionalità che permette ai Progetti di apprendere automaticamente da ogni conversazione e di proporre aggiornamenti approvati dall’utente.

Al termine di ogni task, Manus identifica decisioni, norme e modelli riutilizzabili, poi propone: aggiornamenti delle istruzioni (quando il processo o la terminologia sono cambiati), aggiornamenti dei file (fonti, esempi o modelli obsoleti) e aggiornamenti delle competenze (skills) per i flussi ricorrenti. Nessuna modifica viene applicata senza validazione umana esplicita. I futuri collaboratori partono dal contesto condiviso più recente del Progetto. La funzionalità è disponibile per tutte le sessioni in cui istruzioni e file sono supportati.

🔗 Manus — Projets auto-apprenant

Brevi

Bug bounty Anthropic aperto al pubblico — Il programma, finora privato all’interno della community di ricerca sulla sicurezza, è ora accessibile a tutti su HackerOne. 🔗 fonte
xAI Image Generation Quality Mode API — La modalità qualità di generazione immagini (oltre 300 milioni di immagini generate su Grok) è ora disponibile via API xAI: realismo maggiore, migliore resa del testo, controllo creativo rafforzato. 🔗 fonte
Z.ai GLM-5V-Turbo Tech Report — Z.ai (Zhipu AI) pubblica il rapporto tecnico di GLM-5V-Turbo, modello di fondazione nativo per agenti multimodali con encoder CogViT (distillazione SigLIP2 + DINOv3) e ciclo percezione-pianificazione-esecuzione. 🔗 fonte
ChatGPT Futures Class of 2026 — OpenAI distingue 26 giovani builder provenienti da oltre 20 università (Vanderbilt, Oxford, Georgia Tech…) con una grant di 10.000 USD ciascuno e accesso ai modelli di punta. 🔗 fonte
NVIDIA DeepStream + Claude Code — Dimostrazione di un approccio “concept to app” che combina DeepStream, Claude Code e reusable Skills per generare applicazioni Vision AI senza scrivere ogni riga di codice. 🔗 fonte
NVIDIA Guess-Verify-Refine — Nuova tecnica di inferenza hardware-aware in cui ogni fase di decoding dà un vantaggio alla successiva, progettata specificamente per gli acceleratori NVIDIA. 🔗 fonte
TokenSpeed + NVIDIA Dynamo — TokenSpeed (LightSeek Foundation) raggiunge il livello TensorRT-LLM in open source; NVIDIA Dynamo aggiunge un supporto day-0 per questo backend, con Kimi K2.5 supportato tramite il frontend Dynamo. 🔗 fonte
Ideogram BG Remover — Nuovo modello generativo (addestrato da zero, non una segmentazione classica) per la rimozione dello sfondo: preservazione del canale alpha, orientato a loghi e illustrazioni complesse, API disponibile. 🔗 fonte
Google DeepMind × EVE Online — Partnership con CCP Games per esplorare la ricerca IA in ambienti di gioco complessi guidati dai giocatori. 🔗 fonte
GitHub Copilot Trust Layer — Microsoft/GitHub pubblica una ricerca su un layer di fiducia strutturale per validare gli agent Copilot (grafi di esecuzione + analisi dei dominatori): precisione 100% vs 82,2% per l’auto-valutazione, recall 100% vs 60%. 🔗 fonte
GitHub — revisione delle pull request degli agenti — Guida pratica (checklist da 10 minuti) con 5 segnali d’allarme: CI gaming, code reuse blindness, hallucinated correctness, agentic ghosting, injection di prompt nelle pipeline CI. 🔗 fonte

Cosa significa

La corsa al Personal Computer accelera. Nell’arco di una settimana, tre interfacce molto diverse puntano allo stesso desktop dell’utente: Perplexity Personal Computer si installa su Mac (e Mac mini come hub permanente), Claude invade le quattro applicazioni Microsoft 365 con un contesto condiviso, e Codex pilota Chrome in background. Questi agenti non sono più nel cloud: si integrano nei workflow esistenti, sui file aperti, nelle applicazioni native. Lo spostamento dalla ricerca di informazioni all’azione diretta sugli strumenti di lavoro quotidiani è ormai concreto.

Il compute orbitale entra nel registro dei fatti. L’accordo Anthropic/xAI Colossus 1 è notevole per due ragioni: innanzitutto, offre ad Anthropic un accesso immediato a 220.000 GPU NVIDIA per raddoppiare i suoi limiti già da questa settimana; inoltre, include l’intenzione comune di sviluppare diversi gigawatt di capacità IA in orbita. Sommato agli accordi con Amazon, Google/Broadcom, Microsoft/NVIDIA e Fluidstack, Anthropic sta costruendo un’infrastruttura di calcolo senza equivalenti tra i laboratori di ricerca indipendenti. Questa accumulazione di potenza di calcolo è il prerequisito per la prossima generazione di modelli — e per il continuo raddoppio dei limiti.

La voce ragionante cambia il perimetro degli agenti vocali. GPT-Realtime-2 non è un aggiornamento cosmetico: portare il ragionamento di GPT-5 in un’interfaccia in tempo reale, con 128K di contesto e chiamate agli strumenti in parallelo, trasforma i casi d’uso. Zillow misura +26 punti di tasso di successo sulle chiamate più difficili. La traduzione in diretta (70 lingue sorgente verso 13 target) nello stesso modello apre workflow multilingue senza pipeline di traduzione separata. La domanda non è più “si può fare voce IA?” ma “quali interazioni vocali complesse diventano economicamente sostenibili?”

Allineamento e fiducia agentica passano all’outillage. Tre annunci distinti convergono sullo stesso problema — come fidarsi degli agenti in produzione. I NLA di Anthropic rivelano che Claude sa quando viene testato (nel 16–26% delle valutazioni) senza verbalizzarlo. Il Trust Layer di GitHub (precisione 100% vs 82% per l’auto-valutazione) offre ai team di sviluppo una validazione strutturale delle pull request generate da agenti. La cessione di Petri 3.0 a Meridian Labs crea un riferimento di valutazione indipendente da qualsiasi laboratorio. Questi tre livelli — interpretabilità del modello, validazione degli output, indipendenza degli strumenti di audit — cominciano a formare un’architettura di fiducia per i deployment agentici su larga scala.