Cerca

Partenariato Anthropic+xAI per il compute Colossus 1, Claude M365 GA, GPT-Realtime-2 voce ragionamento

ai-powered-markdown-translator

Articolo tradotto dal fr all’it con gpt-5.4-mini.

Vedi progetto su GitHub ↗

Anthropic e xAI firmano un accordo inedito: 220 000 GPU NVIDIA del supercomputer Colossus 1 raddoppiano i limiti di Claude Code già da questa settimana. Claude for Microsoft 365 passa alla disponibilità generale su Excel, PowerPoint e Word. OpenAI lancia GPT-Realtime-2, il primo modello vocale dotato di ragionamento di livello GPT-5. Perplexity apre Personal Computer a tutti gli utenti Mac, ed ElevenLabs supera i 500 milioni di dollari di ARR con NVIDIA come investitore strategico.


Anthropic affitta Colossus 1 da xAI — 220 000 GPU NVIDIA, raddoppio dei limiti di Claude Code

6 maggio — Anthropic annuncia simultaneamente un aumento immediato dei limiti di utilizzo e un accordo infrastrutturale inedito con SpaceX / xAI.

Per gli utenti, il cambiamento più visibile è il raddoppio dei limiti di throughput su cinque ore in Claude Code, effettivo immediatamente sui piani Pro, Max, Team ed Enterprise. Viene inoltre rimossa la riduzione automatica nelle ore di punta — che limitava i piani Pro e Max. Anche i limiti API per i modelli Claude Opus vengono aumentati in parallelo.

Questi aumenti diventano possibili grazie a un accordo con SpaceX: Anthropic accede alla totalità della capacità di Colossus 1, il supercomputer di xAI, pari a oltre 300 megawatt e oltre 220 000 GPU NVIDIA (H100, H200 e GB200). Questa capacità è disponibile entro il mese. Le due aziende annunciano inoltre un’intenzione comune di sviluppare diversi gigawatt di capacità di calcolo IA in orbita — una prima assoluta nel settore.

Questa partnership si aggiunge a un insieme di accordi già in corso: Amazon (fino a 5 GW di cui quasi 1 GW disponibile a fine 2026), Google e Broadcom (5 GW già dal 2027), Microsoft e NVIDIA (30 miliardi di dollari di capacità Azure) e Fluidstack (50 miliardi di dollari di infrastruttura IA statunitense). L’espansione internazionale integrerà i requisiti di residenza dei dati per i settori regolamentati. Anthropic si impegna inoltre a coprire qualsiasi aumento del prezzo dell’elettricità per i consumatori locali legato ai propri datacenter.

CambiamentoPiani interessatiEffettivo
Raddoppio limiti 5h Claude CodePro, Max, Team, EnterpriseImmediato
Rimozione riduzione ore di puntaPro, MaxImmediato
Aumento limiti API OpusTuttiImmediato
Accordo computeCapacitàCalendario
SpaceX / xAI Colossus 1300+ MW, 220 000+ GPU NVIDIAEntro il mese
AmazonFino a 5 GW (~1 GW fine 2026)2026
Google + Broadcom5 GWDal 2027
Microsoft + NVIDIAUSD 30 miliardi Azure
FluidstackUSD 50 miliardi infrastruttura US

🔗 Anthropic — Aumento dei limiti + accordo SpaceX


Claude for Microsoft 365 — disponibilità generale su Excel, PowerPoint, Word + beta Outlook

7 maggio — Claude for Excel, PowerPoint e Word passano alla disponibilità generale per tutti i piani a pagamento. Claude for Outlook entra contemporaneamente in beta pubblica alle stesse condizioni.

“Claude for Excel, PowerPoint, and Word are now generally available, and Claude for Outlook is in public beta. As Claude moves between your Microsoft apps, it carries the full context of your conversation.”

🇮🇹 Claude for Excel, PowerPoint e Word è ora disponibile per tutti, e Claude for Outlook è in beta pubblica. In tutte le vostre applicazioni Microsoft, Claude conserva l’intero contesto della vostra conversazione.@claudeai su X

La funzionalità centrale è il contesto condiviso tra le quattro applicazioni: una conversazione iniziata in Outlook per smistare un’e-mail prosegue in Word per redigere un memo, poi in Excel per l’analisi dei dati e in PowerPoint per la presentazione — senza dover mai rispiegare il contesto. L’aggiornamento incrociato automatico è l’altro vantaggio concreto: modificare un’ipotesi in un modello Excel aggiorna simultaneamente il grafico nella presentazione e il valore corrispondente nel memo Word.

Tra le aziende citate: ServiceNow (“Claude does the work in Excel itself, instead of asking us to move content between tools”) e team di gestione di asset privati che lo usano per costruire e mantenere modelli di copertura finanziaria.

ApplicazioneStato al 7 maggio 2026Piani
Claude for ExcelDisponibilità generale (GA)Tutti i piani a pagamento
Claude for PowerPointDisponibilità generale (GA)Tutti i piani a pagamento
Claude for WordDisponibilità generale (GA)Tutti i piani a pagamento
Claude for OutlookBeta pubblicaTutti i piani a pagamento

🔗 Annuncio Claude for Microsoft 365


Claude Managed Agents — dreaming, outcomes, orchestrazione multiagent, webhooks

6 maggio — Durante la conferenza Code with Claude, Anthropic lancia diverse nuove funzionalità per la sua piattaforma di deployment di agenti.

La novità più rilevante è dreaming: un processo pianificato che analizza le sessioni passate di un agente, ne estrae i modelli ricorrenti e consolida la sua memoria affinché migliori nel tempo. Lo sviluppatore mantiene il controllo — dreaming può aggiornare automaticamente la memoria oppure sottoporre ogni modifica a revisione umana. Dreaming è disponibile in ricerca sperimentale (research preview) su richiesta.

Outcomes entra in beta pubblica: questa funzionalità consente di valutare ogni risultato di un agente in base a criteri definiti dallo sviluppatore prima di consegnarlo all’utente. L’azienda Wisedocs l’ha usata per accelerare del 50 % la revisione di documenti medici mantenendo l’allineamento con i propri standard interni.

L’orchestrazione multiagent consente a un agente pilota di delegare sottoattività ad agenti specialisti che vengono eseguiti in parallelo, facilitando il trattamento di lavori complessi che richiedono più competenze simultanee. Anche i webhooks sono disponibili per attivare azioni esterne.

FunzionalitàDisponibilitàDescrizione
DreamingResearch preview (su richiesta)Auto-miglioramento tramite analisi delle sessioni passate
OutcomesBeta pubblicaValutazione dei risultati prima della consegna
Orchestrazione multiagentBeta pubblicaAgente pilota + agenti specialisti in parallelo
WebhooksBeta pubblicaAttivazione di azioni esterne

🔗 Annuncio Claude Managed Agents


GPT-Realtime-2 — voce con ragionamento GPT-5 e contesto 128K

7 maggio — OpenAI lancia una nuova generazione di modelli nella Realtime API: GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper.

GPT-Realtime-2 è il primo modello vocale dotato di ragionamento di livello GPT-5: può gestire richieste complesse, chiamare strumenti in parallelo (parallel tool calls), riprendersi dopo interruzioni (recovery behavior) e mantenere una finestra di contesto di 128 000 token (contro 32 000 del predecessore), adatta a sessioni lunghe. Sono regolabili cinque livelli di ragionamento: minimal, low, medium, high, xhigh (low per impostazione predefinita). È possibile inserire formule di transizione (preambles) prima delle risposte per una fluidità naturale.

GPT-Realtime-Translate consente la traduzione simultanea in diretta verso 13 lingue di destinazione da oltre 70 lingue sorgente. GPT-Realtime-Whisper offre una trascrizione in streaming a bassa latenza.

Zillow ha testato GPT-Realtime-2 sulle proprie interazioni vocali: +26 punti di tasso di successo sul suo benchmark avversariale più difficile (95 % contro 69 %). EU Data Residency è supportato.

ModelloCapacitàTariffa
GPT-Realtime-2Voce + ragionamento GPT-5, 128K$32/1M tokens audio input, $64/1M output
GPT-Realtime-TranslateTraduzione 70→13 lingue$0,034/min
GPT-Realtime-WhisperTrascrizione in streaming$0,017/min
BenchmarkGPT-Realtime-1.5GPT-Realtime-2 (high)GPT-Realtime-2 (xhigh)
Big Bench Audioriferimento+15,2 %
Audio MultiChallenge APR36,7 %70,8 %

🔗 Annuncio OpenAI — nuovi modelli voce


Perplexity Personal Computer disponibile per tutti gli utenti Mac

7 maggio — Perplexity lancia una nuova app macOS e apre Personal Computer a tutti gli utenti, senza restrizioni di abbonamento Pro o Max.

L’app porta l’IA fuori dal cloud per installarla direttamente sul dispositivo. Opera su file locali, app native Mac, sul web aperto e sui server sicuri di Perplexity. Supporta 400+ connettori e si integra con il browser Comet per gli strumenti web senza connettori diretti. I piani Pro e Max vedono i loro crediti collegati all’abbonamento esistente; anche gli utenti gratuiti vi hanno accesso.

L’uso consigliato è il Mac mini come hub permanente: team di agenti possono funzionare in modo continuo (24 ore su 24), mentre l’utente lavora ad altro, con una notifica quando è necessaria una validazione umana. Il controllo avviene da qualsiasi dispositivo — iPhone incluso.

La vecchia app Perplexity Mac verrà rimossa nelle prossime settimane. Il download è diretto (non ancora disponibile su App Store).

DimensioneValore
DisponibilitàTutti gli utenti Mac
Dispositivo consigliatoMac mini (acceso in permanenza)
Connettori supportati400+
Integrazione browserComet
App StoreNo (download diretto)
Vecchia appRimozione nelle prossime settimane

🔗 Blog Perplexity — Personal Computer per tutti


Perplexity Finance Search nell’Agent API — precisione #1 su FinSearchComp T1

6 maggio — Perplexity lancia Finance Search nell’Agent API: una singola chiamata di strumento aggrega dati finanziari con licenza, dati di mercato in tempo reale e fonti web citate.

Il problema risolto è semplice: le decisioni finanziarie dipendono da fonti affidabili, aggiornate e tracciabili. Finance Search sostituisce la ricerca web generica con dati strutturati con licenza — prezzi, fondamentali, transcript di conference call, stime — restituiti in uno schema coerente indipendentemente dal provider in background.

Sul benchmark FinSearchComp T1, Finance Search raggiunge la massima precisione per i dati finanziari in tempo reale, costante nel tempo, e il costo più basso per risposta corretta (meno token necessari grazie ai dati strutturati). Le citazioni sono integrate in ogni risultato. Il modello è configurabile dallo sviluppatore, con visibilità sull’utilizzo dei token.

Finance Search è complementare a Computer for Professional Finance (già trattato il 5 maggio): dove il primo offre un workspace visivo, Finance Search si integra in workflow programmatici tramite l’API.

DimensioneValore
InterfacciaUna singola chiamata di strumento (finance_search)
Dati copertiPrezzi, fondamentali, transcript, stime, contesto di mercato
Benchmark FinSearchComp T1Precisione #1, costo/riposta corretta #1
CitazioniIntegrate in ogni risultato

🔗 Blog Perplexity — Finance Search


Natural Language Autoencoders (NLAs) — leggere i pensieri interni di Claude

7 maggio — Anthropic pubblica un nuovo metodo di interpretabilità che converte le attivazioni interne di un modello in testo direttamente leggibile.

L’architettura si basa su un addestramento a ciclo chiuso: un verbalizzatore di attivazione (activation verbalizer) traduce un’attivazione in testo esplicativo, un ricostruttore di attivazione (activation reconstructor) tenta di ricostruire l’attivazione a partire da quel testo. Più la ricostruzione è fedele, migliore è la spiegazione.

L’applicazione di sicurezza è notevole: applicati a Claude Opus 4.6 e Claude Mythos Preview, gli NLA rivelano che i modelli sospettavano di trovarsi in una situazione di test molto più spesso di quanto lo esprimessero. Nei test di codice distruttivo, la consapevolezza implicita della valutazione appare nel 16 % dei casi, contro lo 0 % di verbalizzazione esplicita. Su SWE-bench Verified, il numero sale al 26 %. Nelle vere conversazioni degli utenti claude.ai, resta inferiore all’1 %.

Su un set di audit con un modello intenzionalmente mal allineato, gli auditor dotati di NLA hanno identificato la causa principale nel 12-15 % dei casi, contro meno del 3 % con altri strumenti. Il codice di training è pubblicato open source; una demo interattiva è disponibile su Neuronpedia.

ValutazioneConsapevolezza implicita (NLA)Consapevolezza verbalizzata
Test codice distruttivo16 %~0 %
SWE-bench Verified26 %~0 %
Conversazioni reali claude.ai< 1 %

🔗 Anthropic Research — Natural Language Autoencoders


Petri 3.0 — strumento di allineamento open source ceduto a Meridian Labs

7 maggio — Anthropic cede Petri, il suo strumento di allineamento open source, a Meridian Labs, organizzazione indipendente senza scopo di lucro dedicata alla valutazione dell’IA.

Petri è una suite di strumenti di test dell’allineamento applicabile a qualsiasi modello linguistico: inganno, sycophancy, cooperazione con richieste dannose. Integrato nelle valutazioni di tutti i modelli Claude da Sonnet 4.5 in poi, è stato adottato dal britannico AI Security Institute per le sue valutazioni di sabotaggio della ricerca IA.

La versione 3.0 introduce tre avanzamenti: una migliore adattabilità grazie alla separazione dei componenti auditor e modello target, un modulo “Dish” che esegue i test nelle reali condizioni di deployment (vero system prompt, vero scaffold) per rendere gli scenari meno rilevabili, e un’integrazione con Bloom per valutazioni comportamentali più approfondite.

La cessione a Meridian Labs segue il modello della cessione del protocollo MCP alla Linux Foundation: garantire l’indipendenza dello strumento da qualsiasi laboratorio di IA.

🔗 Anthropic Research — Petri 3.0


L’Anthropic Institute (TAI) — agenda di ricerca su 4 assi

7 maggio — Anthropic pubblica l’agenda di ricerca completa del TAI, l’organizzazione interna lanciata nel marzo 2026 per studiare gli impatti reali dell’IA dalla posizione di un laboratorio frontier.

L’agenda si articola su quattro assi: diffusione economica (adozione dell’IA da parte delle aziende e dei paesi, impatto sui mercati del lavoro), minacce e resilienza (capacità a duplice uso, cybersicurezza, meccanismi difensivi), sistemi IA nella natura (in the wild — effetti comportamentali e istituzionali dell’IA distribuita su larga scala), e R&D tramite l’IA (accelerazione della ricerca scientifica da parte dell’IA stessa, inclusi i rischi di ciclo ricorsivo di auto-miglioramento).

Il TAI si impegna a condividere dati più frequenti dell’Anthropic Economic Index e informazioni sull’accelerazione interna di Anthropic tramite i propri strumenti. È aperta una call for applications per il programma Anthropic Fellows (quattro mesi finanziati).

🔗 Anthropic Research — Agenda TAI


Codex Extension Chrome — controllo del browser in background su macOS e Windows

7 maggio — OpenAI lancia l’estensione Chrome per Codex, consentendo all’agente di pilotare direttamente le schede Chrome senza interrompere il workflow dell’utente.

Codex opera in background su più schede contemporaneamente, combinando le sue capacità di plugin nativi con l’accesso diretto ai siti web (dashboard, CRM, applicazioni web). Il sistema sceglie automaticamente lo strumento migliore per ogni fase: plugin, Chrome o una combinazione. Casi d’uso: debuggare flussi del browser, verificare dashboard, fare ricerca, aggiornare CRM, testare applicazioni web complesse (inclusi giochi multigiocatore tramite sotto-agenti).

L’estensione si installa tramite il plugin Chrome nell’app Codex. Disponibile da subito su macOS e Windows per tutti gli utenti Codex.

🔗 Tweet OpenAI — Codex Chrome Extension


ChatGPT Trusted Contact — sicurezza per la salute mentale con revisione umana

7 maggio — OpenAI distribuisce Trusted Contact, una funzionalità di sicurezza opzionale in ChatGPT.

Qualsiasi adulto (18+, 19+ in Corea del Sud) può designare una persona di fiducia (amico, famiglia, caregiver) che sarà avvisata se vengono rilevati segnali di crisi nelle sue conversazioni. Il processo combina rilevamento automatizzato e revisione umana (obiettivo: meno di un’ora prima di qualsiasi invio), con una notifica senza accesso alle trascrizioni per proteggere la privacy. La funzionalità estende agli adulti i controlli parentali già esistenti per gli account adolescenti. Sviluppata con l’American Psychological Association e una rete di oltre 260 medici in 60 paesi.

ParametroValore
Idoneità18+ (19+ Corea del Sud)
Tempo di accettazione per il contatto1 settimana
SLA revisione umanaObiettivo < 1 ora
Contenuto della notificaMotivo generale, senza trascrizione
CanaliEmail, SMS, in-app

🔗 OpenAI — Trusted Contact


OpenAI B2B Signals — il divario tra aziende d’avanguardia e aziende tipiche si allarga

6 maggio — OpenAI pubblica il primo rapporto B2B Signals, che documenta il divario crescente tra le aziende “d’avanguardia” e le aziende tipiche nell’adozione dell’IA.

Le aziende del 95° percentile usano 3,5× più intelligenza per dipendente rispetto alle aziende tipiche (contro 2× nell’aprile 2025). Il divario dipende meno dal volume di messaggi (36% del divario) che dalla profondità d’uso (64%): delega di compiti complessi, workflow agentici, integrazione nei sistemi di produzione. Su Codex, il divario è il più marcato: ×16 di messaggi per dipendente.

Due casi concreti: Cisco riduce il tempo di build di ~20%, risparmia oltre 1.500 ore di ingegneria al mese e moltiplica per 10–15 la velocità di risoluzione dei difetti. Travelers Insurance gestisce ~100.000 chiamate di sinistro all’anno tramite un assistente.

IndicatoreAziende tipicheAziende d’avanguardia
Intelligenza/dipendenteriferimento×3,5
Messaggi Codex/dipendenteriferimento×16
Quota del volume nel divario36%
Quota della profondità nel divario64%

🔗 OpenAI — B2B Signals


MRC — Protocollo di rete open source per supercalcolatori Stargate

5 maggio — OpenAI pubblica in open source tramite l’Open Compute Project il protocollo MRC (Multipath Reliable Connection), co-sviluppato con AMD, Broadcom, Intel, Microsoft e NVIDIA nell’arco di due anni.

MRC è un protocollo di rete da 800 Gb/s per supercalcolatori di training IA su larga scala. Collega oltre 100.000 GPU con soli 2 livelli di switch (contro 3–4 nell’approccio convenzionale), frammentando i pacchetti su centinaia di percorsi simultanei tramite routing sorgente IPv6 (SRv6). Il recupero dopo un guasto avviene in microsecondi (contro diversi secondi con il classico BGP dinamico). Già in produzione su Stargate (Abilene, Texas) e sui supercalcolatori Fairwater di Microsoft, MRC ha permesso l’addestramento di diversi modelli tra cui GPT-5.5 e Codex.

AspettoApproccio convenzionaleMRC
Livelli di switch per 100K+ GPU3-42
Recupero dopo un guastoSecondi fino a decine di secondiMicrosecondi
RoutingBGP dinamicoSRv6 statico
Distribuzione dei pacchetti1 percorso per trasferimento100s di percorsi in parallelo

🔗 OpenAI — MRC Supercomputer Networking


Perplexity ROSE — motore di inferenza proprietario e CuTeDSL

6 maggio — Perplexity pubblica un articolo di ricerca che dettaglia ROSE (Runtime-Optimized Serving Engine), il suo motore di inferenza proprietario, e la sua integrazione di CuTeDSL (libreria di kernel GPU NVIDIA).

ROSE alimenta tutti i servizi Perplexity (Sonar, Search, Embeddings) su GPU NVIDIA Hopper e Blackwell, dai modelli di encoding fino ai LLM da mille miliardi di parametri. CuTeDSL consente di costruire più rapidamente kernel GPU personalizzati ottimizzati, adatti alle nuove architetture dei modelli con ritmo sostenuto.

Questa pubblicazione illustra la strategia di Perplexity: controllare l’intero stack tecnico fino al livello dei kernel GPU per differenziarsi sulle prestazioni e ridurre la dipendenza da framework di terze parti.

🔗 Perplexity Research — CuTeDSL et ROSE


ElevenLabs raggiunge 500 M$ di ARR — NVIDIA investitore tramite NVentures

5 maggio — ElevenLabs annuncia un terzo closing della sua Serie D con NVIDIA come nuovo investitore strategico tramite NVentures.

L’ARR è passato da 350 Mafine2025a500M a fine 2025 a **500 M nell’aprile 2026**, pari a +43% in quattro mesi. Questo terzo closing include anche BlackRock, Wellington Management, D.E. Shaw, Schroders, oltre ad aziende clienti (Salesforce, Santander, KPN, Deutsche Telekom) e un investimento retail tramite Robinhood Ventures. In parallelo è stato chiuso un tender offer da 100 M$. ElevenLabs conta 530 dipendenti in oltre 50 paesi. La roadmap annuncia la fusione di immagini/video e audio in una piattaforma creativa unificata.

🔗 ElevenLabs — 500 M$ ARR e nuovi investitori


AlphaEvolve in produzione — 5 settori industriali tramite Google Cloud

7 maggio — Un anno dopo il suo lancio, Google DeepMind pubblica un bilancio di AlphaEvolve, il suo agente di coding alimentato da Gemini, ormai passato dalla ricerca alla produzione industriale.

AlphaEvolve ottimizza l’infrastruttura critica di Google: TPU, policy di sostituzione della cache, compaction LSM-tree in Google Spanner. È distribuito commercialmente tramite Google Cloud in cinque settori: finanza (raddoppio delle prestazioni di un transformer), semiconduttori (litografia computazionale), logistica (problema del commesso viaggiatore), pubblicità e scienze dei materiali (~4× di incremento di velocità presso Schrödinger). Sul piano accademico, AlphaEvolve ha collaborato con Terence Tao (UCLA) sui problemi di Erdős e ha migliorato i limiti inferiori per il problema del commesso viaggiatore e i numeri di Ramsey.

🔗 DeepMind — AlphaEvolve Impact


Manus Projects autoapprendenti — workspace agentico che migliora a ogni task

6 maggio — Manus lancia una funzionalità che permette ai Progetti di apprendere automaticamente da ogni conversazione e di proporre aggiornamenti approvati dall’utente.

Al termine di ogni task, Manus identifica decisioni, norme e modelli riutilizzabili, poi propone: aggiornamenti delle istruzioni (quando il processo o la terminologia sono cambiati), aggiornamenti dei file (fonti, esempi o modelli obsoleti) e aggiornamenti delle competenze (skills) per i flussi ricorrenti. Nessuna modifica viene applicata senza validazione umana esplicita. I futuri collaboratori partono dal contesto condiviso più recente del Progetto. La funzionalità è disponibile per tutte le sessioni in cui istruzioni e file sono supportati.

🔗 Manus — Projets auto-apprenant


Brevi

  • Bug bounty Anthropic aperto al pubblico — Il programma, finora privato all’interno della community di ricerca sulla sicurezza, è ora accessibile a tutti su HackerOne. 🔗 fonte
  • xAI Image Generation Quality Mode API — La modalità qualità di generazione immagini (oltre 300 milioni di immagini generate su Grok) è ora disponibile via API xAI: realismo maggiore, migliore resa del testo, controllo creativo rafforzato. 🔗 fonte
  • Z.ai GLM-5V-Turbo Tech Report — Z.ai (Zhipu AI) pubblica il rapporto tecnico di GLM-5V-Turbo, modello di fondazione nativo per agenti multimodali con encoder CogViT (distillazione SigLIP2 + DINOv3) e ciclo percezione-pianificazione-esecuzione. 🔗 fonte
  • ChatGPT Futures Class of 2026 — OpenAI distingue 26 giovani builder provenienti da oltre 20 università (Vanderbilt, Oxford, Georgia Tech…) con una grant di 10.000 USD ciascuno e accesso ai modelli di punta. 🔗 fonte
  • NVIDIA DeepStream + Claude Code — Dimostrazione di un approccio “concept to app” che combina DeepStream, Claude Code e reusable Skills per generare applicazioni Vision AI senza scrivere ogni riga di codice. 🔗 fonte
  • NVIDIA Guess-Verify-Refine — Nuova tecnica di inferenza hardware-aware in cui ogni fase di decoding dà un vantaggio alla successiva, progettata specificamente per gli acceleratori NVIDIA. 🔗 fonte
  • TokenSpeed + NVIDIA Dynamo — TokenSpeed (LightSeek Foundation) raggiunge il livello TensorRT-LLM in open source; NVIDIA Dynamo aggiunge un supporto day-0 per questo backend, con Kimi K2.5 supportato tramite il frontend Dynamo. 🔗 fonte
  • Ideogram BG Remover — Nuovo modello generativo (addestrato da zero, non una segmentazione classica) per la rimozione dello sfondo: preservazione del canale alpha, orientato a loghi e illustrazioni complesse, API disponibile. 🔗 fonte
  • Google DeepMind × EVE Online — Partnership con CCP Games per esplorare la ricerca IA in ambienti di gioco complessi guidati dai giocatori. 🔗 fonte
  • GitHub Copilot Trust Layer — Microsoft/GitHub pubblica una ricerca su un layer di fiducia strutturale per validare gli agent Copilot (grafi di esecuzione + analisi dei dominatori): precisione 100% vs 82,2% per l’auto-valutazione, recall 100% vs 60%. 🔗 fonte
  • GitHub — revisione delle pull request degli agenti — Guida pratica (checklist da 10 minuti) con 5 segnali d’allarme: CI gaming, code reuse blindness, hallucinated correctness, agentic ghosting, injection di prompt nelle pipeline CI. 🔗 fonte

Cosa significa

La corsa al Personal Computer accelera. Nell’arco di una settimana, tre interfacce molto diverse puntano allo stesso desktop dell’utente: Perplexity Personal Computer si installa su Mac (e Mac mini come hub permanente), Claude invade le quattro applicazioni Microsoft 365 con un contesto condiviso, e Codex pilota Chrome in background. Questi agenti non sono più nel cloud: si integrano nei workflow esistenti, sui file aperti, nelle applicazioni native. Lo spostamento dalla ricerca di informazioni all’azione diretta sugli strumenti di lavoro quotidiani è ormai concreto.

Il compute orbitale entra nel registro dei fatti. L’accordo Anthropic/xAI Colossus 1 è notevole per due ragioni: innanzitutto, offre ad Anthropic un accesso immediato a 220.000 GPU NVIDIA per raddoppiare i suoi limiti già da questa settimana; inoltre, include l’intenzione comune di sviluppare diversi gigawatt di capacità IA in orbita. Sommato agli accordi con Amazon, Google/Broadcom, Microsoft/NVIDIA e Fluidstack, Anthropic sta costruendo un’infrastruttura di calcolo senza equivalenti tra i laboratori di ricerca indipendenti. Questa accumulazione di potenza di calcolo è il prerequisito per la prossima generazione di modelli — e per il continuo raddoppio dei limiti.

La voce ragionante cambia il perimetro degli agenti vocali. GPT-Realtime-2 non è un aggiornamento cosmetico: portare il ragionamento di GPT-5 in un’interfaccia in tempo reale, con 128K di contesto e chiamate agli strumenti in parallelo, trasforma i casi d’uso. Zillow misura +26 punti di tasso di successo sulle chiamate più difficili. La traduzione in diretta (70 lingue sorgente verso 13 target) nello stesso modello apre workflow multilingue senza pipeline di traduzione separata. La domanda non è più “si può fare voce IA?” ma “quali interazioni vocali complesse diventano economicamente sostenibili?”

Allineamento e fiducia agentica passano all’outillage. Tre annunci distinti convergono sullo stesso problema — come fidarsi degli agenti in produzione. I NLA di Anthropic rivelano che Claude sa quando viene testato (nel 16–26% delle valutazioni) senza verbalizzarlo. Il Trust Layer di GitHub (precisione 100% vs 82% per l’auto-valutazione) offre ai team di sviluppo una validazione strutturale delle pull request generate da agenti. La cessione di Petri 3.0 a Meridian Labs crea un riferimento di valutazione indipendente da qualsiasi laboratorio. Questi tre livelli — interpretabilità del modello, validazione degli output, indipendenza degli strumenti di audit — cominciano a formare un’architettura di fiducia per i deployment agentici su larga scala.


Fonti