Cerca

DiffusionGemma 4x più veloce, workflow dinamici Claude Code in GA, Grok Voice #1 EVA-Bench

ai-powered-markdown-translator

Articolo tradotto dal fr al it con gpt-5.4-mini.

Vedi progetto su GitHub ↗

Il 10 giugno 2026 segna una giornata intensa: Google DeepMind lancia DiffusionGemma, una nuova architettura di generazione di testo basata sulla diffusione che raggiunge 1 000 token al secondo su H100, subito ottimizzata da NVIDIA per l’hardware locale. Sul fronte degli strumenti per sviluppatori, Anthropic porta i workflow dinamici di Claude Code alla disponibilità generale con una ricorsività di agenti fino a 5 livelli, e xAI posiziona Grok Voice Think Fast 1.0 come numero uno del benchmark EVA-Bench. GitHub, OpenAI, Perplexity e Cohere completano una giornata ricca di annunci.


DiffusionGemma: generazione parallela di blocchi da 256 token, 4x più veloce su GPU

10 giugno — Google DeepMind lancia DiffusionGemma, un modello aperto sperimentale da 26 miliardi di parametri (architettura Mixture of Experts) pubblicato con licenza Apache 2.0. La sua particolarità: invece di generare un token alla volta come ogni classico modello autoregressivo, genera blocchi interi di 256 token contemporaneamente applicando lo stesso principio iterativo di denoising dei modelli di diffusione per immagini.

Risultato: fino a 4x più veloce su GPU dedicate. Il modello attiva solo 3,8 miliardi di parametri durante l’inferenza, il che gli permette di stare in 18 GB di VRAM una volta quantizzato — accessibile su GPU consumer di fascia alta. L’attenzione bidirezionale apre casi d’uso difficili per i modelli autoregressivi: editing in linea, completamento di codice, sequenze di amminoacidi, grafi matematici.

NVIDIA ha immediatamente ottimizzato DiffusionGemma per le proprie GPU sfruttando i Tensor Cores, dove le architetture autoregressive sono limitate dalla banda passante della memoria. Le prestazioni misurate su diversi hardware:

HardwarePrestazioni
NVIDIA H100 (server)1 000 token/s
NVIDIA DGX Stationfino a 800 token/s
NVIDIA DGX Spark (locale)150 token/s
GeForce RTX 5090 (quantizzato)700+ token/s
GeForce RTX 4090 (quantizzato)supporto llama.cpp in arrivo

I pesi sono disponibili su Hugging Face con supporto immediato in HF Transformers, vLLM e Unsloth. Il modello è inoltre testabile gratuitamente su build.nvidia.com.

Importante: Google precisa esplicitamente che la qualità dell’output resta inferiore a quella dei modelli Gemma 4 standard. DiffusionGemma si rivolge agli sviluppatori che esplorano flussi di lavoro locali interattivi — iterazione rapida, editing in linea — e non la produzione.

“DiffusionGemma is our new experimental open model with up to 4x faster output on dedicated GPUs. Instead of predicting word-by-word, it generates entire blocks of text simultaneously.”

🇮🇹 DiffusionGemma è il nostro nuovo modello aperto sperimentale che offre un output fino a 4 volte più veloce su GPU dedicate. Invece di prevedere le parole una per una, genera simultaneamente interi blocchi di testo.@GoogleDeepMind su X

🔗 Annuncio Google DeepMind · 🔗 Ottimizzazione NVIDIA


Claude Code v2.1.172: workflow dinamici in disponibilità generale, sottagenti ricorsivi fino a 5 livelli

10 giugno — Anthropic annuncia che i flussi di lavoro dinamici (dynamic workflows) di Claude Code passano in disponibilità generale. Presentati in anteprima di ricerca il 28 maggio, consentono a Claude di progettare la propria orchestrazione e di lanciare decine o centinaia di sottagenti in parallelo per gestire attività complesse end-to-end.

La versione v2.1.172 del CLI, pubblicata lo stesso giorno, introduce la capacità chiave associata: i sottagenti possono ora creare i propri sottagenti, fino a 5 livelli di nidificazione. È il fondamento tecnico che rende operativi i workflow dinamici su larga scala.

Casi d’uso principali:

  • Caccia ai bug su un intero repository, audit di sicurezza
  • Migrazioni di codice che coinvolgono migliaia di file (es. porting Zig→Rust di Bun in 11 giorni)
  • Verifica avversaria di un risultato prima della consegna

Disponibilità e condizioni:

ElementoDettaglio
PianiMax, Team, Enterprise (se attivato dall’admin), API Claude
Piattaforme cloudAmazon Bedrock, Vertex AI, Microsoft Foundry
AttivazioneComando Create a workflow o parametro ultracode (effort xhigh)
Profondità sottagentiFino a 5 livelli
Versione CLIv2.1.172

Da notare: i workflow dinamici consumano molti più token di una sessione standard di Claude Code. Claude Code mostra una conferma prima del primo avvio. Gli admin Enterprise possono disattivare la funzionalità tramite le impostazioni gestite.

Altri cambiamenti di v2.1.172: correzione del bug delle sessioni bloccate definitivamente con il contesto 1M senza crediti, barra di ricerca nel browser /plugin, Amazon Bedrock legge ora la regione AWS da ~/.aws se AWS_REGION non è definito, numerose correzioni di stabilità per gli agenti in background.

🔗 Annuncio @claudeai · 🔗 Blog Dynamic Workflows · 🔗 CHANGELOG


Grok Voice Think Fast 1.0 — numero uno EVA-Bench

10 giugno — xAI annuncia Grok Voice Think Fast 1.0, il suo modello vocale che si posiziona sulla frontiera di Pareto della classifica EVA-Bench di ServiceNow AI Research. La frontiera di Pareto significa che nessun altro sistema nella valutazione supera simultaneamente la sua precisione e la qualità dell’esperienza utente.

xAI mette in evidenza tre caratteristiche: un timing naturale, un’intonazione adatta al contesto e un calore percepito simile a quello umano. Il modello è disponibile tramite l’API vocale xAI a x.ai/api/voice, a una tariffa presentata come sensibilmente inferiore a quella dei concorrenti.

MetricaValore
Classifica EVA-BenchFrontiera di Pareto (numero 1)
DisponibilitàAPI x.ai/api/voice
Posizionamento prezzoFrazione del prezzo dei concorrenti (secondo xAI)

“Grok Voice offers state-of-the-art performance with human-like timing, tone, and warmth. And it’s a fraction the price of competitors.”

🇮🇹 Grok Voice offre prestazioni all’avanguardia con un timing, un tono e un calore simili a quelli umani. E il suo prezzo è una frazione di quello dei concorrenti.@xai su X

🔗 Risultati EVA-Bench


NVIDIA Confidential Computing in Apple Private Cloud Compute (WWDC 2026)

9 giugno — Annunciata durante la WWDC 2026, questa integrazione tripartita Apple–NVIDIA–Google segna una tappa strutturante per la privacy dell’IA nel cloud. Le GPU NVIDIA Blackwell con Confidential Computing sono ora integrate nell’infrastruttura Private Cloud Compute (PCC) di Apple, che si estende oltre i data center Apple verso Google Cloud.

L’obiettivo: trattare le richieste Apple Intelligence lato server con una garanzia di riservatezza crittografica assoluta — nessuno, nemmeno i costruttori del sistema, può accedere ai dati, alle conversazioni o alle chat degli utenti.

Meccanismi di protezione:

  • Fiducia ancorata all’hardware (hardware-rooted trust): verifica che l’infrastruttura non sia stata manomessa
  • Canali di comunicazione cifrati tra i componenti
  • Attestazione remota (remote attestation): il software verifica lo stato di sicurezza della piattaforma prima di qualsiasi trasferimento di dati sensibili
  • Supporto all’inferenza accelerata senza compromessi sulle prestazioni GPU

Questa architettura consente ad Apple di estendere Apple Intelligence su Google Cloud mantenendo i propri impegni di privacy — una combinazione rara nel settore. Per NVIDIA, si tratta di un’adozione su larga scala del Confidential Computing Blackwell in una distribuzione consumer.

🔗 Blog NVIDIA


Anthropic: agenti pianificati, vault di segreti e quadro normativo

Claude Managed Agents — distribuzioni pianificate e vault di variabili

9 giugno — Due nuove funzionalità arrivano in beta pubblica in Claude Managed Agents, annunciate durante il Code with Claude Tokyo:

Distribuzioni pianificate (scheduled deployments): gli agenti possono ora eseguire automaticamente in base a un calendario, senza intervento manuale — report giornalieri, verifiche periodiche, pipeline di dati regolari.

Variabili nei vault (vaults): gli agenti accedono ai propri segreti e configurazioni tramite un vault gestito, senza esporre le chiavi nel codice o nelle configurazioni di sessione.

FunzionalitàStato
Distribuzioni pianificateBeta pubblica
Variabili nei vaultBeta pubblica
PiattaformaClaude Managed Agents

🔗 What’s new in Claude Managed Agents

Policy on the AI Exponential — quadro normativo di Anthropic

10 giugno — Anthropic pubblica Policy on the AI Exponential, un quadro di politica pubblica accompagnato da un saggio di Dario Amodei. La conclusione: le capacità dell’IA stanno avanzando a un ritmo esponenziale che il processo legislativo non è stato progettato per seguire.

Il documento prende di mira i modelli addestrati con più di 10²⁵ operazioni in virgola mobile (FLOP), sviluppati da aziende che generano più di USD 500 milioni di ricavi legati all’IA o spendono più di USD 1 miliardo in R&S IA. Identifica quattro categorie di rischi catastrofici: rischio biologico, rischio cibernetico, perdita di controllo sui sistemi IA e automazione della R&S IA stessa.

Obbligo propostoDescrizione
TrasparenzaTest obbligatori, pubblicazione dei risultati
Valutazione indipendenteAlmeno un valutatore esterno qualificato
SicurezzaProtezione dei pesi dagli attori statali
Autorità governativaPotere di bloccare o rinviare i modelli pericolosi

“AI is advancing at a pace our policymaking institutions were never built for—and the gap between the two is becoming the central challenge of the technology.”

🇮🇹 L’IA sta avanzando a un ritmo per il quale le nostre istituzioni legislative non sono state progettate — e il divario tra le due cose sta diventando la sfida centrale posta da questa tecnologia.@AnthropicAI su X

🔗 Policy on the AI Exponential


GitHub Copilot: app aperta a tutti, sessioni agent visibili e revisione di sicurezza in CLI

Copilot App — technical preview aperta senza lista d’attesa

10 giugno — La technical preview dell’applicazione GitHub Copilot è ora disponibile per tutti gli abbonati Copilot Pro, Pro+, Max, Business e Enterprise, senza lista d’attesa. Questa app desktop progettata per gli agenti centralizza la gestione delle sessioni agent, la creazione di pull request e il controllo delle attività di sviluppo dal desktop — dal ticket alla PR in un unico posto.

🔗 Annuncio @github

Copilot Chat ora vede le sessioni agent

10 giugno — GitHub migliora il passaggio tra Copilot Chat e il cloud agent. Due nuovi strumenti sono disponibili in Copilot Chat: Get agent logs (log di una sessione agent su una pull request, interrogabili direttamente nella conversazione) e Session search (ricerca e sintesi delle sessioni passate per argomento, titolo o data). Lo stato di una sessione in corso è ora riflesso in tempo reale nella chat.

🔗 Changelog

Copilot CLI — comando /security-review (public preview sperimentale)

10 giugno — Un nuovo comando slash /security-review è disponibile in public preview sperimentale in GitHub Copilot CLI. Analizza le modifiche locali al codice direttamente dal terminale: injection (SQL, comandi), XSS, gestione non sicura dei dati, path traversal, crittografia debole. I risultati sono classificati per gravità e confidenza, con suggerimenti applicabili senza uscire dal terminale. Il comando è indipendente da GitHub code scanning e Dependabot — li completa con un’analisi leggera on-demand.

🔗 Changelog

Manus — Zoom Connector

9 giugno — Manus lancia il connettore Zoom, consentendo all’agente di analizzare automaticamente il contenuto delle riunioni accessibili dall’account collegato: riepiloghi, trascrizioni, registrazioni, note, agende, lavagne, informazioni sui partecipanti. Tre casi d’uso principali: analisi on-demand di una riunione, revisione ricorrente automatica con report in Slack o email, e analisi delle tendenze su più riunioni. Limitazione: Manus accede solo alle risorse che l’account Zoom collegato è autorizzato a vedere.

🔗 Manus Blog


xAI e Kimi: partnership e agent swarm

Grok + eToro — Agent Tori alimentato dai dati X in tempo reale

10 giugno — xAI ed eToro annunciano che Tori, l’agente AI di eToro (40 milioni di utenti in 75 paesi), integra ora i modelli xAI e i dati in tempo reale della piattaforma X per analizzare il sentiment di mercato (market sentiment). Tori può leggere l’evoluzione del sentiment in tempo reale, seguire segnali live e analizzare le informazioni. La stessa intelligenza in tempo reale è accessibile a tutti gli sviluppatori tramite la console API xAI.

🔗 xAI News

Kimi Agent Swarm — Previsione delle 104 partite della Coppa del Mondo 2026

9 giugno — Kimi (Moonshot AI) distribuisce 300 sottagenti in parallelo per prevedere le 104 partite della Coppa del Mondo FIFA 2026. Ogni agente dispone del proprio angolo analitico: tattiche, forma dei giocatori, dati storici, sentiment pubblico, meteo, psicologia, movimenti delle quote. Il sistema utilizza modelli Elo/FIFA, Poisson/Dixon-Coles, simulazioni Monte-Carlo e aggiornamento bayesiano dinamico. Segnale identificato: probabilità di titolo della Germania stimata a ~11,3 % contro ~7,4 % sui mercati delle scommesse.

🔗 Annuncio @Kimi_Moonshot


OpenAI Codex: migrazione da Claude Code e showcase Ableton

Codex app 26.608 — Migrazione da Claude Code e redesign dei plugin

9 giugno — L’aggiornamento Codex app 26.608 introduce un flusso di migrazione (Migrate to Codex) che consente di importare automaticamente la configurazione da Claude Code e Claude Cowork, anche al primo avvio dell’applicazione. L’interfaccia dei plugin è stata completamente ridisegnata con schede separate, un marketplace con filtri per categoria e una navigazione da tastiera migliorata. La ricerca nelle impostazioni si estende a Git e alle personalizzazioni visive.

FunzionalitàDettaglio
Migrazione Claude Code/CoworkImport automatico, anche durante l’onboarding
Schermata pluginSchede, marketplace, filtri categoria
Ricerca nelle impostazioniEstesa a Git, personalizzazioni visive

🔗 Codex Changelog


Perplexity e Cohere: orchestrazione multimodello e benchmark vocale

Perplexity Computer integra Claude Fable 5 come orchestratore

10 giugno — Perplexity annuncia l’integrazione di Claude Fable 5 come modello orchestratore in Perplexity Computer, la sua interfaccia agentica multi-step. Questa integrazione è riservata agli abbonati Pro e Max.

🔗 Annuncio @perplexity_ai

Cohere Transcribe numero 1 sul benchmark Far-Field ASR di Hugging Face

10 giugnoCohere Transcribe, il modello open source di riconoscimento vocale di Cohere, si classifica al primo posto sul nuovo benchmark Far-Field ASR di Hugging Face, progettato per testare la robustezza in ambienti audio reali (sale riunioni, contact center, chiamate telefoniche).

ModelloWER Far-Field ASR
Cohere Transcribe17,9
IBM Granite Speech~19,8
NVIDIA Parakeet~21,5

Il modello resta sotto licenza Apache 2.0 e può essere eseguito localmente. Era già al primo posto sulla leaderboard generale OpenASR a marzo 2026.

🔗 Annuncio @cohere


Gemini App : nuove funzionalità per le piccole imprese

10 giugno — Durante l’evento Google for Brazil a São Paulo, Google annuncia due funzionalità di Gemini App rivolte alle piccole imprese, con un rollout globale previsto per giugno 2026.

Connessione a Google Business Profile: gli utenti collegano il proprio profilo direttamente nell’app Gemini. Una volta connesso, Gemini accede alle recensioni dei clienti, alle domande e ai dati di performance per proporre raccomandazioni personalizzate: analisi mensile delle performance, redazione di risposte alle recensioni nel tono del brand, aggiornamento degli orari e del profilo.

Business notebooks: uno spazio centralizzato in cui l’azienda organizza le proprie conversazioni, le fonti e il profilo Google Business. Gemini lo usa come base di conoscenza per mantenere la continuità delle conversazioni e proporre avvisi proattivi (domanda di un cliente senza risposta, orari festivi non indicati).

🔗 Blog Google


Brevi

  • Interruzione di Gemini il 10 giugno — Il product director Josh Woodward segnala un’interruzione del servizio alle 19:31, con correzioni parziali già distribuite. 🔗 @joshwoodward
  • GitHub Enterprise — 500 cost centers — Il limite di centri di costo per azienda passa da 250 a 500, automaticamente e senza configurazione richiesta. 🔗 Changelog
  • Dependabot supporta Deno — Gli aggiornamenti di versione di Deno sono supportati tramite una voce deno in .github/dependabot.yml (gli aggiornamenti di sicurezza per ora non sono coperti). 🔗 Changelog
  • npm v12 — modifiche incompatibili a luglio 2026 — Gli script di installazione, le dipendenze Git e gli URL remoti saranno bloccati per impostazione predefinita. Si raccomanda l’aggiornamento a npm 11.16.0+ per anticipare. 🔗 Changelog
  • Alibaba Wan — Fisheye Lens — Nuovo strumento che trasforma immagini standard in viste circolari ultra grandangolari in stile fish-eye, aggiunto alla galleria delle competenze visive di Wan. 🔗 @Alibaba_Wan
  • Z-Image-Engineer-V6 — Codificatore di testo intercambiabile per Z-Image-Turbo (Tongyi Lab / Alibaba), che trasforma prompt semplici in descrizioni cinematografiche. Disponibile su Hugging Face. 🔗 @Ali_TongyiLab
  • Qwen-Image-Edit-2511 + LoRA — Nuovo spazio comunitario Hugging Face per Qwen-Image-Edit-2511 con matrice LoRA versatile (face swap, pose, prova virtuale, rendering multi-angolo). 🔗 @Ali_TongyiLab
  • ChatGPT per iOS 1.2026.153 — Nuove funzionalità Codex Mobile — worktrees, /goal.
  • Codex in Ableton Live — @OpenAIDevs mette in evidenza il musicista @sound4movement che usa Codex per configurare automaticamente Ableton Live a partire dalla descrizione di una traccia. 🔗 @OpenAIDevs
  • Cohere Labs — IA e futuro del lavoro — Pubblicazione di un rapporto sulle lacune nelle evidenze nel dibattito sull’impatto dell’IA sull’occupazione, inaugurando una nuova direzione di ricerca. 🔗 @cohere

Cosa significa

Nuove architetture di inferenza: la fine del token-per-token? DiffusionGemma è la prima dimostrazione pubblica su larga scala di un’architettura di diffusione testuale aperta, e l’interesse immediato di NVIDIA — che ha ottimizzato il modello lo stesso giorno del lancio — conferma che questa direzione è presa sul serio a livello industriale. Il guadagno 4x su GPU dedicate non è aneddotico: sposta il collo di bottiglia dalla larghezza di banda della memoria (il tallone d’Achille dell’approccio autoregressivo) verso i core di calcolo tensoriale. Il limite attuale (qualità inferiore a Gemma 4) e il targeting esplicito degli sviluppatori più che della produzione indicano che si tratta di una pista di ricerca, non di un sostituto immediato — ma il benchmark Pareto di Grok Voice su EVA-Bench, in un dominio diverso (voce), mostra che la corsa all’efficienza si gioca ormai su più fronti architetturali in parallelo.

Autonomia agentica: dalla promessa all’infrastruttura. La GA dei workflow dinamici di Claude Code con ricorsività a 5 livelli, combinata ai deploy pianificati e ai secret vault di Claude Managed Agents, concretizza un cambio di paradigma: gli agenti non sono più strumenti monouso ma processi persistenti, pianificabili, con accesso sicuro ai segreti. L’iniziativa Kimi Agent Swarm (300 sotto-agenti su 104 match) illustra lo stesso movimento sul fronte Moonshot AI. E Perplexity Computer che integra Claude Fable 5 come orchestratore segnala che la competizione sugli agenti si gioca tanto a livello di tooling quanto dei modelli stessi.

Privacy e fiducia: l’asse Apple–NVIDIA–Google. L’integrazione di NVIDIA Confidential Computing in Apple PCC su Google Cloud è strutturalmente significativa: mostra che un deployment consumer può combinare accelerazione GPU, garanzie crittografiche di riservatezza e infrastruttura cloud di terze parti. Non è una nicchia — Apple Intelligence raggiunge centinaia di milioni di dispositivi. Se questa architettura si normalizza, potrebbe diventare uno standard de facto per i servizi IA che trattano dati personali sensibili.

Ecosistema developer: consolidamento e competizione sul tooling. Il fatto che Codex 26.608 proponga un flusso di migrazione da Claude Code non è banale: è un riconoscimento che gli sviluppatori hanno investito la propria configurazione in strumenti concorrenti e che bisogna abbassare il costo di transizione. GitHub Copilot, dal canto suo, accelera sull’approccio “agent-native” (app senza lista d’attesa, sessioni agent visibili nella chat, revisione di sicurezza in CLI). La giornata del 10 giugno delinea un ecosistema in cui la differenziazione si gioca meno sulle capacità grezze dei modelli che sulla profondità di integrazione nei workflow quotidiani degli sviluppatori.


Fonti