La settimana si chiude con diverse annunci significativi: GPT-5.4 di OpenAI consolida il computer use nativo con il 75% su OSWorld e una finestra di contesto da un milione di tokens, NotebookLM introduce i Cinematic Video Overviews dove Gemini agisce come regista, e Codex estende il supporto a Windows con un sandbox nativo. Sul fronte degli strumenti per sviluppatori, Anthropic migliora lo skill-creator e lancia gli HTTP hooks in Claude Code, mentre GitHub attiva Copilot Memory per impostazione predefinita.
GPT-5.4 — computer use nativo, 1M tokens, tool di ricerca
5 marzo 2026 — OpenAI lancia GPT-5.4, il suo modello frontier per il lavoro professionale. Disponibile in ChatGPT (con il nome GPT-5.4 Thinking), nell’API (identificatore gpt-5.4) e in Codex, questo modello consolida in un’unica architettura le capacità di ragionamento, di coding e i flussi di lavoro agentici (agentic workflows) introdotti nei modelli precedenti.
La novità tecnica più significativa è l’integrazione nativa del computer use: GPT-5.4 può interagire con interfacce grafiche tramite screenshot e tastiera/mouse senza plugin di terze parti. Su OSWorld-Verified — il benchmark di riferimento per l’interazione con interfacce software reali — GPT-5.4 raggiunge 75,0 %, contro il 47,3 % di GPT-5.2. La finestra di contesto sale a 1 milione di tokens in Codex e nell’API.
Un’altra novità rilevante è il tool search: invece di ricevere l’intera lista di tool disponibili a ogni chiamata, il modello riceve una lista leggera e ricerca gli strumenti su richiesta. OpenAI segnala una riduzione del 47 % nel consumo di tokens nei workflow con molti tool (testato su Scale MCP Atlas). La modalità /fast in Codex guadagna 1,5× in velocità a parità di intelligenza.
Benchmark :
| Évaluation | GPT-5.4 | GPT-5.3-Codex | GPT-5.2 |
|---|---|---|---|
| GDPval (lavoro professionale) | 83,0 % | 70,9 % | 70,9 % |
| SWE-Bench Pro | 57,7 % | 56,8 % | 55,6 % |
| OSWorld-Verified (computer use) | 75,0 % | 74,0 % | 47,3 % |
| BrowseComp (ricerca web) | 82,7 % | 77,3 % | 65,8 % |
| Toolathlon (uso di strumenti) | 54,6 % | 51,9 % | 46,3 % |
| ARC-AGI-2 (ragionamento astratto) | 73,3 % | — | 52,9 % |
Tariffe API :
| Modello | Input | Output |
|---|---|---|
| gpt-5.2 | 1,75 $ / M tokens | 14 $ / M tokens |
| gpt-5.4 | 2,50 $ / M tokens | 15 $ / M tokens |
| gpt-5.2-pro | 21 $ / M tokens | 168 $ / M tokens |
| gpt-5.4-pro | 30 $ / M tokens | 180 $ / M tokens |
GPT-5.4 Thinking è accessibile da oggi agli abbonati ChatGPT Plus, Team e Pro. GPT-5.2 Thinking resterà disponibile nella sezione «Legacy Models» fino al 5 giugno 2026. Sul piano della sicurezza, OpenAI classifica GPT-5.4 come «High cyber capability» nel suo Preparedness Framework. L’azienda pubblica contemporaneamente CoT-Control, una suite di valutazione open source che misura la controllabilità della chain of thought di 13 modelli frontier — i punteggi, bassi (0,1 % a 15,4 %), indicano che il monitoraggio delle chain of thought rimane uno strumento di sicurezza affidabile.
🔗 Presentazione di GPT-5.4 | OpenAI
NotebookLM — Cinematic Video Overviews
4 marzo 2026 — NotebookLM introduce i Cinematic Video Overviews nel suo Studio. Questi video vanno oltre gli Audio Overviews (formato podcast) lanciati nel 2024 e i template video standard.
Il principio: Gemini è posizionato come regista. Il modello analizza le fonti dell’utente, decide il formato più adatto (tutorial, documentario, ecc.), sceglie uno stile visivo, genera le immagini e poi le autocritica prima di produrre la versione finale. Il risultato è un video immersivo e personalizzato, unico per ogni insieme di fonti.
La funzionalità è disponibile per gli abbonati Google AI Ultra, in inglese, dal 4 marzo 2026. Il rollout completo agli utenti Ultra è stato confermato lo stesso giorno. Un accesso per gli abbonati Pro è previsto nella roadmap, senza calendario preciso. Il tweet di annuncio ha raggiunto 3 milioni di visualizzazioni.
OpenAI — Codex su Windows, ricerca CoT-Control
Codex disponibile su Windows
4 marzo 2026 — L’applicazione Codex è ora disponibile su Windows, con un sandbox di agent nativo e il supporto per ambienti di sviluppo Windows tramite PowerShell. Due nuove competenze (skills) sono disponibili: $aspnet-core per applicazioni Blazor, ASP.NET MVC e Razor Pages, e $winui-app per applicazioni Windows native con WinUI 3.
Ricerca — controllabilità della chain of thought
5 marzo 2026 — OpenAI pubblica «Les modèles de raisonnement peinent à contrôler leurs chaînes de pensée, et c’est une bonne chose» (Reasoning models struggle to control their chains of thought, and that’s good). La suite di valutazione open source CoT-Control misura la controllabilità della chain of thought di 13 modelli frontier. I punteggi variano tra 0,1 % e 15,4 %, il che indica che i modelli attuali fanno fatica a modificare deliberatamente il loro ragionamento per aggirare i sistemi di sorveglianza — risultato presentato come positivo per la sicurezza. OpenAI prevede di includere queste metriche nelle system cards dei futuri modelli.
🔗 Ricerca CoT-Control | OpenAI
Anthropic — Skill-creator e HTTP hooks
Skill-creator migliorato
3 marzo 2026 — Anthropic pubblica un aggiornamento importante del suo strumento skill-creator per Claude Code e Claude.ai. L’annuncio introduce due tipi formali di competenze (Agent Skills):
| Tipo | Descrizione | Durabilità |
|---|---|---|
| Capability uplift | Aiuta Claude a fare qualcosa che ancora non sa fare bene | Può diventare obsoleta se il modello migliora |
| Encoded preference | Codifica i processi e le preferenze di un team | Durevole, dipende dalla fedeltà al workflow reale |
Le nuove funzionalità: evals (test automatizzati) per verificare che una skill produca il risultato atteso, modalità benchmark per misurare il tasso di successo, il tempo e il consumo di tokens, e supporto multi-agent per eseguire le valutazioni in parallelo senza contaminazione incrociata tra i test. Una modalità comparatore A/B permette di confrontare due versioni di una skill. Lo skill-creator è disponibile da ora su Claude.ai e Cowork; per Claude Code si installa come plugin.
🔗 Improving skill-creator: Test, measure, and refine Agent Skills
HTTP hooks in Claude Code
4 marzo 2026 — Claude Code lancia gli HTTP hooks, un’alternativa agli existing command hooks. Invece di eseguire uno script shell locale, Claude Code invia un evento verso un URL scelto dall’utente e attende una risposta. Casi d’uso: costruire un’app web per visualizzare l’avanzamento, gestire le permission, o sincronizzare lo stato tra più istanze di Claude Code tramite un database. Gli HTTP hooks funzionano nei plugin, negli agent personalizzati e nelle impostazioni aziendali gestite.
Gemini CLI v0.32.0 — Generalist Agent di default
3 marzo 2026 — La versione 0.32.0 del Gemini CLI attiva per default il Generalist Agent per migliorare la delega e il routing dei task. L’aggiornamento porta anche il Model Steering direttamente nel workspace, miglioramenti al Plan Mode (apertura e modifica dei piani in un editor esterno, gestione della multi-selezione per task complessi), completamento automatico interattivo nella shell e il caricamento parallelo delle extension per migliori performance all’avvio.
GitHub Copilot — Memory di default, mobile e metriche
Copilot Memory attivato per default
4 marzo 2026 — GitHub attiva Copilot Memory per impostazione predefinita per tutti gli utenti dei piani Pro e Pro+. La funzionalità, precedentemente in preview su abbonamento volontario, permette a Copilot di conservare informazioni persistenti a livello di repository: convenzioni di coding, pattern architetturali, dipendenze critiche.
Le memory sono strettamente limitate a un singolo repository e validate rispetto al codice attuale prima dell’applicazione, evitando l’uso di un contesto obsoleto. Scadono automaticamente dopo 28 giorni. La funzionalità è attiva sull’agent di coding, sulla code review e sul CLI Copilot — le conoscenze scoperte da un agent sono immediatamente disponibili per gli altri. Gli utenti possono disattivare Copilot Memory nelle impostazioni (Settings > Features > Copilot Memory); gli amministratori Enterprise mantengono il controllo totale.
🔗 Copilot Memory now on by default for Pro and Pro+ users
Notifiche in tempo reale per gli agent in GitHub Mobile
4 marzo 2026 — GitHub Mobile riceve notifiche in tempo reale per le sessioni degli agent Copilot. Gli sviluppatori possono seguire l’avanzamento dei loro agent, sia che la sessione sia stata avviata da un computer sia dal telefono.
🔗 GitHub Mobile | Annuncio su X
Grok Code Fast 1 in Copilot Free Auto
4 marzo 2026 — GitHub aggiunge Grok Code Fast 1 di xAI alla selezione automatica dei modelli (Auto) di Copilot Free. Questo modello può ora essere selezionato da Copilot durante le sessioni di chat in Visual Studio Code, Visual Studio, JetBrains IDEs, Xcode ed Eclipse.
🔗 Grok Code Fast 1 in Copilot Free auto model selection
Metriche Copilot CLI a livello utente
5 marzo 2026 — GitHub estende le metriche di utilizzo di Copilot all’attività CLI a livello utente. Questo aggiornamento segue la release della settimana precedente a livello enterprise. Gli amministratori possono ora identificare gli utenti attivi sul CLI, consultare il numero di richieste e sessioni e monitorare il consumo di tokens per utente.
🔗 Copilot usage metrics — user-level CLI activity
Perplexity — GPT-5.4 e Voice Mode in Computer
GPT-5.4 Thinking disponibile su Perplexity
5 marzo 2026 — GPT-5.4 e GPT-5.4 Thinking sono ora accessibili su Perplexity per gli abbonati Pro e Max. La versione Thinking abilita il ragionamento esteso di GPT-5.4 per risposte più approfondite a richieste complesse.
Voice Mode in Perplexity Computer
4 marzo 2026 — Perplexity introduce una modalità vocale (Voice Mode) in Perplexity Computer. L’interfaccia, che permetteva già di cercare, codare e distribuire progetti, accetta ora istruzioni vocali direttamente.
Cohere × Aston Martin F1 — partnership pluriennale
4 marzo 2026 — Cohere annuncia una partnership pluriennale con la scuderia Aston Martin Aramco F1. Ogni membro del team avrà accesso ai modelli enterprise e alla piattaforma di IA agentica di Cohere (North) per lavorare in uno degli ambienti dati più esigenti dello sport mondiale. Il logo Cohere comparirà sulla monoposto a partire dal Gran Premio d’Australia 2026.
Black Forest Labs — Self-Flow, ricerca multimodale
4 marzo 2026 — Black Forest Labs (creatori di FLUX) pubblica Self-Flow in research preview. Questo approccio addestra modelli generativi multimodali (immagine, video, audio, testo) senza dipendere da modelli esterni per la rappresentazione, tramite un metodo di self-supervised flow matching.
Risultati presentati: fino a 2,8× più veloce nella convergenza cross-modale, migliore coerenza temporale nei video, resa tipografica più nitida. Le dimostrazioni includono un modello video da 4B parametri addestrato su 6M video, un modello immagine da 4B parametri addestrato su 200M immagini e un modello audio-video congiunto. BFL presenta Self-Flow come una via verso i world models: “Self-Flow opens a path toward world models: combining visual scalability with semantic abstraction for planning and understanding.”
In breve
Runway ha lanciato un hub di modelli unificati il 3 marzo, centralizzando l’accesso ai modelli di terze parti per immagine, video, audio e linguaggio direttamente nella piattaforma. 🔗 Annuncio
Claude ha raggiunto il 1° posto nell’App Store iOS in 14 paesi simultaneamente il 5 marzo — Australia, Austria, Belgio, Canada, Francia, Germania, Irlanda, Italia, Nuova Zelanda, Norvegia, Singapore, Svizzera, Regno Unito, Stati Uniti. 🔗 Tweet
Manus ha pubblicato la sua lettera annuale il 5 marzo in occasione del suo primo anniversario, mettendo in evidenza testimonianze di utenti (una madre, un linguista di 86 anni, una fiorista). 🔗 Lettera
Grok ha superato il traguardo di un milione di recensioni sull’App Store statunitense. 🔗 Tweet @grok
Cosa significa
GPT-5.4 conferma che il computer use passa dallo status sperimentale a funzionalità integrata in un modello versatile. Il punteggio del 75 % su OSWorld-Verified e la riduzione del 47 % dei tokens tramite il tool search sono misure concrete di un cambiamento di paradigma: gli agent IA possono ora operare interfacce software complesse senza infrastrutture specializzate.
Sul fronte degli strumenti per sviluppatori, la settimana mostra una convergenza: Anthropic migliora il modo di testare e supervisionare le competenze degli agent, GitHub attiva la memoria persistente per i suoi agent di coding e Perplexity aggiunge il voice mode al suo agent Computer. Gli ambienti di esecuzione agentici (agentic runtimes) si arricchiscono di livelli di memory, osservabilità (HTTP hooks, notifiche mobile) e di interazione naturale (vocale).
I Cinematic Video Overviews di NotebookLM illustrano una direzione diversa: la generazione di contenuti didattici in formato lungo a partire da fonti personali. Gemini come regista — analizzare, criticare, ricomporre — è un uso dell’IA come meta-strumento di produzione creativa, più che come semplice assistente di generazione.
Fonti - Presentazione di GPT-5.4 | OpenAI
- @OpenAI su X
- @OpenAIDevs su X — Codex per Windows
- Codex per Windows | OpenAI Developers
- Modelli di ragionamento CoT-Control | OpenAI
- Annuncio NotebookLM su X
- Migliorare skill-creator | Anthropic
- HTTP hooks Claude Code — @dickson_tsai
- Claude #1 App Store — @RyD0ne
- Registro delle modifiche Gemini CLI
- Copilot Memory ora attivata per impostazione predefinita | GitHub
- Notifiche agent in tempo reale per GitHub Mobile
- Grok Code Fast 1 ora disponibile in Copilot Free auto | GitHub
- Metriche Copilot CLI a livello utente | GitHub
- GPT-5.4 su Perplexity
- Modalità vocale Perplexity Computer
- Cohere × Aston Martin F1
- BFL Self-Flow
- Runway Hub multi-modelli
- Manus lettera di anniversario
- Grok 1M recensioni su App Store
Questo documento è stato tradotto dalla versione fr alla lingua it utilizzando il modello gpt-5-mini. Per maggiori informazioni sul processo di traduzione, consultare https://gitlab.com/jls42/ai-powered-markdown-translator