GPT-5.4 con computer use nativo, NotebookLM Cinematic Videos, Codex su Windows

La settimana si chiude con diverse annunci significativi: GPT-5.4 di OpenAI consolida il computer use nativo con il 75% su OSWorld e una finestra di contesto da un milione di tokens, NotebookLM introduce i Cinematic Video Overviews dove Gemini agisce come regista, e Codex estende il supporto a Windows con un sandbox nativo. Sul fronte degli strumenti per sviluppatori, Anthropic migliora lo skill-creator e lancia gli HTTP hooks in Claude Code, mentre GitHub attiva Copilot Memory per impostazione predefinita.

GPT-5.4 — computer use nativo, 1M tokens, tool di ricerca

5 marzo 2026 — OpenAI lancia GPT-5.4, il suo modello frontier per il lavoro professionale. Disponibile in ChatGPT (con il nome GPT-5.4 Thinking), nell’API (identificatore gpt-5.4) e in Codex, questo modello consolida in un’unica architettura le capacità di ragionamento, di coding e i flussi di lavoro agentici (agentic workflows) introdotti nei modelli precedenti.

La novità tecnica più significativa è l’integrazione nativa del computer use: GPT-5.4 può interagire con interfacce grafiche tramite screenshot e tastiera/mouse senza plugin di terze parti. Su OSWorld-Verified — il benchmark di riferimento per l’interazione con interfacce software reali — GPT-5.4 raggiunge 75,0 %, contro il 47,3 % di GPT-5.2. La finestra di contesto sale a 1 milione di tokens in Codex e nell’API.

Un’altra novità rilevante è il tool search: invece di ricevere l’intera lista di tool disponibili a ogni chiamata, il modello riceve una lista leggera e ricerca gli strumenti su richiesta. OpenAI segnala una riduzione del 47 % nel consumo di tokens nei workflow con molti tool (testato su Scale MCP Atlas). La modalità /fast in Codex guadagna 1,5× in velocità a parità di intelligenza.

Benchmark :

Évaluation	GPT-5.4	GPT-5.3-Codex	GPT-5.2
GDPval (lavoro professionale)	83,0 %	70,9 %	70,9 %
SWE-Bench Pro	57,7 %	56,8 %	55,6 %
OSWorld-Verified (computer use)	75,0 %	74,0 %	47,3 %
BrowseComp (ricerca web)	82,7 %	77,3 %	65,8 %
Toolathlon (uso di strumenti)	54,6 %	51,9 %	46,3 %
ARC-AGI-2 (ragionamento astratto)	73,3 %	—	52,9 %

Tariffe API :

Modello	Input	Output
gpt-5.2	1,75 $ / M tokens	14 $ / M tokens
gpt-5.4	2,50 $ / M tokens	15 $ / M tokens
gpt-5.2-pro	21 $ / M tokens	168 $ / M tokens
gpt-5.4-pro	30 $ / M tokens	180 $ / M tokens

GPT-5.4 Thinking è accessibile da oggi agli abbonati ChatGPT Plus, Team e Pro. GPT-5.2 Thinking resterà disponibile nella sezione «Legacy Models» fino al 5 giugno 2026. Sul piano della sicurezza, OpenAI classifica GPT-5.4 come «High cyber capability» nel suo Preparedness Framework. L’azienda pubblica contemporaneamente CoT-Control, una suite di valutazione open source che misura la controllabilità della chain of thought di 13 modelli frontier — i punteggi, bassi (0,1 % a 15,4 %), indicano che il monitoraggio delle chain of thought rimane uno strumento di sicurezza affidabile.

🔗 Presentazione di GPT-5.4 | OpenAI

NotebookLM — Cinematic Video Overviews

4 marzo 2026 — NotebookLM introduce i Cinematic Video Overviews nel suo Studio. Questi video vanno oltre gli Audio Overviews (formato podcast) lanciati nel 2024 e i template video standard.

Il principio: Gemini è posizionato come regista. Il modello analizza le fonti dell’utente, decide il formato più adatto (tutorial, documentario, ecc.), sceglie uno stile visivo, genera le immagini e poi le autocritica prima di produrre la versione finale. Il risultato è un video immersivo e personalizzato, unico per ogni insieme di fonti.

La funzionalità è disponibile per gli abbonati Google AI Ultra, in inglese, dal 4 marzo 2026. Il rollout completo agli utenti Ultra è stato confermato lo stesso giorno. Un accesso per gli abbonati Pro è previsto nella roadmap, senza calendario preciso. Il tweet di annuncio ha raggiunto 3 milioni di visualizzazioni.

🔗 Annuncio di NotebookLM su X

OpenAI — Codex su Windows, ricerca CoT-Control

Codex disponibile su Windows

4 marzo 2026 — L’applicazione Codex è ora disponibile su Windows, con un sandbox di agent nativo e il supporto per ambienti di sviluppo Windows tramite PowerShell. Due nuove competenze (skills) sono disponibili: $aspnet-core per applicazioni Blazor, ASP.NET MVC e Razor Pages, e $winui-app per applicazioni Windows native con WinUI 3.

🔗 @OpenAIDevs su X

Ricerca — controllabilità della chain of thought

5 marzo 2026 — OpenAI pubblica «Les modèles de raisonnement peinent à contrôler leurs chaînes de pensée, et c’est une bonne chose» (Reasoning models struggle to control their chains of thought, and that’s good). La suite di valutazione open source CoT-Control misura la controllabilità della chain of thought di 13 modelli frontier. I punteggi variano tra 0,1 % e 15,4 %, il che indica che i modelli attuali fanno fatica a modificare deliberatamente il loro ragionamento per aggirare i sistemi di sorveglianza — risultato presentato come positivo per la sicurezza. OpenAI prevede di includere queste metriche nelle system cards dei futuri modelli.

🔗 Ricerca CoT-Control | OpenAI

Anthropic — Skill-creator e HTTP hooks

Skill-creator migliorato

3 marzo 2026 — Anthropic pubblica un aggiornamento importante del suo strumento skill-creator per Claude Code e Claude.ai. L’annuncio introduce due tipi formali di competenze (Agent Skills):

Tipo	Descrizione	Durabilità
Capability uplift	Aiuta Claude a fare qualcosa che ancora non sa fare bene	Può diventare obsoleta se il modello migliora
Encoded preference	Codifica i processi e le preferenze di un team	Durevole, dipende dalla fedeltà al workflow reale

Le nuove funzionalità: evals (test automatizzati) per verificare che una skill produca il risultato atteso, modalità benchmark per misurare il tasso di successo, il tempo e il consumo di tokens, e supporto multi-agent per eseguire le valutazioni in parallelo senza contaminazione incrociata tra i test. Una modalità comparatore A/B permette di confrontare due versioni di una skill. Lo skill-creator è disponibile da ora su Claude.ai e Cowork; per Claude Code si installa come plugin.

🔗 Improving skill-creator: Test, measure, and refine Agent Skills

HTTP hooks in Claude Code

4 marzo 2026 — Claude Code lancia gli HTTP hooks, un’alternativa agli existing command hooks. Invece di eseguire uno script shell locale, Claude Code invia un evento verso un URL scelto dall’utente e attende una risposta. Casi d’uso: costruire un’app web per visualizzare l’avanzamento, gestire le permission, o sincronizzare lo stato tra più istanze di Claude Code tramite un database. Gli HTTP hooks funzionano nei plugin, negli agent personalizzati e nelle impostazioni aziendali gestite.

🔗 Tweet @dickson_tsai

Gemini CLI v0.32.0 — Generalist Agent di default

3 marzo 2026 — La versione 0.32.0 del Gemini CLI attiva per default il Generalist Agent per migliorare la delega e il routing dei task. L’aggiornamento porta anche il Model Steering direttamente nel workspace, miglioramenti al Plan Mode (apertura e modifica dei piani in un editor esterno, gestione della multi-selezione per task complessi), completamento automatico interattivo nella shell e il caricamento parallelo delle extension per migliori performance all’avvio.

🔗 Changelog Gemini CLI

GitHub Copilot — Memory di default, mobile e metriche

Copilot Memory attivato per default

4 marzo 2026 — GitHub attiva Copilot Memory per impostazione predefinita per tutti gli utenti dei piani Pro e Pro+. La funzionalità, precedentemente in preview su abbonamento volontario, permette a Copilot di conservare informazioni persistenti a livello di repository: convenzioni di coding, pattern architetturali, dipendenze critiche.

Le memory sono strettamente limitate a un singolo repository e validate rispetto al codice attuale prima dell’applicazione, evitando l’uso di un contesto obsoleto. Scadono automaticamente dopo 28 giorni. La funzionalità è attiva sull’agent di coding, sulla code review e sul CLI Copilot — le conoscenze scoperte da un agent sono immediatamente disponibili per gli altri. Gli utenti possono disattivare Copilot Memory nelle impostazioni (Settings > Features > Copilot Memory); gli amministratori Enterprise mantengono il controllo totale.

🔗 Copilot Memory now on by default for Pro and Pro+ users

Notifiche in tempo reale per gli agent in GitHub Mobile

4 marzo 2026 — GitHub Mobile riceve notifiche in tempo reale per le sessioni degli agent Copilot. Gli sviluppatori possono seguire l’avanzamento dei loro agent, sia che la sessione sia stata avviata da un computer sia dal telefono.

🔗 GitHub Mobile | Annuncio su X

Grok Code Fast 1 in Copilot Free Auto

4 marzo 2026 — GitHub aggiunge Grok Code Fast 1 di xAI alla selezione automatica dei modelli (Auto) di Copilot Free. Questo modello può ora essere selezionato da Copilot durante le sessioni di chat in Visual Studio Code, Visual Studio, JetBrains IDEs, Xcode ed Eclipse.

🔗 Grok Code Fast 1 in Copilot Free auto model selection

Metriche Copilot CLI a livello utente

5 marzo 2026 — GitHub estende le metriche di utilizzo di Copilot all’attività CLI a livello utente. Questo aggiornamento segue la release della settimana precedente a livello enterprise. Gli amministratori possono ora identificare gli utenti attivi sul CLI, consultare il numero di richieste e sessioni e monitorare il consumo di tokens per utente.

🔗 Copilot usage metrics — user-level CLI activity

Perplexity — GPT-5.4 e Voice Mode in Computer

GPT-5.4 Thinking disponibile su Perplexity

5 marzo 2026 — GPT-5.4 e GPT-5.4 Thinking sono ora accessibili su Perplexity per gli abbonati Pro e Max. La versione Thinking abilita il ragionamento esteso di GPT-5.4 per risposte più approfondite a richieste complesse.

🔗 Annuncio su X

Voice Mode in Perplexity Computer

4 marzo 2026 — Perplexity introduce una modalità vocale (Voice Mode) in Perplexity Computer. L’interfaccia, che permetteva già di cercare, codare e distribuire progetti, accetta ora istruzioni vocali direttamente.

🔗 Annuncio su X

Cohere × Aston Martin F1 — partnership pluriennale

4 marzo 2026 — Cohere annuncia una partnership pluriennale con la scuderia Aston Martin Aramco F1. Ogni membro del team avrà accesso ai modelli enterprise e alla piattaforma di IA agentica di Cohere (North) per lavorare in uno degli ambienti dati più esigenti dello sport mondiale. Il logo Cohere comparirà sulla monoposto a partire dal Gran Premio d’Australia 2026.

🔗 Annuncio Cohere su X

Black Forest Labs — Self-Flow, ricerca multimodale

4 marzo 2026 — Black Forest Labs (creatori di FLUX) pubblica Self-Flow in research preview. Questo approccio addestra modelli generativi multimodali (immagine, video, audio, testo) senza dipendere da modelli esterni per la rappresentazione, tramite un metodo di self-supervised flow matching.

Risultati presentati: fino a 2,8× più veloce nella convergenza cross-modale, migliore coerenza temporale nei video, resa tipografica più nitida. Le dimostrazioni includono un modello video da 4B parametri addestrato su 6M video, un modello immagine da 4B parametri addestrato su 200M immagini e un modello audio-video congiunto. BFL presenta Self-Flow come una via verso i world models: “Self-Flow opens a path toward world models: combining visual scalability with semantic abstraction for planning and understanding.”

🔗 Tweet @bfl_ml

In breve

Runway ha lanciato un hub di modelli unificati il 3 marzo, centralizzando l’accesso ai modelli di terze parti per immagine, video, audio e linguaggio direttamente nella piattaforma. 🔗 Annuncio

Claude ha raggiunto il 1° posto nell’App Store iOS in 14 paesi simultaneamente il 5 marzo — Australia, Austria, Belgio, Canada, Francia, Germania, Irlanda, Italia, Nuova Zelanda, Norvegia, Singapore, Svizzera, Regno Unito, Stati Uniti. 🔗 Tweet

Manus ha pubblicato la sua lettera annuale il 5 marzo in occasione del suo primo anniversario, mettendo in evidenza testimonianze di utenti (una madre, un linguista di 86 anni, una fiorista). 🔗 Lettera

Grok ha superato il traguardo di un milione di recensioni sull’App Store statunitense. 🔗 Tweet @grok

Cosa significa

GPT-5.4 conferma che il computer use passa dallo status sperimentale a funzionalità integrata in un modello versatile. Il punteggio del 75 % su OSWorld-Verified e la riduzione del 47 % dei tokens tramite il tool search sono misure concrete di un cambiamento di paradigma: gli agent IA possono ora operare interfacce software complesse senza infrastrutture specializzate.

Sul fronte degli strumenti per sviluppatori, la settimana mostra una convergenza: Anthropic migliora il modo di testare e supervisionare le competenze degli agent, GitHub attiva la memoria persistente per i suoi agent di coding e Perplexity aggiunge il voice mode al suo agent Computer. Gli ambienti di esecuzione agentici (agentic runtimes) si arricchiscono di livelli di memory, osservabilità (HTTP hooks, notifiche mobile) e di interazione naturale (vocale).

I Cinematic Video Overviews di NotebookLM illustrano una direzione diversa: la generazione di contenuti didattici in formato lungo a partire da fonti personali. Gemini come regista — analizzare, criticare, ricomporre — è un uso dell’IA come meta-strumento di produzione creativa, più che come semplice assistente di generazione.

Fonti - Presentazione di GPT-5.4 | OpenAI

Questo documento è stato tradotto dalla versione fr alla lingua it utilizzando il modello gpt-5-mini. Per maggiori informazioni sul processo di traduzione, consultare https://gitlab.com/jls42/ai-powered-markdown-translator