Notizie IA 23 Gen 2026: Claude in Excel, Tasks Claude Code, Codex Agent Loop

Settimana intensa per gli agenti IA

Dal 21 al 23 gennaio 2026, diversi annunci importanti riguardanti coding agents e infrastruttura. Anthropic lancia Claude in Excel e pubblica tre articoli sui sistemi multi-agente, OpenAI dettaglia l’architettura interna di Codex e la sua infrastruttura PostgreSQL, Qwen rende open-source il suo modello text-to-speech, e Runway aggiunge Image to Video a Gen-4.5.

Anthropic: Claude in Excel e Claude Code

Claude in Excel

23 gennaio — Claude è ora disponibile in Microsoft Excel in beta. L’integrazione permette di analizzare intere cartelle di lavoro Excel con le loro formule nidificate e dipendenze tra schede.

Funzionalità:

Comprensione dell’intera cartella di lavoro (formule, dipendenze multi-scheda)
Spiegazioni con citazioni a livello di cella
Aggiornamento delle ipotesi preservando le formule

Disponibile per gli abbonati Claude Pro, Max, Team ed Enterprise.

🔗 Claude in Excel

Claude Code v2.1.19: sistema Tasks

23 gennaio — La versione 2.1.19 introduce Tasks, un nuovo sistema di gestione delle attività per progetti complessi multi-sessione.

We’re turning Todos into Tasks in Claude Code. Tasks are a new primitive that help Claude Code track and complete more complicated projects and collaborate on them across multiple sessions or subagents.

🇮🇹 Stiamo trasformando i Todos in Tasks in Claude Code. I Tasks sono una nuova primitiva che aiuta Claude Code a tracciare e completare progetti più complicati e collaborare su di essi attraverso più sessioni o sotto-agenti. — Thariq (@trq212), team Claude Code Anthropic

Funzionalità Tasks:

Aspetto	Dettaglio
Archiviazione	`~/.claude/tasks` (file, permette di costruire strumenti sopra)
Collaborazione	`CLAUDE_CODE_TASK_LIST_ID=nome claude` per condividere tra sessioni
Dipendenze	Tasks con dipendenze e blocchi memorizzati nei metadati
Broadcast	Aggiornamento di un Task trasmesso a tutte le sessioni sulla stessa Task List
Compatibilità	Funziona con `claude -p` e AgentSDK

A cosa serve: Su un progetto complesso (refactoring multi-file, migrazione, funzionalità lunga), Claude può suddividere il lavoro in tasks, tracciare cosa è fatto e cosa rimane. I tasks sono persistenti su disco — sopravvivono alla compattazione del contesto, alla chiusura della sessione e al riavvio. Più sessioni o sotto-agenti possono collaborare sulla stessa lista di attività in tempo reale.

In pratica: Claude crea tasks (TaskCreate), li elenca (TaskList), e aggiorna il loro stato (TaskUpdate: pending → in_progress → completed). Esempio su un refactoring di autenticazione:

#1 [completed] Migrare lo storage di sessione su Redis
#2 [in_progress] Implementare la rotazione dei refresh token
#3 [pending] Aggiungere test di integrazione OAuth
#4 [pending] Aggiornare la documentazione API

I tasks sono memorizzati in ~/.claude/tasks/ e possono essere condivisi tra sessioni via CLAUDE_CODE_TASK_LIST_ID.

Altre novità v2.1.19:

Abbreviazione $0, $1 per argomenti nei comandi personalizzati
VSCode session forking e riavvolgimento per tutti
Skills senza permessi vengono eseguite senza approvazione
CLAUDE_CODE_ENABLE_TASKS=false per disabilitare temporaneamente

🔗 CHANGELOG Claude Code | Thread @trq212

Claude Code v2.1.18: scorciatoie da tastiera personalizzabili

Versione precedente che aggiunge la possibilità di configurare scorciatoie da tastiera per contesto e creare sequenze chord.

Comando: /keybindings

⚠️ Nota: Questa funzionalità è attualmente in anteprima e non è disponibile per tutti gli utenti.

🔗 Documentazione Keybindings

Petri 2.0: audit di allineamento automatizzati

22 gennaio — Anthropic pubblica Petri 2.0, un aggiornamento del suo strumento di audit comportamentale automatizzato per modelli linguistici.

A cosa serve: Petri testa se un LLM potrebbe comportarsi in modo problematico — manipolazione, inganno, aggiramento delle regole. Lo strumento genera scenari realistici e osserva le risposte del modello per rilevare comportamenti indesiderati prima che si verifichino in produzione.

Miglioramento	Descrizione
70 nuovi scenari	Libreria di seed estesa per coprire più casi limite
Mitigazioni eval-awareness	Il modello non deve sapere di essere testato — altrimenti adatta il suo comportamento. Petri 2.0 migliora il realismo degli scenari per evitare questa rilevazione.
Confronti frontier	Risultati di valutazione per modelli recenti (Claude, GPT, Gemini)

🔗 Petri 2.0 | GitHub

Blog: quando usare (o meno) sistemi multi-agente

23 gennaio — Anthropic pubblica una guida pragmatica sulle architetture multi-agente. Il messaggio principale: non usare multi-agente per impostazione predefinita.

We’ve seen teams invest months building elaborate multi-agent architectures only to discover that improved prompting on a single agent achieved equivalent results.

🇮🇹 Abbiamo visto team investire mesi costruendo elaborate architetture multi-agente solo per scoprire che un prompting migliorato su un singolo agente otteneva risultati equivalenti.

L’articolo identifica 3 casi in cui multi-agente porta davvero valore:

Caso	Problema	Soluzione multi-agente
Inquinamento del contesto	Un agente genera dati voluminosi di cui solo un riassunto è utile in seguito	Un sotto-agente recupera 2000 token di cronologia, restituisce solo “ordine consegnato” all’agente principale
Parallelizzazione	Più ricerche indipendenti da fare	Lanciare 5 agenti in parallelo su 5 fonti diverse invece di processarli sequenzialmente
Specializzazione	Troppi strumenti (20+) in un singolo agente degradano la sua capacità di scegliere quello giusto	Separare in agenti specializzati: uno per CRM, uno per marketing, uno per messaggistica

La trappola da evitare: Dividere per tipo di lavoro (un agente pianifica, un altro implementa, un altro testa). Ogni passaggio perde contesto e degrada la qualità. È meglio che un singolo agente gestisca una funzionalità dall’inizio alla fine.

Costo reale: 3-10x più token di un singolo agente per lo stesso compito.

Altri articoli della serie:

Building agents with Skills (22 gen)

Invece di costruire agenti specializzati per dominio, Anthropic propone di costruire skills: collezioni di file (flussi di lavoro, script, best practice) che un agente generalista carica su richiesta.

Divulgazione progressiva in 3 livelli:

Livello	Contenuto	Dimensione
1	Metadati (nome, descrizione)	~50 token
2	File SKILL.md completo	~500 token
3	Documentazione di riferimento	2000+ token

Ogni livello viene caricato solo se necessario. Risultato: un agente può avere centinaia di skills senza saturare il suo contesto.

🔗 Building agents with Skills

Eight trends 2026 (21 gen)

Anthropic identifica 8 trend per lo sviluppo software nel 2026.

Messaggio chiave: Gli ingegneri passano dallo scrivere codice al coordinare agenti che scrivono codice.

Sfumatura importante: L’IA viene utilizzata nel ~60% del lavoro, ma solo lo 0-20% può essere completamente delegato — la supervisione umana rimane essenziale.

Azienda	Risultato
Rakuten	Claude Code su codebase vLLM (12.5M righe), 7h di lavoro autonomo
TELUS	30% più veloce, 500k ore risparmiate
Zapier	89% adozione IA, 800+ agenti interni

🔗 Eight trends 2026

OpenAI: architettura Codex e infrastruttura

Unrolling the Codex agent loop

23 gennaio — OpenAI apre le quinte di Codex CLI. Primo articolo di una serie sul funzionamento interno del loro agente software.

Cosa impariamo:

Il loop dell’agente è semplice in teoria: l’utente invia una richiesta → il modello genera una risposta o richiede uno strumento → l’agente esegue lo strumento → il modello riprende con il risultato → fino a una risposta finale. In pratica, le sottigliezze sono nella gestione del contesto.

Prompt caching — la chiave delle prestazioni:

Ogni turno di conversazione aggiunge contenuto al prompt. Senza ottimizzazione, è quadratico in token inviati. Il prompt caching permette di riutilizzare i calcoli dei turni precedenti. Condizione: il nuovo prompt deve essere un prefisso esatto di quello vecchio. OpenAI dettaglia le insidie che rompono la cache (cambiare l’ordine degli strumenti MCP, modificare la configurazione a metà conversazione).

Compattazione automatica:

Quando il contesto supera una soglia, Codex chiama /responses/compact che restituisce una versione compressa della conversazione. Il modello mantiene una comprensione latente via un encrypted_content opaco.

Zero Data Retention (ZDR):

Per i clienti che non vogliono che i loro dati siano memorizzati, encrypted_content permette di preservare il ragionamento del modello tra i turni senza memorizzare dati lato server.

Primo articolo di una serie — i prossimi copriranno l’architettura CLI, l’implementazione degli strumenti e il sandboxing.

🔗 Unrolling the Codex agent loop | Codex GitHub

Scaling PostgreSQL: 800 milioni di utenti ChatGPT

22 gennaio — OpenAI dettaglia come PostgreSQL alimenta ChatGPT e l’API per 800 milioni di utenti con milioni di richieste al secondo.

Metrica	Valore
Utenti	800 milioni
Throughput	Milioni di QPS
Repliche	~50 read replicas multi-regione
Latenza p99	Doppia cifra ms lato client
Disponibilità	Five-nines (99.999%)

Architettura:

Single primary Azure PostgreSQL flexible server
PgBouncer per connection pooling (latenza connessione: 50ms → 5ms)
Carichi di lavoro write-heavy migrati su Azure Cosmos DB
Cache locking per proteggere da tempeste di cache miss
Replicazione a cascata in test per superare 100 repliche

Unico SEV-0 PostgreSQL negli ultimi 12 mesi: durante il lancio virale di ChatGPT ImageGen (100M nuovi utenti in una settimana, traffico di scrittura x10).

🔗 Scaling PostgreSQL

Qwen: Qwen3-TTS open-source

22-23 gennaio — Alibaba rilascia Qwen3-TTS in open-source con licenza Apache 2.0.

Caratteristica	Dettaglio
Licenza	Apache 2.0
Voice cloning	Sì
Supporto MLX-Audio	Disponibile

Installazione:

uv pip install -U mlx-audio --prerelease=allow

🔗 Qwen3-TTS su X

Runway: Gen-4.5 Image to Video

21 gennaio — Runway aggiunge la funzionalità Image to Video a Gen-4.5.

Funzionalità	Descrizione
Image to Video	Trasformazione di un’immagine in video cinematico
Camera control	Controllo preciso della telecamera
Coherent narratives	Narrazioni coerenti nel tempo
Character consistency	Personaggi che rimangono coerenti

Disponibile per tutti i piani a pagamento Runway. Promo temporanea: 15% di sconto.

🔗 Runway su X

Cosa significa

Questa settimana segna una maturazione degli strumenti di coding agents. I due giganti (Anthropic e OpenAI) pubblicano documentazioni tecniche dettagliate sull’architettura dei loro agenti — segno che il mercato passa dalla fase “demo” alla fase “produzione”.

Dal lato infrastruttura, l’articolo PostgreSQL di OpenAI mostra che un’architettura single-primary può reggere su scala di centinaia di milioni di utenti con le giuste ottimizzazioni.

L’arrivo di Claude in Excel apre un nuovo fronte: l’IA integrata direttamente negli strumenti di produttività quotidiani.