Settimana intensa per gli agenti IA
Dal 21 al 23 gennaio 2026, diversi annunci importanti riguardanti coding agents e infrastruttura. Anthropic lancia Claude in Excel e pubblica tre articoli sui sistemi multi-agente, OpenAI dettaglia l’architettura interna di Codex e la sua infrastruttura PostgreSQL, Qwen rende open-source il suo modello text-to-speech, e Runway aggiunge Image to Video a Gen-4.5.
Anthropic: Claude in Excel e Claude Code
Claude in Excel
23 gennaio — Claude è ora disponibile in Microsoft Excel in beta. L’integrazione permette di analizzare intere cartelle di lavoro Excel con le loro formule nidificate e dipendenze tra schede.
Funzionalità:
- Comprensione dell’intera cartella di lavoro (formule, dipendenze multi-scheda)
- Spiegazioni con citazioni a livello di cella
- Aggiornamento delle ipotesi preservando le formule
Disponibile per gli abbonati Claude Pro, Max, Team ed Enterprise.
Claude Code v2.1.19: sistema Tasks
23 gennaio — La versione 2.1.19 introduce Tasks, un nuovo sistema di gestione delle attività per progetti complessi multi-sessione.
We’re turning Todos into Tasks in Claude Code. Tasks are a new primitive that help Claude Code track and complete more complicated projects and collaborate on them across multiple sessions or subagents.
🇮🇹 Stiamo trasformando i Todos in Tasks in Claude Code. I Tasks sono una nuova primitiva che aiuta Claude Code a tracciare e completare progetti più complicati e collaborare su di essi attraverso più sessioni o sotto-agenti. — Thariq (@trq212), team Claude Code Anthropic
Funzionalità Tasks:
| Aspetto | Dettaglio |
|---|---|
| Archiviazione | ~/.claude/tasks (file, permette di costruire strumenti sopra) |
| Collaborazione | CLAUDE_CODE_TASK_LIST_ID=nome claude per condividere tra sessioni |
| Dipendenze | Tasks con dipendenze e blocchi memorizzati nei metadati |
| Broadcast | Aggiornamento di un Task trasmesso a tutte le sessioni sulla stessa Task List |
| Compatibilità | Funziona con claude -p e AgentSDK |
A cosa serve: Su un progetto complesso (refactoring multi-file, migrazione, funzionalità lunga), Claude può suddividere il lavoro in tasks, tracciare cosa è fatto e cosa rimane. I tasks sono persistenti su disco — sopravvivono alla compattazione del contesto, alla chiusura della sessione e al riavvio. Più sessioni o sotto-agenti possono collaborare sulla stessa lista di attività in tempo reale.
In pratica: Claude crea tasks (TaskCreate), li elenca (TaskList), e aggiorna il loro stato (TaskUpdate: pending → in_progress → completed). Esempio su un refactoring di autenticazione:
#1 [completed] Migrare lo storage di sessione su Redis
#2 [in_progress] Implementare la rotazione dei refresh token
#3 [pending] Aggiungere test di integrazione OAuth
#4 [pending] Aggiornare la documentazione API
I tasks sono memorizzati in ~/.claude/tasks/ e possono essere condivisi tra sessioni via CLAUDE_CODE_TASK_LIST_ID.
Altre novità v2.1.19:
- Abbreviazione
$0,$1per argomenti nei comandi personalizzati - VSCode session forking e riavvolgimento per tutti
- Skills senza permessi vengono eseguite senza approvazione
CLAUDE_CODE_ENABLE_TASKS=falseper disabilitare temporaneamente
🔗 CHANGELOG Claude Code | Thread @trq212
Claude Code v2.1.18: scorciatoie da tastiera personalizzabili
Versione precedente che aggiunge la possibilità di configurare scorciatoie da tastiera per contesto e creare sequenze chord.
Comando: /keybindings
⚠️ Nota: Questa funzionalità è attualmente in anteprima e non è disponibile per tutti gli utenti.
Petri 2.0: audit di allineamento automatizzati
22 gennaio — Anthropic pubblica Petri 2.0, un aggiornamento del suo strumento di audit comportamentale automatizzato per modelli linguistici.
A cosa serve: Petri testa se un LLM potrebbe comportarsi in modo problematico — manipolazione, inganno, aggiramento delle regole. Lo strumento genera scenari realistici e osserva le risposte del modello per rilevare comportamenti indesiderati prima che si verifichino in produzione.
| Miglioramento | Descrizione |
|---|---|
| 70 nuovi scenari | Libreria di seed estesa per coprire più casi limite |
| Mitigazioni eval-awareness | Il modello non deve sapere di essere testato — altrimenti adatta il suo comportamento. Petri 2.0 migliora il realismo degli scenari per evitare questa rilevazione. |
| Confronti frontier | Risultati di valutazione per modelli recenti (Claude, GPT, Gemini) |
Blog: quando usare (o meno) sistemi multi-agente
23 gennaio — Anthropic pubblica una guida pragmatica sulle architetture multi-agente. Il messaggio principale: non usare multi-agente per impostazione predefinita.
We’ve seen teams invest months building elaborate multi-agent architectures only to discover that improved prompting on a single agent achieved equivalent results.
🇮🇹 Abbiamo visto team investire mesi costruendo elaborate architetture multi-agente solo per scoprire che un prompting migliorato su un singolo agente otteneva risultati equivalenti.
L’articolo identifica 3 casi in cui multi-agente porta davvero valore:
| Caso | Problema | Soluzione multi-agente |
|---|---|---|
| Inquinamento del contesto | Un agente genera dati voluminosi di cui solo un riassunto è utile in seguito | Un sotto-agente recupera 2000 token di cronologia, restituisce solo “ordine consegnato” all’agente principale |
| Parallelizzazione | Più ricerche indipendenti da fare | Lanciare 5 agenti in parallelo su 5 fonti diverse invece di processarli sequenzialmente |
| Specializzazione | Troppi strumenti (20+) in un singolo agente degradano la sua capacità di scegliere quello giusto | Separare in agenti specializzati: uno per CRM, uno per marketing, uno per messaggistica |
La trappola da evitare: Dividere per tipo di lavoro (un agente pianifica, un altro implementa, un altro testa). Ogni passaggio perde contesto e degrada la qualità. È meglio che un singolo agente gestisca una funzionalità dall’inizio alla fine.
Costo reale: 3-10x più token di un singolo agente per lo stesso compito.
Altri articoli della serie:
Building agents with Skills (22 gen)
Invece di costruire agenti specializzati per dominio, Anthropic propone di costruire skills: collezioni di file (flussi di lavoro, script, best practice) che un agente generalista carica su richiesta.
Divulgazione progressiva in 3 livelli:
| Livello | Contenuto | Dimensione |
|---|---|---|
| 1 | Metadati (nome, descrizione) | ~50 token |
| 2 | File SKILL.md completo | ~500 token |
| 3 | Documentazione di riferimento | 2000+ token |
Ogni livello viene caricato solo se necessario. Risultato: un agente può avere centinaia di skills senza saturare il suo contesto.
Eight trends 2026 (21 gen)
Anthropic identifica 8 trend per lo sviluppo software nel 2026.
Messaggio chiave: Gli ingegneri passano dallo scrivere codice al coordinare agenti che scrivono codice.
Sfumatura importante: L’IA viene utilizzata nel ~60% del lavoro, ma solo lo 0-20% può essere completamente delegato — la supervisione umana rimane essenziale.
| Azienda | Risultato |
|---|---|
| Rakuten | Claude Code su codebase vLLM (12.5M righe), 7h di lavoro autonomo |
| TELUS | 30% più veloce, 500k ore risparmiate |
| Zapier | 89% adozione IA, 800+ agenti interni |
OpenAI: architettura Codex e infrastruttura
Unrolling the Codex agent loop
23 gennaio — OpenAI apre le quinte di Codex CLI. Primo articolo di una serie sul funzionamento interno del loro agente software.
Cosa impariamo:
Il loop dell’agente è semplice in teoria: l’utente invia una richiesta → il modello genera una risposta o richiede uno strumento → l’agente esegue lo strumento → il modello riprende con il risultato → fino a una risposta finale. In pratica, le sottigliezze sono nella gestione del contesto.
Prompt caching — la chiave delle prestazioni:
Ogni turno di conversazione aggiunge contenuto al prompt. Senza ottimizzazione, è quadratico in token inviati. Il prompt caching permette di riutilizzare i calcoli dei turni precedenti. Condizione: il nuovo prompt deve essere un prefisso esatto di quello vecchio. OpenAI dettaglia le insidie che rompono la cache (cambiare l’ordine degli strumenti MCP, modificare la configurazione a metà conversazione).
Compattazione automatica:
Quando il contesto supera una soglia, Codex chiama /responses/compact che restituisce una versione compressa della conversazione. Il modello mantiene una comprensione latente via un encrypted_content opaco.
Zero Data Retention (ZDR):
Per i clienti che non vogliono che i loro dati siano memorizzati, encrypted_content permette di preservare il ragionamento del modello tra i turni senza memorizzare dati lato server.
Primo articolo di una serie — i prossimi copriranno l’architettura CLI, l’implementazione degli strumenti e il sandboxing.
🔗 Unrolling the Codex agent loop | Codex GitHub
Scaling PostgreSQL: 800 milioni di utenti ChatGPT
22 gennaio — OpenAI dettaglia come PostgreSQL alimenta ChatGPT e l’API per 800 milioni di utenti con milioni di richieste al secondo.
| Metrica | Valore |
|---|---|
| Utenti | 800 milioni |
| Throughput | Milioni di QPS |
| Repliche | ~50 read replicas multi-regione |
| Latenza p99 | Doppia cifra ms lato client |
| Disponibilità | Five-nines (99.999%) |
Architettura:
- Single primary Azure PostgreSQL flexible server
- PgBouncer per connection pooling (latenza connessione: 50ms → 5ms)
- Carichi di lavoro write-heavy migrati su Azure Cosmos DB
- Cache locking per proteggere da tempeste di cache miss
- Replicazione a cascata in test per superare 100 repliche
Unico SEV-0 PostgreSQL negli ultimi 12 mesi: durante il lancio virale di ChatGPT ImageGen (100M nuovi utenti in una settimana, traffico di scrittura x10).
Qwen: Qwen3-TTS open-source
22-23 gennaio — Alibaba rilascia Qwen3-TTS in open-source con licenza Apache 2.0.
| Caratteristica | Dettaglio |
|---|---|
| Licenza | Apache 2.0 |
| Voice cloning | Sì |
| Supporto MLX-Audio | Disponibile |
Installazione:
uv pip install -U mlx-audio --prerelease=allow
Runway: Gen-4.5 Image to Video
21 gennaio — Runway aggiunge la funzionalità Image to Video a Gen-4.5.
| Funzionalità | Descrizione |
|---|---|
| Image to Video | Trasformazione di un’immagine in video cinematico |
| Camera control | Controllo preciso della telecamera |
| Coherent narratives | Narrazioni coerenti nel tempo |
| Character consistency | Personaggi che rimangono coerenti |
Disponibile per tutti i piani a pagamento Runway. Promo temporanea: 15% di sconto.
Cosa significa
Questa settimana segna una maturazione degli strumenti di coding agents. I due giganti (Anthropic e OpenAI) pubblicano documentazioni tecniche dettagliate sull’architettura dei loro agenti — segno che il mercato passa dalla fase “demo” alla fase “produzione”.
Dal lato infrastruttura, l’articolo PostgreSQL di OpenAI mostra che un’architettura single-primary può reggere su scala di centinaia di milioni di utenti con le giuste ottimizzazioni.
L’arrivo di Claude in Excel apre un nuovo fronte: l’IA integrata direttamente negli strumenti di produttività quotidiani.