Doppio lancio al vertice: Anthropic rilascia Claude Opus 4.6 con contesto da 1M token e agent teams, mentre OpenAI risponde con GPT-5.3-Codex e una piattaforma enterprise. Google spinge Gemini 3 su tutti i fronti, e GitHub risponde finalmente a una richiesta vecchia di 8 anni.
Claude Opus 4.6: SOTA in agentic coding e contesto 1M
5 febbraio — Anthropic lancia Claude Opus 4.6, un aggiornamento importante del suo modello più intelligente. Il modello progredisce in pianificazione, sessioni lunghe, revisione del codice, e offre per la prima volta un contesto di 1 milione di token in beta per un modello Opus.
| Benchmark | Punteggio | Dettaglio |
|---|---|---|
| Terminal-Bench 2.0 | SOTA | Punteggio più alto in agentic coding |
| Humanity’s Last Exam | SOTA | Ragionamento multidisciplinare |
| GDPval-AA | +144 Elo vs GPT-5.2 | Lavoro professionale (finanza, legale) |
| BrowseComp | SOTA | Recupero di informazioni complesse |
| MRCR v2 (8-needle 1M) | 76% | vs 18.5% per Sonnet 4.5 |
Novità API e prodotto
| Funzionalità | Descrizione |
|---|---|
| Agent teams | Più agenti Claude Code in parallelo (research preview) |
| Adaptive thinking | Il modello sceglie quando usare il pensiero profondo |
| Effort controls | 4 livelli: basso, medio, alto (predefinito), massimo |
| Context compaction | Riassunto automatico del contesto per sessioni lunghe |
| 128k output tokens | Output più lunghi in una singola richiesta |
| Claude in PowerPoint | Research preview (Max, Team, Enterprise) |
Prezzi: Invariati a 25 per milione di token (input/output). Prezzi premium oltre i 200k token (37.50).
Disponibilità: claude.ai, API (claude-opus-4-6), e tutte le principali piattaforme cloud.
Blog di ingegneria: rumore infrastrutturale e compilatore C
Anthropic pubblica due articoli tecnici lo stesso giorno. Il primo quantifica il rumore infrastrutturale nei benchmark di agentic coding: su Terminal-Bench 2.0, la sola configurazione delle risorse può creare divari di 6 punti percentuali tra i setup. Il secondo documenta la costruzione di un compilatore C in Rust da parte di 16 agenti Claude in parallelo: 100.000 righe di codice, in grado di compilare il kernel Linux 6.9 su x86, ARM e RISC-V, in ~2.000 sessioni Claude Code per ~$20.000.
Opus 4.6 in GitHub Copilot
Lo stesso giorno, Claude Opus 4.6 diventa disponibile in GA su GitHub Copilot via Agent HQ, dopo l’anteprima pubblica annunciata il giorno precedente.
🔗 Annuncio Opus 4.6 | Rumore infrastrutturale | Costruire un compilatore C
GPT-5.3-Codex: coding frontier + conoscenze pro
5 febbraio — OpenAI lancia GPT-5.3-Codex, che fonde le prestazioni di codifica di GPT-5.2-Codex con le capacità di ragionamento di GPT-5.2, il tutto 25% più veloce.
| Benchmark | Punteggio |
|---|---|
| SWE-Bench Pro (Pubblico) | 56.8% |
| Terminal-Bench 2.0 | 77.3% |
| OSWorld-Verified | 64.7% |
| GDPval (vittorie o pareggi) | 70.9% |
| Cybersecurity CTF | 77.6% |
| SWE-Lancer IC Diamond | 81.4% |
GPT-5.3-Codex è il primo modello ad aver contribuito alla sua stessa creazione: il team ha utilizzato versioni preliminari per eseguire il debug dell’addestramento, gestire il deployment e analizzare i risultati dei test.
Oltre il codice
Il modello produce presentazioni, fogli di calcolo, analisi dati e gestisce compiti di produttività in un ambiente desktop (64.7% su OSWorld-Verified).
Cybersecurity: alta capacità
GPT-5.3-Codex è il primo modello classificato alta capacità per la cybersecurity nel quadro di preparazione di OpenAI, e il primo specificamente addestrato per identificare vulnerabilità software.
🔗 Blog GPT-5.3-Codex | System Card
OpenAI: Frontier, MCP Apps, sicurezza e biotech
OpenAI Frontier: piattaforma agenti enterprise
5 febbraio — OpenAI lancia Frontier, una piattaforma per sviluppare, distribuire e gestire agenti AI in azienda. Gli agenti ricevono un contesto aziendale condiviso, permessi, e imparano dall’esperienza.
| Aspetto | Dettaglio |
|---|---|
| Primi clienti | HP, Intuit, Oracle, State Farm, Thermo Fisher, Uber |
| Partner AI | Abridge, Clay, Ambience, Decagon, Harvey, Sierra |
| Approccio | Forward Deployed Engineers (FDE) integrati nei team |
| Standard | Standard aperti, compatibile con sistemi esistenti |
ChatGPT: MCP Apps in beta
5 febbraio — Le MCP Apps arrivano in beta in ChatGPT Business, Enterprise ed Edu. Nuovi connettori partner: Amplitude, Fireflies, Vercel, Monday.com, Stripe, Hex, Egnyte e altri. Le organizzazioni possono costruire app MCP personalizzate via modalità sviluppatore.
Trusted Access for Cyber
5 febbraio — OpenAI lancia Trusted Access for Cyber, un programma pilota di accesso basato sulla fiducia per capacità cyber avanzate. Gli utenti possono verificare la loro identità su chatgpt.com/cyber. 10 milioni di dollari in crediti API sono assegnati alla cyberdifesa tramite il Cybersecurity Grant Program.
GPT-5 riduce il costo di sintesi proteica
5 febbraio — In collaborazione con Ginkgo Bioworks, OpenAI collega GPT-5 a un laboratorio robotizzato per ottimizzare la sintesi proteica cell-free (CFPS). Risultato: 40% di riduzione del costo di produzione e 57% di miglioramento sul costo dei reagenti, dopo 36.000 composizioni testate su 580 piastre automatizzate in sei round di sperimentazione.
🔗 OpenAI Frontier | MCP Apps | Trusted Access for Cyber | GPT-5 proteine
Google: Gemini 3, Super Bowl e NotebookLM
Gemini 3: aggiornamenti e Super Bowl
5-6 febbraio — Google spinge Gemini 3 su tutti i fronti. Gemini 3 Flash, lanciato di recente, offre ragionamento di livello Pro a velocità Flash: 90.4% su GPQA Diamond e 33.7% su Humanity’s Last Exam (senza strumenti). Gemini 3 diventa il modello predefinito per le AI Overviews in Google Search.
Google prepara anche uno spot Gemini di 60 secondi per il Super Bowl LX (8 febbraio) — lo spot “New Home” mostra un bambino che prepara un trasloco con l’aiuto di Gemini, illustrando le capacità di ricerca in Google Foto e la generazione di immagini.
NotebookLM: Infographics e Slide Decks
NotebookLM, ora costruito su Gemini 3, distribuisce Infographics e Slide Decks per gli utenti Free e Pro. Gli Slide Decks sono già il secondo output studio più popolare. Gli utenti Ultra possono rimuovere la filigrana.
🔗 Gemini 3 Flash | Gemini 3 App | NotebookLM Infographics
GitHub: commenti fissati nelle Issues
5 febbraio — GitHub lancia i commenti fissati nelle Issues. Ora è possibile fissare un commento in cima a una issue dal menu contestuale. Una funzionalità richiesta dal 2017 per mettere in evidenza decisioni, aggiornamenti e prossimi passi chiave nei thread lunghi.
Cosa significa
Il 5 febbraio 2026 rimarrà come un giorno storico: Anthropic e OpenAI lanciano simultaneamente i loro modelli di coding più avanzati. Claude Opus 4.6 domina i benchmark di lavoro professionale e recupero informazioni, mentre GPT-5.3-Codex eccelle nel coding terminale e nell’uso del computer. Entrambi i modelli rivendicano il SOTA (State Of The Art) su Terminal-Bench 2.0 — l’articolo di Anthropic sul rumore infrastrutturale ha perfettamente senso.
Oltre ai modelli, si intensifica la battaglia delle piattaforme: OpenAI Frontier attacca l’enterprise con agenti distribuiti presso Oracle e Uber, mentre Anthropic scommette sull’ecosistema sviluppatori (GitHub, Xcode, Claude Code). Google avanza su tutti i fronti con Gemini 3 in Search, Chrome e NotebookLM, e prepara il Super Bowl per ancorare Gemini nel grande pubblico.
Fonti
- Introducing Claude Opus 4.6
- Quantifying infrastructure noise
- Building a C compiler with parallel Claudes
- Introducing GPT-5.3-Codex
- GPT-5.3-Codex System Card
- Introducing OpenAI Frontier
- Introducing apps in ChatGPT
- Trusted Access for Cyber
- GPT-5 lowers protein synthesis cost
- Gemini 3 Flash
- NotebookLM Infographics
- Pinned comments on GitHub Issues