IA Actualités 23 janvier 2026 : Claude in Excel, Tasks Claude Code, Codex Agent Loop

Semaine chargée pour les agents IA

Du 21 au 23 janvier 2026, plusieurs annonces majeures côté coding agents et infrastructure. Anthropic lance Claude dans Excel et publie trois articles sur les systèmes multi-agents, OpenAI détaille l’architecture interne de Codex et son infrastructure PostgreSQL, Qwen open-source son modèle text-to-speech, et Runway ajoute Image to Video à Gen-4.5.

Anthropic : Claude in Excel et Claude Code

Claude in Excel

23 janvier — Claude est maintenant disponible dans Microsoft Excel en beta. L’intégration permet d’analyser des classeurs Excel complets avec leurs formules imbriquées et dépendances entre onglets.

Fonctionnalités :

Compréhension du classeur entier (formules, dépendances multi-onglets)
Explications avec citations au niveau cellule
Mise à jour des hypothèses tout en préservant les formules

Disponible pour les abonnés Claude Pro, Max, Team et Enterprise.

🔗 Claude in Excel

Claude Code v2.1.19 : système Tasks

23 janvier — La version 2.1.19 introduit Tasks, un nouveau système de gestion des tâches pour les projets complexes multi-sessions.

We’re turning Todos into Tasks in Claude Code. Tasks are a new primitive that help Claude Code track and complete more complicated projects and collaborate on them across multiple sessions or subagents.

🇫🇷 Nous transformons les Todos en Tasks dans Claude Code. Les Tasks sont une nouvelle primitive qui aide Claude Code à suivre et compléter des projets plus complexes et à collaborer dessus à travers plusieurs sessions ou subagents. — Thariq (@trq212), équipe Claude Code Anthropic

Fonctionnalités Tasks :

Aspect	Détail
Stockage	`~/.claude/tasks` (fichiers, permet de construire des outils dessus)
Collaboration	`CLAUDE_CODE_TASK_LIST_ID=nom claude` pour partager entre sessions
Dépendances	Tasks avec dépendances et blockers stockés dans les métadonnées
Broadcast	Mise à jour d’une Task diffusée à toutes les sessions sur la même Task List
Compatibilité	Fonctionne avec `claude -p` et AgentSDK

À quoi ça sert : Sur un projet complexe (refactoring multi-fichiers, migration, feature longue), Claude peut découper le travail en tasks, suivre ce qui est fait et ce qui reste. Les tasks sont persistées sur disque — elles survivent à la compaction du contexte, à la fermeture de session, et au redémarrage. Plusieurs sessions ou subagents peuvent collaborer sur la même liste de tasks en temps réel.

En pratique : Claude crée des tasks (TaskCreate), les liste (TaskList), et met à jour leur statut (TaskUpdate : pending → in_progress → completed). Exemple sur un refactoring d’authentification :

#1 [completed] Migrer le stockage de sessions vers Redis
#2 [in_progress] Implémenter le refresh token rotation
#3 [pending] Ajouter les tests d'intégration OAuth
#4 [pending] Mettre à jour la documentation API

Les tasks sont stockées dans ~/.claude/tasks/ et peuvent être partagées entre sessions via CLAUDE_CODE_TASK_LIST_ID.

Autres nouveautés v2.1.19 :

Shorthand $0, $1 pour arguments dans commandes custom
VSCode session forking et rewind pour tous
Skills sans permissions s’exécutent sans approbation
CLAUDE_CODE_ENABLE_TASKS=false pour désactiver temporairement

🔗 CHANGELOG Claude Code | Thread @trq212

Claude Code v2.1.18 : raccourcis clavier personnalisables

Version précédente ajoutant la possibilité de configurer des raccourcis clavier par contexte et de créer des séquences chord.

Commande : /keybindings

⚠️ Note : Cette fonctionnalité est actuellement en preview et n’est pas disponible pour tous les utilisateurs.

🔗 Documentation keybindings

Petri 2.0 : audits d’alignement automatisés

22 janvier — Anthropic publie Petri 2.0, une mise à jour de son outil d’audit comportemental automatisé pour les modèles de langage.

À quoi ça sert : Petri teste si un LLM pourrait se comporter de manière problématique — manipulation, tromperie, contournement des règles. L’outil génère des scénarios réalistes et observe les réponses du modèle pour détecter des comportements non désirés avant qu’ils ne se produisent en production.

Amélioration	Description
70 nouveaux scénarios	Bibliothèque de seeds étendue pour couvrir plus de cas limites
Mitigations eval-awareness	Le modèle ne doit pas savoir qu’il est testé — sinon il adapte son comportement. Petri 2.0 améliore le réalisme des scénarios pour éviter cette détection.
Comparaisons frontier	Résultats d’évaluation pour les modèles récents (Claude, GPT, Gemini)

🔗 Petri 2.0 | GitHub

Blog : quand utiliser (ou pas) les systèmes multi-agents

23 janvier — Anthropic publie un guide pragmatique sur les architectures multi-agents. Le message principal : n’utilisez pas multi-agent par défaut.

We’ve seen teams invest months building elaborate multi-agent architectures only to discover that improved prompting on a single agent achieved equivalent results.

L’article identifie 3 cas où multi-agent apporte vraiment de la valeur :

Cas	Problème	Solution multi-agent
Pollution de contexte	Un agent génère des données volumineuses dont seul un résumé est utile ensuite	Un sous-agent récupère 2000 tokens d’historique, renvoie juste “commande livrée” à l’agent principal
Parallélisation	Plusieurs recherches indépendantes à faire	Lancer 5 agents en parallèle sur 5 sources différentes au lieu de les traiter séquentiellement
Spécialisation	Trop d’outils (20+) dans un seul agent dégrade sa capacité à choisir le bon	Séparer en agents spécialisés : un pour le CRM, un pour le marketing, un pour la messagerie

Le piège à éviter : Diviser par type de travail (un agent planifie, un autre implémente, un autre teste). Chaque passage de relais perd du contexte et dégrade la qualité. Mieux vaut qu’un seul agent gère une feature de bout en bout.

Coût réel : 3-10x plus de tokens qu’un agent unique pour la même tâche.

Autres articles de la série :

Building agents with Skills (22 jan)

Au lieu de construire des agents spécialisés par domaine, Anthropic propose de construire des skills : des collections de fichiers (workflows, scripts, bonnes pratiques) qu’un agent généraliste charge à la demande.

Progressive disclosure en 3 niveaux :

Niveau	Contenu	Taille
1	Métadonnées (nom, description)	~50 tokens
2	Fichier SKILL.md complet	~500 tokens
3	Documentation de référence	2000+ tokens

Chaque niveau est chargé uniquement si nécessaire. Résultat : un agent peut avoir des centaines de skills sans saturer son contexte.

🔗 Building agents with Skills

Eight trends 2026 (21 jan)

Anthropic identifie 8 tendances pour le développement logiciel en 2026.

Message clé : Les ingénieurs passent d’écrire du code à coordonner des agents qui écrivent du code.

Nuance importante : L’IA est utilisée dans ~60% du travail, mais seulement 0-20% peut être pleinement délégué — la supervision humaine reste essentielle.

Entreprise	Résultat
Rakuten	Claude Code sur codebase vLLM (12.5M lignes), 7h de travail autonome
TELUS	30% plus rapide, 500k heures économisées
Zapier	89% d’adoption IA, 800+ agents internes

🔗 Eight trends 2026

OpenAI : architecture Codex et infrastructure

Unrolling the Codex agent loop

23 janvier — OpenAI ouvre les coulisses de Codex CLI. Premier article d’une série sur le fonctionnement interne de leur agent logiciel.

Ce qu’on apprend :

L’agent loop est simple en théorie : l’utilisateur envoie une demande → le modèle génère une réponse ou demande un outil → l’agent exécute l’outil → le modèle reprend avec le résultat → jusqu’à une réponse finale. En pratique, les subtilités sont dans la gestion du contexte.

Prompt caching — la clé de la performance :

Chaque tour de conversation ajoute du contenu au prompt. Sans optimisation, c’est quadratique en tokens envoyés. Le prompt caching permet de réutiliser les calculs des tours précédents. Condition : le nouveau prompt doit être un préfixe exact de l’ancien. OpenAI détaille les pièges qui cassent le cache (changer l’ordre des tools MCP, modifier la config mid-conversation).

Compaction automatique :

Quand le contexte dépasse un seuil, Codex appelle /responses/compact qui retourne une version compressée de la conversation. Le modèle garde une compréhension latente via un encrypted_content opaque.

Zero Data Retention (ZDR) :

Pour les clients qui ne veulent pas que leurs données soient stockées, le encrypted_content permet de préserver le raisonnement du modèle entre les tours sans stocker les données côté serveur.

Premier article d’une série — les prochains couvriront l’architecture CLI, l’implémentation des tools, et le sandboxing.

🔗 Unrolling the Codex agent loop | Codex GitHub

Scaling PostgreSQL : 800 millions d’utilisateurs ChatGPT

22 janvier — OpenAI détaille comment PostgreSQL alimente ChatGPT et l’API pour 800 millions d’utilisateurs avec des millions de requêtes par seconde.

Métrique	Valeur
Utilisateurs	800 millions
Débit	Millions de QPS
Replicas	~50 read replicas multi-régions
Latence p99	Double digit ms côté client
Disponibilité	Five-nines (99.999%)

Architecture :

Single primary Azure PostgreSQL flexible server
PgBouncer pour le connection pooling (latence connexion : 50ms → 5ms)
Workloads write-heavy migrés vers Azure Cosmos DB
Cache locking pour protéger contre les tempêtes de cache miss
Cascading replication en test pour dépasser 100 replicas

Seul SEV-0 PostgreSQL des 12 derniers mois : lors du lancement viral de ChatGPT ImageGen (100M nouveaux utilisateurs en une semaine, trafic write x10).

🔗 Scaling PostgreSQL

Qwen : Qwen3-TTS open-source

22-23 janvier — Alibaba publie Qwen3-TTS en open-source sous licence Apache 2.0.

Caractéristique	Détail
Licence	Apache 2.0
Voice cloning	Oui
Support MLX-Audio	Disponible

Installation :

uv pip install -U mlx-audio --prerelease=allow

🔗 Qwen3-TTS sur X

Runway : Gen-4.5 Image to Video

21 janvier — Runway ajoute la fonctionnalité Image to Video à Gen-4.5.

Fonctionnalité	Description
Image to Video	Transformation d’une image en vidéo cinématique
Camera control	Contrôle précis de la caméra
Coherent narratives	Récits cohérents sur la durée
Character consistency	Personnages qui restent consistants

Disponible pour tous les plans payants Runway. Promo temporaire : 15% de réduction.

🔗 Runway sur X

Ce que ça signifie

Cette semaine marque une maturation des outils de coding agents. Les deux géants (Anthropic et OpenAI) publient des documentations techniques détaillées sur l’architecture de leurs agents — signe que le marché passe de la phase “démo” à la phase “production”.

Côté infrastructure, l’article PostgreSQL d’OpenAI montre qu’une architecture single-primary peut tenir à l’échelle de centaines de millions d’utilisateurs avec les bonnes optimisations.

L’arrivée de Claude dans Excel ouvre un nouveau front : l’IA intégrée directement dans les outils de productivité quotidiens.