Semaine chargée pour les agents IA
Du 21 au 23 janvier 2026, plusieurs annonces majeures côté coding agents et infrastructure. Anthropic lance Claude dans Excel et publie trois articles sur les systèmes multi-agents, OpenAI détaille l’architecture interne de Codex et son infrastructure PostgreSQL, Qwen open-source son modèle text-to-speech, et Runway ajoute Image to Video à Gen-4.5.
Anthropic : Claude in Excel et Claude Code
Claude in Excel
23 janvier — Claude est maintenant disponible dans Microsoft Excel en beta. L’intégration permet d’analyser des classeurs Excel complets avec leurs formules imbriquées et dépendances entre onglets.
Fonctionnalités :
- Compréhension du classeur entier (formules, dépendances multi-onglets)
- Explications avec citations au niveau cellule
- Mise à jour des hypothèses tout en préservant les formules
Disponible pour les abonnés Claude Pro, Max, Team et Enterprise.
Claude Code v2.1.19 : système Tasks
23 janvier — La version 2.1.19 introduit Tasks, un nouveau système de gestion des tâches pour les projets complexes multi-sessions.
We’re turning Todos into Tasks in Claude Code. Tasks are a new primitive that help Claude Code track and complete more complicated projects and collaborate on them across multiple sessions or subagents.
🇫🇷 Nous transformons les Todos en Tasks dans Claude Code. Les Tasks sont une nouvelle primitive qui aide Claude Code à suivre et compléter des projets plus complexes et à collaborer dessus à travers plusieurs sessions ou subagents. — Thariq (@trq212), équipe Claude Code Anthropic
Fonctionnalités Tasks :
| Aspect | Détail |
|---|---|
| Stockage | ~/.claude/tasks (fichiers, permet de construire des outils dessus) |
| Collaboration | CLAUDE_CODE_TASK_LIST_ID=nom claude pour partager entre sessions |
| Dépendances | Tasks avec dépendances et blockers stockés dans les métadonnées |
| Broadcast | Mise à jour d’une Task diffusée à toutes les sessions sur la même Task List |
| Compatibilité | Fonctionne avec claude -p et AgentSDK |
À quoi ça sert : Sur un projet complexe (refactoring multi-fichiers, migration, feature longue), Claude peut découper le travail en tasks, suivre ce qui est fait et ce qui reste. Les tasks sont persistées sur disque — elles survivent à la compaction du contexte, à la fermeture de session, et au redémarrage. Plusieurs sessions ou subagents peuvent collaborer sur la même liste de tasks en temps réel.
En pratique : Claude crée des tasks (TaskCreate), les liste (TaskList), et met à jour leur statut (TaskUpdate : pending → in_progress → completed). Exemple sur un refactoring d’authentification :
#1 [completed] Migrer le stockage de sessions vers Redis
#2 [in_progress] Implémenter le refresh token rotation
#3 [pending] Ajouter les tests d'intégration OAuth
#4 [pending] Mettre à jour la documentation API
Les tasks sont stockées dans ~/.claude/tasks/ et peuvent être partagées entre sessions via CLAUDE_CODE_TASK_LIST_ID.
Autres nouveautés v2.1.19 :
- Shorthand
$0,$1pour arguments dans commandes custom - VSCode session forking et rewind pour tous
- Skills sans permissions s’exécutent sans approbation
CLAUDE_CODE_ENABLE_TASKS=falsepour désactiver temporairement
🔗 CHANGELOG Claude Code | Thread @trq212
Claude Code v2.1.18 : raccourcis clavier personnalisables
Version précédente ajoutant la possibilité de configurer des raccourcis clavier par contexte et de créer des séquences chord.
Commande : /keybindings
⚠️ Note : Cette fonctionnalité est actuellement en preview et n’est pas disponible pour tous les utilisateurs.
Petri 2.0 : audits d’alignement automatisés
22 janvier — Anthropic publie Petri 2.0, une mise à jour de son outil d’audit comportemental automatisé pour les modèles de langage.
À quoi ça sert : Petri teste si un LLM pourrait se comporter de manière problématique — manipulation, tromperie, contournement des règles. L’outil génère des scénarios réalistes et observe les réponses du modèle pour détecter des comportements non désirés avant qu’ils ne se produisent en production.
| Amélioration | Description |
|---|---|
| 70 nouveaux scénarios | Bibliothèque de seeds étendue pour couvrir plus de cas limites |
| Mitigations eval-awareness | Le modèle ne doit pas savoir qu’il est testé — sinon il adapte son comportement. Petri 2.0 améliore le réalisme des scénarios pour éviter cette détection. |
| Comparaisons frontier | Résultats d’évaluation pour les modèles récents (Claude, GPT, Gemini) |
Blog : quand utiliser (ou pas) les systèmes multi-agents
23 janvier — Anthropic publie un guide pragmatique sur les architectures multi-agents. Le message principal : n’utilisez pas multi-agent par défaut.
We’ve seen teams invest months building elaborate multi-agent architectures only to discover that improved prompting on a single agent achieved equivalent results.
L’article identifie 3 cas où multi-agent apporte vraiment de la valeur :
| Cas | Problème | Solution multi-agent |
|---|---|---|
| Pollution de contexte | Un agent génère des données volumineuses dont seul un résumé est utile ensuite | Un sous-agent récupère 2000 tokens d’historique, renvoie juste “commande livrée” à l’agent principal |
| Parallélisation | Plusieurs recherches indépendantes à faire | Lancer 5 agents en parallèle sur 5 sources différentes au lieu de les traiter séquentiellement |
| Spécialisation | Trop d’outils (20+) dans un seul agent dégrade sa capacité à choisir le bon | Séparer en agents spécialisés : un pour le CRM, un pour le marketing, un pour la messagerie |
Le piège à éviter : Diviser par type de travail (un agent planifie, un autre implémente, un autre teste). Chaque passage de relais perd du contexte et dégrade la qualité. Mieux vaut qu’un seul agent gère une feature de bout en bout.
Coût réel : 3-10x plus de tokens qu’un agent unique pour la même tâche.
Autres articles de la série :
Building agents with Skills (22 jan)
Au lieu de construire des agents spécialisés par domaine, Anthropic propose de construire des skills : des collections de fichiers (workflows, scripts, bonnes pratiques) qu’un agent généraliste charge à la demande.
Progressive disclosure en 3 niveaux :
| Niveau | Contenu | Taille |
|---|---|---|
| 1 | Métadonnées (nom, description) | ~50 tokens |
| 2 | Fichier SKILL.md complet | ~500 tokens |
| 3 | Documentation de référence | 2000+ tokens |
Chaque niveau est chargé uniquement si nécessaire. Résultat : un agent peut avoir des centaines de skills sans saturer son contexte.
Eight trends 2026 (21 jan)
Anthropic identifie 8 tendances pour le développement logiciel en 2026.
Message clé : Les ingénieurs passent d’écrire du code à coordonner des agents qui écrivent du code.
Nuance importante : L’IA est utilisée dans ~60% du travail, mais seulement 0-20% peut être pleinement délégué — la supervision humaine reste essentielle.
| Entreprise | Résultat |
|---|---|
| Rakuten | Claude Code sur codebase vLLM (12.5M lignes), 7h de travail autonome |
| TELUS | 30% plus rapide, 500k heures économisées |
| Zapier | 89% d’adoption IA, 800+ agents internes |
OpenAI : architecture Codex et infrastructure
Unrolling the Codex agent loop
23 janvier — OpenAI ouvre les coulisses de Codex CLI. Premier article d’une série sur le fonctionnement interne de leur agent logiciel.
Ce qu’on apprend :
L’agent loop est simple en théorie : l’utilisateur envoie une demande → le modèle génère une réponse ou demande un outil → l’agent exécute l’outil → le modèle reprend avec le résultat → jusqu’à une réponse finale. En pratique, les subtilités sont dans la gestion du contexte.
Prompt caching — la clé de la performance :
Chaque tour de conversation ajoute du contenu au prompt. Sans optimisation, c’est quadratique en tokens envoyés. Le prompt caching permet de réutiliser les calculs des tours précédents. Condition : le nouveau prompt doit être un préfixe exact de l’ancien. OpenAI détaille les pièges qui cassent le cache (changer l’ordre des tools MCP, modifier la config mid-conversation).
Compaction automatique :
Quand le contexte dépasse un seuil, Codex appelle /responses/compact qui retourne une version compressée de la conversation. Le modèle garde une compréhension latente via un encrypted_content opaque.
Zero Data Retention (ZDR) :
Pour les clients qui ne veulent pas que leurs données soient stockées, le encrypted_content permet de préserver le raisonnement du modèle entre les tours sans stocker les données côté serveur.
Premier article d’une série — les prochains couvriront l’architecture CLI, l’implémentation des tools, et le sandboxing.
🔗 Unrolling the Codex agent loop | Codex GitHub
Scaling PostgreSQL : 800 millions d’utilisateurs ChatGPT
22 janvier — OpenAI détaille comment PostgreSQL alimente ChatGPT et l’API pour 800 millions d’utilisateurs avec des millions de requêtes par seconde.
| Métrique | Valeur |
|---|---|
| Utilisateurs | 800 millions |
| Débit | Millions de QPS |
| Replicas | ~50 read replicas multi-régions |
| Latence p99 | Double digit ms côté client |
| Disponibilité | Five-nines (99.999%) |
Architecture :
- Single primary Azure PostgreSQL flexible server
- PgBouncer pour le connection pooling (latence connexion : 50ms → 5ms)
- Workloads write-heavy migrés vers Azure Cosmos DB
- Cache locking pour protéger contre les tempêtes de cache miss
- Cascading replication en test pour dépasser 100 replicas
Seul SEV-0 PostgreSQL des 12 derniers mois : lors du lancement viral de ChatGPT ImageGen (100M nouveaux utilisateurs en une semaine, trafic write x10).
Qwen : Qwen3-TTS open-source
22-23 janvier — Alibaba publie Qwen3-TTS en open-source sous licence Apache 2.0.
| Caractéristique | Détail |
|---|---|
| Licence | Apache 2.0 |
| Voice cloning | Oui |
| Support MLX-Audio | Disponible |
Installation :
uv pip install -U mlx-audio --prerelease=allow
Runway : Gen-4.5 Image to Video
21 janvier — Runway ajoute la fonctionnalité Image to Video à Gen-4.5.
| Fonctionnalité | Description |
|---|---|
| Image to Video | Transformation d’une image en vidéo cinématique |
| Camera control | Contrôle précis de la caméra |
| Coherent narratives | Récits cohérents sur la durée |
| Character consistency | Personnages qui restent consistants |
Disponible pour tous les plans payants Runway. Promo temporaire : 15% de réduction.
Ce que ça signifie
Cette semaine marque une maturation des outils de coding agents. Les deux géants (Anthropic et OpenAI) publient des documentations techniques détaillées sur l’architecture de leurs agents — signe que le marché passe de la phase “démo” à la phase “production”.
Côté infrastructure, l’article PostgreSQL d’OpenAI montre qu’une architecture single-primary peut tenir à l’échelle de centaines de millions d’utilisateurs avec les bonnes optimisations.
L’arrivée de Claude dans Excel ouvre un nouveau front : l’IA intégrée directement dans les outils de productivité quotidiens.