Rechercher

IA Actualités 23 janvier 2026 : Claude in Excel, Tasks Claude Code, Codex Agent Loop

IA Actualités 23 janvier 2026 : Claude in Excel, Tasks Claude Code, Codex Agent Loop

Semaine chargée pour les agents IA

Du 21 au 23 janvier 2026, plusieurs annonces majeures côté coding agents et infrastructure. Anthropic lance Claude dans Excel et publie trois articles sur les systèmes multi-agents, OpenAI détaille l’architecture interne de Codex et son infrastructure PostgreSQL, Qwen open-source son modèle text-to-speech, et Runway ajoute Image to Video à Gen-4.5.


Anthropic : Claude in Excel et Claude Code

Claude in Excel

23 janvier — Claude est maintenant disponible dans Microsoft Excel en beta. L’intégration permet d’analyser des classeurs Excel complets avec leurs formules imbriquées et dépendances entre onglets.

Fonctionnalités :

  • Compréhension du classeur entier (formules, dépendances multi-onglets)
  • Explications avec citations au niveau cellule
  • Mise à jour des hypothèses tout en préservant les formules

Disponible pour les abonnés Claude Pro, Max, Team et Enterprise.

🔗 Claude in Excel


Claude Code v2.1.19 : système Tasks

23 janvier — La version 2.1.19 introduit Tasks, un nouveau système de gestion des tâches pour les projets complexes multi-sessions.

We’re turning Todos into Tasks in Claude Code. Tasks are a new primitive that help Claude Code track and complete more complicated projects and collaborate on them across multiple sessions or subagents.

🇫🇷 Nous transformons les Todos en Tasks dans Claude Code. Les Tasks sont une nouvelle primitive qui aide Claude Code à suivre et compléter des projets plus complexes et à collaborer dessus à travers plusieurs sessions ou subagents.Thariq (@trq212), équipe Claude Code Anthropic

Fonctionnalités Tasks :

AspectDétail
Stockage~/.claude/tasks (fichiers, permet de construire des outils dessus)
CollaborationCLAUDE_CODE_TASK_LIST_ID=nom claude pour partager entre sessions
DépendancesTasks avec dépendances et blockers stockés dans les métadonnées
BroadcastMise à jour d’une Task diffusée à toutes les sessions sur la même Task List
CompatibilitéFonctionne avec claude -p et AgentSDK

À quoi ça sert : Sur un projet complexe (refactoring multi-fichiers, migration, feature longue), Claude peut découper le travail en tasks, suivre ce qui est fait et ce qui reste. Les tasks sont persistées sur disque — elles survivent à la compaction du contexte, à la fermeture de session, et au redémarrage. Plusieurs sessions ou subagents peuvent collaborer sur la même liste de tasks en temps réel.

En pratique : Claude crée des tasks (TaskCreate), les liste (TaskList), et met à jour leur statut (TaskUpdate : pending → in_progress → completed). Exemple sur un refactoring d’authentification :

#1 [completed] Migrer le stockage de sessions vers Redis
#2 [in_progress] Implémenter le refresh token rotation
#3 [pending] Ajouter les tests d'intégration OAuth
#4 [pending] Mettre à jour la documentation API

Les tasks sont stockées dans ~/.claude/tasks/ et peuvent être partagées entre sessions via CLAUDE_CODE_TASK_LIST_ID.

Autres nouveautés v2.1.19 :

  • Shorthand $0, $1 pour arguments dans commandes custom
  • VSCode session forking et rewind pour tous
  • Skills sans permissions s’exécutent sans approbation
  • CLAUDE_CODE_ENABLE_TASKS=false pour désactiver temporairement

🔗 CHANGELOG Claude Code | Thread @trq212


Claude Code v2.1.18 : raccourcis clavier personnalisables

Version précédente ajoutant la possibilité de configurer des raccourcis clavier par contexte et de créer des séquences chord.

Commande : /keybindings

⚠️ Note : Cette fonctionnalité est actuellement en preview et n’est pas disponible pour tous les utilisateurs.

🔗 Documentation keybindings


Petri 2.0 : audits d’alignement automatisés

22 janvier — Anthropic publie Petri 2.0, une mise à jour de son outil d’audit comportemental automatisé pour les modèles de langage.

À quoi ça sert : Petri teste si un LLM pourrait se comporter de manière problématique — manipulation, tromperie, contournement des règles. L’outil génère des scénarios réalistes et observe les réponses du modèle pour détecter des comportements non désirés avant qu’ils ne se produisent en production.

AméliorationDescription
70 nouveaux scénariosBibliothèque de seeds étendue pour couvrir plus de cas limites
Mitigations eval-awarenessLe modèle ne doit pas savoir qu’il est testé — sinon il adapte son comportement. Petri 2.0 améliore le réalisme des scénarios pour éviter cette détection.
Comparaisons frontierRésultats d’évaluation pour les modèles récents (Claude, GPT, Gemini)

🔗 Petri 2.0 | GitHub


Blog : quand utiliser (ou pas) les systèmes multi-agents

23 janvier — Anthropic publie un guide pragmatique sur les architectures multi-agents. Le message principal : n’utilisez pas multi-agent par défaut.

We’ve seen teams invest months building elaborate multi-agent architectures only to discover that improved prompting on a single agent achieved equivalent results.

L’article identifie 3 cas où multi-agent apporte vraiment de la valeur :

CasProblèmeSolution multi-agent
Pollution de contexteUn agent génère des données volumineuses dont seul un résumé est utile ensuiteUn sous-agent récupère 2000 tokens d’historique, renvoie juste “commande livrée” à l’agent principal
ParallélisationPlusieurs recherches indépendantes à faireLancer 5 agents en parallèle sur 5 sources différentes au lieu de les traiter séquentiellement
SpécialisationTrop d’outils (20+) dans un seul agent dégrade sa capacité à choisir le bonSéparer en agents spécialisés : un pour le CRM, un pour le marketing, un pour la messagerie

Le piège à éviter : Diviser par type de travail (un agent planifie, un autre implémente, un autre teste). Chaque passage de relais perd du contexte et dégrade la qualité. Mieux vaut qu’un seul agent gère une feature de bout en bout.

Coût réel : 3-10x plus de tokens qu’un agent unique pour la même tâche.

Autres articles de la série :

Building agents with Skills (22 jan)

Au lieu de construire des agents spécialisés par domaine, Anthropic propose de construire des skills : des collections de fichiers (workflows, scripts, bonnes pratiques) qu’un agent généraliste charge à la demande.

Progressive disclosure en 3 niveaux :

NiveauContenuTaille
1Métadonnées (nom, description)~50 tokens
2Fichier SKILL.md complet~500 tokens
3Documentation de référence2000+ tokens

Chaque niveau est chargé uniquement si nécessaire. Résultat : un agent peut avoir des centaines de skills sans saturer son contexte.

🔗 Building agents with Skills


Anthropic identifie 8 tendances pour le développement logiciel en 2026.

Message clé : Les ingénieurs passent d’écrire du code à coordonner des agents qui écrivent du code.

Nuance importante : L’IA est utilisée dans ~60% du travail, mais seulement 0-20% peut être pleinement délégué — la supervision humaine reste essentielle.

EntrepriseRésultat
RakutenClaude Code sur codebase vLLM (12.5M lignes), 7h de travail autonome
TELUS30% plus rapide, 500k heures économisées
Zapier89% d’adoption IA, 800+ agents internes

🔗 Eight trends 2026


OpenAI : architecture Codex et infrastructure

Unrolling the Codex agent loop

23 janvier — OpenAI ouvre les coulisses de Codex CLI. Premier article d’une série sur le fonctionnement interne de leur agent logiciel.

Ce qu’on apprend :

L’agent loop est simple en théorie : l’utilisateur envoie une demande → le modèle génère une réponse ou demande un outil → l’agent exécute l’outil → le modèle reprend avec le résultat → jusqu’à une réponse finale. En pratique, les subtilités sont dans la gestion du contexte.

Prompt caching — la clé de la performance :

Chaque tour de conversation ajoute du contenu au prompt. Sans optimisation, c’est quadratique en tokens envoyés. Le prompt caching permet de réutiliser les calculs des tours précédents. Condition : le nouveau prompt doit être un préfixe exact de l’ancien. OpenAI détaille les pièges qui cassent le cache (changer l’ordre des tools MCP, modifier la config mid-conversation).

Compaction automatique :

Quand le contexte dépasse un seuil, Codex appelle /responses/compact qui retourne une version compressée de la conversation. Le modèle garde une compréhension latente via un encrypted_content opaque.

Zero Data Retention (ZDR) :

Pour les clients qui ne veulent pas que leurs données soient stockées, le encrypted_content permet de préserver le raisonnement du modèle entre les tours sans stocker les données côté serveur.

Premier article d’une série — les prochains couvriront l’architecture CLI, l’implémentation des tools, et le sandboxing.

🔗 Unrolling the Codex agent loop | Codex GitHub


Scaling PostgreSQL : 800 millions d’utilisateurs ChatGPT

22 janvier — OpenAI détaille comment PostgreSQL alimente ChatGPT et l’API pour 800 millions d’utilisateurs avec des millions de requêtes par seconde.

MétriqueValeur
Utilisateurs800 millions
DébitMillions de QPS
Replicas~50 read replicas multi-régions
Latence p99Double digit ms côté client
DisponibilitéFive-nines (99.999%)

Architecture :

  • Single primary Azure PostgreSQL flexible server
  • PgBouncer pour le connection pooling (latence connexion : 50ms → 5ms)
  • Workloads write-heavy migrés vers Azure Cosmos DB
  • Cache locking pour protéger contre les tempêtes de cache miss
  • Cascading replication en test pour dépasser 100 replicas

Seul SEV-0 PostgreSQL des 12 derniers mois : lors du lancement viral de ChatGPT ImageGen (100M nouveaux utilisateurs en une semaine, trafic write x10).

🔗 Scaling PostgreSQL


Qwen : Qwen3-TTS open-source

22-23 janvier — Alibaba publie Qwen3-TTS en open-source sous licence Apache 2.0.

CaractéristiqueDétail
LicenceApache 2.0
Voice cloningOui
Support MLX-AudioDisponible

Installation :

uv pip install -U mlx-audio --prerelease=allow

🔗 Qwen3-TTS sur X


Runway : Gen-4.5 Image to Video

21 janvier — Runway ajoute la fonctionnalité Image to Video à Gen-4.5.

FonctionnalitéDescription
Image to VideoTransformation d’une image en vidéo cinématique
Camera controlContrôle précis de la caméra
Coherent narrativesRécits cohérents sur la durée
Character consistencyPersonnages qui restent consistants

Disponible pour tous les plans payants Runway. Promo temporaire : 15% de réduction.

🔗 Runway sur X


Ce que ça signifie

Cette semaine marque une maturation des outils de coding agents. Les deux géants (Anthropic et OpenAI) publient des documentations techniques détaillées sur l’architecture de leurs agents — signe que le marché passe de la phase “démo” à la phase “production”.

Côté infrastructure, l’article PostgreSQL d’OpenAI montre qu’une architecture single-primary peut tenir à l’échelle de centaines de millions d’utilisateurs avec les bonnes optimisations.

L’arrivée de Claude dans Excel ouvre un nouveau front : l’IA intégrée directement dans les outils de productivité quotidiens.


Sources