Le 23 avril 2026 marque une journée dense : OpenAI lance GPT-5.5 avec 85% sur ARC-AGI-2 et un tarif API à $5/M tokens en entrée, tandis qu’Anthropic ouvre la mémoire persistante en bêta pour ses Managed Agents et publie un post-mortem sur Claude Code. En parallèle, GitHub Copilot livre sept mises à jour en trois jours, Kimi K2.6 déploie un essaim (swarm) de 300 sous-agents, et SpaceX scelle un partenariat de codage avec Cursor.
GPT-5.5 : le modèle frontier d’OpenAI
23 avril — OpenAI lance GPT-5.5, son modèle le plus puissant à ce jour, conçu pour le travail réel et les agents. Il améliore significativement le codage agentique, l’utilisation de l’ordinateur (computer use), le travail de la connaissance et la recherche scientifique, tout en conservant la latence de GPT-5.4.
Disponibilité et tarification
GPT-5.5 est disponible immédiatement pour les abonnés ChatGPT Plus, Pro, Business et Enterprise, ainsi que dans Codex. L’accès API arrive “très bientôt”.
| Offre | Accès API | Entrée | Sortie |
|---|---|---|---|
| GPT-5.5 standard | Bientôt | $5 / M tokens | $30 / M tokens |
| GPT-5.5 Pro | Bientôt | $30 / M tokens | $180 / M tokens |
La fenêtre de contexte dans Codex atteint 400K tokens. Un mode Fast — 1,5× plus rapide, 2,5× le coût — est disponible.
Benchmarks
| Évaluation | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | 69.4% | 68.5% |
| Expert-SWE (interne) | 73.1% | 68.5% | — | — |
| SWE-Bench Pro | 58.6% | 57.7% | 64.3% | 54.2% |
| GDPval | 84.9% | 83.0% | 80.3% | 67.3% |
| OSWorld-Verified | 78.7% | 75.0% | 78.0% | — |
| ARC-AGI-2 | 85.0% | 73.3% | 75.8% | 77.1% |
| FrontierMath Tier 4 | 35.4% | 27.1% | 22.9% | 16.7% |
| CyberGym | 81.8% | 79.0% | 73.1% | — |
| BixBench (bioinformatique) | 80.5% | 74.0% | — | — |
GPT-5.5 est en tête sur la majorité des benchmarks, avec une exception notable : SWE-Bench Pro où Claude Opus 4.7 conserve l’avantage (64.3% vs 58.6%).
Infrastructure et sécurité
Le modèle a été co-conçu avec NVIDIA GB200/GB300 NVL72. Codex a utilisé GPT-5.5 pour optimiser sa propre infrastructure, gagnant +20% de vitesse de génération de tokens. Côté cybersécurité, GPT-5.5 est classé High dans le Preparedness Framework d’OpenAI (pas Critical) ; le programme Trusted Access Cyber lui est étendu.
Recherche scientifique
Au-delà du code, GPT-5.5 a aidé à prouver un nouveau théorème sur les nombres de Ramsey (combinatoire), vérifié formellement en Lean. Il a également analysé un jeu de données génomiques de 62 échantillons et 28 000 gènes en quelques minutes — une tâche qui aurait demandé des mois à une équipe de chercheurs.
« GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use. »
🇫🇷 GPT-5.5 est nettement plus intelligent et persévérant que GPT-5.4, avec de meilleures performances en codage et une utilisation des outils plus fiable. — Michael Truell, co-fondateur et CEO de Cursor
La vague des agents persistants
Trois annonces majeures convergent ce 23 avril autour de l’agent persistant, capable d’agir de façon autonome sur de longues durées et de retenir le contexte d’une session à l’autre.
OpenAI Workspace Agents dans ChatGPT
22 avril — OpenAI présente les agents d’espace de travail (Workspace Agents) : des agents partagés qu’une équipe crée une fois, utilise ensemble dans ChatGPT ou Slack, et améliore progressivement. Alimentés par Codex dans le cloud, ils peuvent exécuter des tâches complexes même quand l’utilisateur est déconnecté. Les Workspace Agents remplacent progressivement les GPT, qui restent disponibles pendant la transition.
| Type d’agent | Fonctionnalité |
|---|---|
| Vérificateur logiciel | Examine requêtes, compare politiques, crée tickets IT |
| Routeur retours produit | Surveille Slack/support/forums → tickets priorisés |
| Générateur de rapports | Extrait données vendredi, crée graphiques, synthèse |
| Agent de prospection | Recherche leads, évalue, rédige emails, met à jour CRM |
| Responsable risques tiers | Évalue fournisseurs, produit rapport structuré |
Disponibles en research preview pour Business, Enterprise, Edu et Teachers ; gratuits jusqu’au 6 mai 2026, puis facturation en crédits.
Selon Ankur Bhatt (AI Engineering, Rippling), ce qui prenait auparavant 5 à 6 heures par semaine aux commerciaux s’exécute désormais automatiquement en arrière-plan sur chaque opportunité.
Anthropic — Mémoire pour les Claude Managed Agents
23 avril — La mémoire pour les Claude Managed Agents est disponible en bêta publique sur la Claude Platform. Les agents peuvent désormais apprendre d’une session à l’autre grâce à une couche mémoire montée directement sur un système de fichiers : les agents utilisent les mêmes capacités bash et d’exécution de code qu’ils emploient déjà pour les tâches agentiques.
| Fonctionnalité | Détail |
|---|---|
| Stores partageables | Plusieurs agents, périmètres d’accès différents (lecture seule / lecture-écriture) |
| Accès concurrent | Sans écrasement entre sessions parallèles |
| Journal d’audit | Quelle session, quel agent, quelle mémoire |
| Retour en arrière | Sur n’importe quelle version précédente |
| Exportabilité | Mémoires gérables via l’API |
Les résultats clients illustrent l’impact concret :
| Client | Résultat |
|---|---|
| Rakuten | -97% d’erreurs en premier passage, -27% de coût, -34% de latence |
| Wisedocs | +30% de vitesse de vérification documentaire |
| Netflix | Continuité du contexte entre sessions sans mise à jour manuelle |
| Ando | Mémoire de plateforme sans infrastructure dédiée |
Memory in Claude Managed Agents lets us put continuous learning into production at scale. Our agents distill lessons from every session, delivering 97% fewer first-pass errors at 27% lower cost and 34% lower latency.
🇫🇷 La mémoire dans les Managed Agents nous permet de mettre l’apprentissage continu en production à grande échelle. Nos agents distillent les leçons de chaque session, produisant 97 % moins d’erreurs en premier passage avec 27 % de coût en moins et 34 % de latence en moins. — Yusuke Kaji, General Manager AI for Business, Rakuten
Claude Code : post-mortem qualité et deux nouvelles versions
Post-mortem et remise à zéro des limites
23 avril — L’équipe Claude Code a publié un post-mortem sur trois problèmes de qualité signalés au cours du mois passé. Tous sont corrigés en v2.1.116+. Les limites d’usage ont été remises à zéro pour tous les abonnés.
Over the past month, some of you reported Claude Code’s quality had slipped. We investigated, and published a post-mortem on the three issues we found. All are fixed in v2.1.116+ and we’ve reset usage limits for all subscribers.
🇫🇷 Au cours du mois passé, certains d’entre vous ont signalé une baisse de qualité de Claude Code. Nous avons enquêté et publié un post-mortem sur les trois problèmes identifiés. Tous sont corrigés en v2.1.116+ et nous avons remis à zéro les limites d’usage pour tous les abonnés. — @ClaudeDevs
v2.1.117 et v2.1.118
| Version | Fonctionnalités principales |
|---|---|
| v2.1.118 | Mode visuel Vim (v/V) avec sélection et opérateurs ; /usage unifié (fusionne /cost et /stats) ; thèmes personnalisés dans /theme ; hooks invoquant des outils MCP via type: "mcp_tool" ; DISABLE_UPDATES strict ; héritage managed settings Windows via WSL |
| v2.1.117 | Effort par défaut passé à high pour Pro/Max sur Opus 4.6 et Sonnet 4.6 (était medium) ; fork de sous-agents activable sur builds externes ; glob/Grep remplacés par bfs/ugrep embarqués pour recherches plus rapides ; fix sessions Opus 4.7 (contexte 1M calculé correctement) ; fix Bedrock+Opus 4.7 avec thinking désactivé |
Nouveaux connecteurs Claude pour la vie quotidienne
23 avril — Anthropic élargit son répertoire de connecteurs aux applications grand public. Depuis juillet 2025, plus de 200 connecteurs pour outils professionnels étaient disponibles ; cette mise à jour ajoute 15 services du quotidien.
| Application | Catégorie |
|---|---|
| AllTrails | Randonnée |
| Audible | Livres audio |
| Booking.com | Voyages |
| Instacart | Courses en ligne |
| Intuit Credit Karma | Finance |
| Intuit TurboTax | Fiscalité |
| Resy | Réservations restaurant |
| Spotify | Musique |
| StubHub | Billetterie |
| Taskrabbit | Services à domicile |
| Thumbtack | Professionnels locaux |
| TripAdvisor | Voyages |
| Uber | Transport |
| Uber Eats | Livraison repas |
| Viator | Activités touristiques |
Claude suggère désormais automatiquement les connecteurs pertinents selon le contexte de la conversation. Disponibles sur tous les plans (gratuit inclus), web, desktop et mobile (mobile en bêta). Aucun placement payant ni réponse sponsorisée ; les données d’une app ne servent pas à entraîner les modèles.
GitHub Copilot — Sept mises à jour en trois jours
GitHub Copilot a publié sept entrées dans son changelog entre le 22 et le 23 avril.
Chat pour les pull requests (3 nouvelles capacités)
23 avril — Copilot Chat intègre désormais trois capacités pour les pull requests, accessibles via github.com/copilot ou le bouton Copilot sur les diffs (preview publique) :
- Compréhension de PR (pull request understanding) : commentaires, changements, commits et revues intégrés comme contexte
- Revue de PR : revue structurée à la demande
- Résumé de PR : résumé concis des changements
🔗 Copilot Chat PR improvements
Sessions d’agent pilotables depuis issues et projets
23 avril — Le cloud agent est désormais pilotable directement depuis les issues et les boards de projets GitHub : indicateur de session en en-tête d’issue, panneau latéral de progression, sessions activées par défaut dans toutes les vues de projets.
🔗 Agent sessions depuis issues
Débogage structuré des stack traces sur le web
23 avril — Copilot Chat sur github.com guide désormais l’analyse des stack traces en six étapes structurées : ce qui a échoué, pourquoi, la cause racine, les preuves issues du code, le niveau de confiance et les vérifications suivantes.
BYOK VS Code disponible (GA)
22 avril — Bring Your Own Key (apportez votre propre clé API) est en disponibilité générale pour les utilisateurs Copilot Business et Enterprise dans VS Code. Anthropic, Gemini, OpenAI, OpenRouter, Azure sont supportés, ainsi que les modèles locaux via Ollama et Foundry Local. La facturation est directe par le fournisseur choisi, hors quotas Copilot.
C++ Language Server en preview publique pour Copilot CLI
22 avril — Le Microsoft C++ Language Server (moteur IntelliSense de Visual Studio/VS Code) est disponible en preview publique pour Copilot CLI. Il fournit des données sémantiques précises (définitions de symboles, références, hiérarchies d’appels, types) en remplacement de la recherche grep itérative. Prérequis : authentification Copilot CLI + compile_commands.json.
Nouvelles inscriptions Business self-serve suspendues
22 avril — GitHub suspend les nouvelles inscriptions en self-serve pour Copilot Business sur les plans GitHub Free et GitHub Team. Les clients existants ne sont pas affectés.
Champ used_copilot_cloud_agent dans les métriques API
23 avril — Suite au rebranding “coding agent” → “cloud agent”, l’API métriques ajoute le champ used_copilot_cloud_agent dans les rapports utilisateurs (1 jour et 28 jours glissants). L’ancien champ used_copilot_coding_agent est maintenu jusqu’au 1er août 2026.
Gemini CLI v0.39.0 et Deep Think pour tous les Ultra
Gemini CLI v0.39.0
23 avril — Google publie Gemini CLI v0.39.0, version stable marquée “Latest”. Le point fort est la nouvelle commande /memory inbox pour revoir et valider les skills extraits automatiquement par le CLI lors des sessions de travail.
| Fonctionnalité | Description |
|---|---|
/memory inbox | Révision des skills extraits automatiquement |
invoke_subagent unifié | Outil sous-agent refactorisé en interface unique |
| Formatage compact | Meilleure lisibilité en mode compact |
| Plan Mode — confirmations | Validation requise avant activation de skills |
| Démarrage allégé | Processus parent léger pour démarrage plus rapide |
| Migration JSONL streaming | Enregistrement de sessions chat en JSONL |
Raccourcis claviers ajoutés : Ctrl+Backspace pour suppression mot par mot (Windows Terminal), Ctrl+Shift+G.
Deep Think ouvert à tous les abonnés Ultra
22 avril — Google ouvre le mode Deep Think (raisonnement approfondi, extended thinking) à l’ensemble des abonnés Gemini Ultra. Ce mode était précédemment en accès limité ; il est maintenant disponible directement depuis le menu outils de l’app Gemini (web et mobile).
Kimi K2.6 : essaim de 300 sous-agents et benchmarks open-weights
Agent Swarm — 300 sous-agents parallèles
23 avril — Moonshot AI lance Kimi K2.6 Agent Swarm : un système capable de déployer 300 sous-agents en parallèle sur 4 000 étapes par exécution, contre 100 agents et 1 500 étapes pour K2.5.
| Capacité | K2.5 | K2.6 |
|---|---|---|
| Sous-agents parallèles | 100 | 300 |
| Étapes par exécution | 1 500 | 4 000 |
| Types d’outputs | Texte chat | 100+ fichiers réels, reviews 100 000 mots, datasets 20 000 lignes |
Les sous-agents combinent des compétences hétérogènes : recherche web, analyse de données, codage, rédaction longue forme et génération visuelle. Disponible sur kimi.com/agent-swarm.
Benchmarks : numéro 1 open-weights
23 avril — Kimi K2.6 atteint la première place des modèles open-weights sur deux benchmarks :
- Design Arena : même bande de performance que Claude Opus 4.7
- MathArena open (mode Think) : devant GLM 5.1
SpaceXAI × Cursor et Grok Imagine
Partenariat SpaceXAI × Cursor
22 avril — SpaceXAI (entité issue du rapprochement xAI/SpaceX) et Cursor annoncent un partenariat pour créer “l’IA de codage et de travail de la connaissance la plus performante du monde”. SpaceX apporte le superordinateur Colossus (équivalent d’un million de H100) ; Cursor lui accorde le droit d’acquérir la société plus tard en 2026 pour $60 milliards, ou de payer $10 milliards pour la collaboration seule.
Grok Imagine — Templates personnalisés partageables
22 avril — Les abonnés SuperGrok et Premium+ peuvent désormais créer des templates personnalisés dans Grok Imagine et les partager publiquement.
NVIDIA × Google Cloud Next
22 avril — À Google Cloud Next (Las Vegas), NVIDIA et Google Cloud annoncent plusieurs avancées majeures autour de l’infrastructure IA agentique.
| Annonce | Détail |
|---|---|
| Instances A5X (Vera Rubin NVL72) | Jusqu’à 960 000 GPUs Rubin en cluster multisite, 10× moins cher par token, 10× plus de débit par mégawatt |
| Gemini sur Google Distributed Cloud | Preview avec GPUs Blackwell et Blackwell Ultra — souveraineté des données |
| Confidential VMs Blackwell | Première offre de calcul confidentiel (confidential computing) Blackwell dans le cloud public |
| Nemotron 3 Super | Disponible sur la Gemini Enterprise Agent Platform |
| NeMo RL API | Apprentissage par renforcement (Reinforcement Learning) managé à grande échelle |
Kling AI Video 3.0 — Mode 4K natif
23 avril — Kling AI lance le mode 4K natif dans sa série Video 3.0. La génération 4K se fait en un seul clic, sans étape d’upscaling supplémentaire. La cohérence visuelle (personnages, textes, styles, éclairages) est assurée en résolution native pour la production haut de gamme. Disponible également via fal.ai pour les entreprises.
Kling AI organise simultanément un 4K Short Film Creative Contest, concours mondial invitant les créateurs à soumettre des courts-métrages réalisés avec le nouveau mode.
ChatGPT for Clinicians et OpenAI Privacy Filter
ChatGPT for Clinicians + HealthBench Professional
22 avril — OpenAI lance ChatGPT for Clinicians, une version gratuite pour les professionnels de santé vérifiés aux États-Unis (médecins, infirmiers praticiens, assistants médicaux, pharmaciens). Le service comprend l’accès aux modèles frontier pour les questions cliniques complexes, des skills pour workflows répétitifs (lettres de référence, autorisations préalables), la recherche clinique citée en temps réel, et la génération automatique de crédits de formation continue (CME). Le traitement HIPAA est disponible en option via accord.
OpenAI publie également HealthBench Professional, un benchmark ouvert évaluant l’IA sur des tâches cliniques réelles (700 000+ réponses évaluées par des médecins). GPT-5.4 dans ChatGPT for Clinicians surpasse les médecins humains sur ce benchmark en conditions non limitées en temps avec accès web.
OpenAI Privacy Filter
22 avril — OpenAI publie Privacy Filter, un modèle open-weight (Apache 2.0) pour détecter et masquer les informations personnellement identifiables (Personally Identifiable Information, PII) dans le texte. Le modèle tourne en local (aucune donnée envoyée vers un serveur), supporte 128K tokens de contexte, et atteint un score F1 de 97.43% sur le benchmark PII-Masking-300k.
| Caractéristique | Valeur |
|---|---|
| Architecture | Classificateur de tokens bidirectionnel (décodage Viterbi contraint) |
| Taille | 1.5B paramètres totaux, 50M actifs |
| Contexte | 128 000 tokens |
| Licence | Apache 2.0 (Hugging Face + GitHub) |
| F1 | 97.43% sur PII-Masking-300k corrigé |
Catégories de PII couvertes : private_person, private_address, private_email, private_phone, private_url, private_date, account_number, secret (mots de passe et clés API).
Perplexity et Cohere
Perplexity intègre Kimi K2.6
23 avril — Kimi K2.6 de Moonshot AI est désormais disponible pour tous les abonnés Pro et Max de Perplexity.
Cohere — W4A8 production-ready dans vLLM
22 avril — Cohere annonce l’intégration de son inférence W4A8 (quantification 4 bits pour les poids, 8 bits pour les activations) dans vLLM. Résultats sur GPU Hopper versus W4A16 : +58% sur le temps jusqu’au premier token (Time To First Token) et +45% sur le temps par token de sortie (Time Per Output Token). L’intégration cible en priorité les modèles MoE Command A à grande échelle en production.
Brèves
Suno numéro 1 dans l’App Store musique
21 avril — Suno, la plateforme de génération musicale IA, atteint la première place de l’App Store dans la catégorie musique. Le CEO Mikey Shulman annonce : « The future of music is one where everyone enjoys creating. »
Anthropic Economic Index Survey
22 avril — Anthropic lance l’Anthropic Economic Index Survey, une enquête mensuelle conduite via Anthropic Interviewer auprès d’un échantillon aléatoire d’utilisateurs Claude. L’objectif est de collecter des données qualitatives sur l’impact économique de l’IA : tâches déléguées, gains de productivité, évolutions des rôles. Les résultats alimenteront les futurs rapports Anthropic Economic Index.
Anthropic — Agents MCP en production : les chiffres
22 avril — Un article technique d’Anthropic documente les bénéfices de MCP pour les agents de production : les SDK MCP dépassent 300 millions de téléchargements par mois, la recherche d’outils (tool search) réduit les tokens de définition d’outils de 85%, et les appels d’outils programmatiques (programmatic tool calling) réduisent l’usage de tokens de 37% sur des workflows multi-étapes complexes.
OpenAI — WebSockets dans l’API Responses : gain de 40% de latence
22 avril — Article rétrospectif d’OpenAI expliquant comment le mode WebSocket dans l’API Responses réduit la latence des boucles d’agents de 40%. La connexion persistante maintient un cache en mémoire de l’état des réponses précédentes, évitant de retraiter tout l’historique à chaque appel. Déjà en production : Codex, Vercel AI SDK, Cline (+39%), Cursor (+30%).
Perplexity Research — Entraînement de modèles de recherche augmentée
22 avril — Perplexity publie une recherche sur son pipeline SFT + RL (Supervised Fine-Tuning + Reinforcement Learning) pour améliorer la qualité des réponses de recherche. Résultat clé : des modèles Qwen post-entraînés atteignent la factualité des modèles GPT à moindre coût.
Ce que ça signifie
Le 23 avril 2026 dessine deux tendances convergentes. D’un côté, GPT-5.5 confirme qu’OpenAI a regagné la tête sur les benchmarks agentiques (Terminal-Bench, ARC-AGI-2, OSWorld) après plusieurs mois où Claude Opus 4.7 dominait. Le gap reste serré sur SWE-Bench Pro, où Anthropic conserve l’avantage — signe que les deux labos s’accordent sur les mêmes cas d’usage prioritaires.
De l’autre côté, la journée marque l’entrée dans l’ère des agents persistants à mémoire : OpenAI Workspace Agents, Anthropic Managed Agents Memory et Kimi K2.6 Agent Swarm arrivent simultanément avec des approches différentes (intégration Slack, filesystem-based, essaim de sous-agents), mais un même objectif — que l’agent se souvienne, apprenne et agisse sans supervision constante. Les chiffres Rakuten (-97% d’erreurs, -27% de coût) donnent une première mesure industrielle de l’impact.
GitHub Copilot continue sa stratégie d’intégration profonde dans GitHub.com (PR chat, agent sessions depuis les issues, stack traces structurées) tout en s’ouvrant à l’extérieur via BYOK. Le BYOK VS Code GA signale que Copilot se positionne autant comme une interface que comme un modèle.
Sources
- GPT-5.5 — OpenAI
- Tweet OpenAI GPT-5.5
- Workspace Agents — OpenAI
- Tweet Workspace Agents
- ChatGPT for Clinicians
- OpenAI Privacy Filter
- WebSockets API Responses — OpenAI
- Mémoire Managed Agents — Anthropic
- Connecteurs vie quotidienne — Anthropic
- Tweet connecteurs — @claudeai
- Post-mortem Claude Code — @ClaudeDevs
- Tweet @bcherny
- CHANGELOG Claude Code
- MCP production agents — Anthropic
- Anthropic Economic Index Survey
- Copilot Chat PR improvements
- Copilot agent sessions depuis issues
- Copilot débogage stack traces
- Copilot BYOK VS Code GA
- Copilot C++ Language Server
- Copilot Business self-serve pause
- Copilot métriques cloud agent
- Gemini CLI v0.39.0
- Gemini Deep Think Ultra — @GeminiApp
- Kimi K2.6 Agent Swarm — @Kimi_Moonshot
- Kimi K2.6 Design Arena
- Kimi K2.6 MathArena
- SpaceXAI × Cursor — @SpaceX
- Grok Imagine templates — @imagine
- NVIDIA × Google Cloud Next
- Kling AI Video 3.0 Mode 4K
- Kling AI 4K Short Film Contest
- Perplexity Kimi K2.6
- Perplexity Research Search-Augmented LMs
- Cohere W4A8 vLLM
- Suno numéro 1 App Store