OpenAI lance GPT-5.5, Anthropic ouvre la mémoire aux Managed Agents, Kimi K2.6 Agent Swarm

Le 23 avril 2026 marque une journée dense : OpenAI lance GPT-5.5 avec 85% sur ARC-AGI-2 et un tarif API à $5/M tokens en entrée, tandis qu’Anthropic ouvre la mémoire persistante en bêta pour ses Managed Agents et publie un post-mortem sur Claude Code. En parallèle, GitHub Copilot livre sept mises à jour en trois jours, Kimi K2.6 déploie un essaim (swarm) de 300 sous-agents, et SpaceX scelle un partenariat de codage avec Cursor.

GPT-5.5 : le modèle frontier d’OpenAI

23 avril — OpenAI lance GPT-5.5, son modèle le plus puissant à ce jour, conçu pour le travail réel et les agents. Il améliore significativement le codage agentique, l’utilisation de l’ordinateur (computer use), le travail de la connaissance et la recherche scientifique, tout en conservant la latence de GPT-5.4.

Disponibilité et tarification

GPT-5.5 est disponible immédiatement pour les abonnés ChatGPT Plus, Pro, Business et Enterprise, ainsi que dans Codex. L’accès API arrive “très bientôt”.

Offre	Accès API	Entrée	Sortie
GPT-5.5 standard	Bientôt	$5 / M tokens	$30 / M tokens
GPT-5.5 Pro	Bientôt	$30 / M tokens	$180 / M tokens

La fenêtre de contexte dans Codex atteint 400K tokens. Un mode Fast — 1,5× plus rapide, 2,5× le coût — est disponible.

Benchmarks

Évaluation	GPT-5.5	GPT-5.4	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82.7%	75.1%	69.4%	68.5%
Expert-SWE (interne)	73.1%	68.5%	—	—
SWE-Bench Pro	58.6%	57.7%	64.3%	54.2%
GDPval	84.9%	83.0%	80.3%	67.3%
OSWorld-Verified	78.7%	75.0%	78.0%	—
ARC-AGI-2	85.0%	73.3%	75.8%	77.1%
FrontierMath Tier 4	35.4%	27.1%	22.9%	16.7%
CyberGym	81.8%	79.0%	73.1%	—
BixBench (bioinformatique)	80.5%	74.0%	—	—

GPT-5.5 est en tête sur la majorité des benchmarks, avec une exception notable : SWE-Bench Pro où Claude Opus 4.7 conserve l’avantage (64.3% vs 58.6%).

Infrastructure et sécurité

Le modèle a été co-conçu avec NVIDIA GB200/GB300 NVL72. Codex a utilisé GPT-5.5 pour optimiser sa propre infrastructure, gagnant +20% de vitesse de génération de tokens. Côté cybersécurité, GPT-5.5 est classé High dans le Preparedness Framework d’OpenAI (pas Critical) ; le programme Trusted Access Cyber lui est étendu.

Recherche scientifique

Au-delà du code, GPT-5.5 a aidé à prouver un nouveau théorème sur les nombres de Ramsey (combinatoire), vérifié formellement en Lean. Il a également analysé un jeu de données génomiques de 62 échantillons et 28 000 gènes en quelques minutes — une tâche qui aurait demandé des mois à une équipe de chercheurs.

« GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use. »

🇫🇷 GPT-5.5 est nettement plus intelligent et persévérant que GPT-5.4, avec de meilleures performances en codage et une utilisation des outils plus fiable. — Michael Truell, co-fondateur et CEO de Cursor

🔗 Annonce GPT-5.5

La vague des agents persistants

Trois annonces majeures convergent ce 23 avril autour de l’agent persistant, capable d’agir de façon autonome sur de longues durées et de retenir le contexte d’une session à l’autre.

OpenAI Workspace Agents dans ChatGPT

22 avril — OpenAI présente les agents d’espace de travail (Workspace Agents) : des agents partagés qu’une équipe crée une fois, utilise ensemble dans ChatGPT ou Slack, et améliore progressivement. Alimentés par Codex dans le cloud, ils peuvent exécuter des tâches complexes même quand l’utilisateur est déconnecté. Les Workspace Agents remplacent progressivement les GPT, qui restent disponibles pendant la transition.

Type d’agent	Fonctionnalité
Vérificateur logiciel	Examine requêtes, compare politiques, crée tickets IT
Routeur retours produit	Surveille Slack/support/forums → tickets priorisés
Générateur de rapports	Extrait données vendredi, crée graphiques, synthèse
Agent de prospection	Recherche leads, évalue, rédige emails, met à jour CRM
Responsable risques tiers	Évalue fournisseurs, produit rapport structuré

Disponibles en research preview pour Business, Enterprise, Edu et Teachers ; gratuits jusqu’au 6 mai 2026, puis facturation en crédits.

Selon Ankur Bhatt (AI Engineering, Rippling), ce qui prenait auparavant 5 à 6 heures par semaine aux commerciaux s’exécute désormais automatiquement en arrière-plan sur chaque opportunité.

🔗 Workspace Agents

Anthropic — Mémoire pour les Claude Managed Agents

23 avril — La mémoire pour les Claude Managed Agents est disponible en bêta publique sur la Claude Platform. Les agents peuvent désormais apprendre d’une session à l’autre grâce à une couche mémoire montée directement sur un système de fichiers : les agents utilisent les mêmes capacités bash et d’exécution de code qu’ils emploient déjà pour les tâches agentiques.

Fonctionnalité	Détail
Stores partageables	Plusieurs agents, périmètres d’accès différents (lecture seule / lecture-écriture)
Accès concurrent	Sans écrasement entre sessions parallèles
Journal d’audit	Quelle session, quel agent, quelle mémoire
Retour en arrière	Sur n’importe quelle version précédente
Exportabilité	Mémoires gérables via l’API

Les résultats clients illustrent l’impact concret :

Client	Résultat
Rakuten	-97% d’erreurs en premier passage, -27% de coût, -34% de latence
Wisedocs	+30% de vitesse de vérification documentaire
Netflix	Continuité du contexte entre sessions sans mise à jour manuelle
Ando	Mémoire de plateforme sans infrastructure dédiée

Memory in Claude Managed Agents lets us put continuous learning into production at scale. Our agents distill lessons from every session, delivering 97% fewer first-pass errors at 27% lower cost and 34% lower latency.

🇫🇷 La mémoire dans les Managed Agents nous permet de mettre l’apprentissage continu en production à grande échelle. Nos agents distillent les leçons de chaque session, produisant 97 % moins d’erreurs en premier passage avec 27 % de coût en moins et 34 % de latence en moins. — Yusuke Kaji, General Manager AI for Business, Rakuten

🔗 Mémoire Managed Agents

Claude Code : post-mortem qualité et deux nouvelles versions

Post-mortem et remise à zéro des limites

23 avril — L’équipe Claude Code a publié un post-mortem sur trois problèmes de qualité signalés au cours du mois passé. Tous sont corrigés en v2.1.116+. Les limites d’usage ont été remises à zéro pour tous les abonnés.

Over the past month, some of you reported Claude Code’s quality had slipped. We investigated, and published a post-mortem on the three issues we found. All are fixed in v2.1.116+ and we’ve reset usage limits for all subscribers.

🇫🇷 Au cours du mois passé, certains d’entre vous ont signalé une baisse de qualité de Claude Code. Nous avons enquêté et publié un post-mortem sur les trois problèmes identifiés. Tous sont corrigés en v2.1.116+ et nous avons remis à zéro les limites d’usage pour tous les abonnés. — @ClaudeDevs

v2.1.117 et v2.1.118

Version	Fonctionnalités principales
v2.1.118	Mode visuel Vim (`v`/`V`) avec sélection et opérateurs ; `/usage` unifié (fusionne `/cost` et `/stats`) ; thèmes personnalisés dans `/theme` ; hooks invoquant des outils MCP via `type: "mcp_tool"` ; `DISABLE_UPDATES` strict ; héritage managed settings Windows via WSL
v2.1.117	Effort par défaut passé à `high` pour Pro/Max sur Opus 4.6 et Sonnet 4.6 (était `medium`) ; fork de sous-agents activable sur builds externes ; `glob`/`Grep` remplacés par `bfs`/`ugrep` embarqués pour recherches plus rapides ; fix sessions Opus 4.7 (contexte 1M calculé correctement) ; fix Bedrock+Opus 4.7 avec thinking désactivé

🔗 CHANGELOG Claude Code

Nouveaux connecteurs Claude pour la vie quotidienne

23 avril — Anthropic élargit son répertoire de connecteurs aux applications grand public. Depuis juillet 2025, plus de 200 connecteurs pour outils professionnels étaient disponibles ; cette mise à jour ajoute 15 services du quotidien.

Application	Catégorie
AllTrails	Randonnée
Audible	Livres audio
Booking.com	Voyages
Instacart	Courses en ligne
Intuit Credit Karma	Finance
Intuit TurboTax	Fiscalité
Resy	Réservations restaurant
Spotify	Musique
StubHub	Billetterie
Taskrabbit	Services à domicile
Thumbtack	Professionnels locaux
TripAdvisor	Voyages
Uber	Transport
Uber Eats	Livraison repas
Viator	Activités touristiques

Claude suggère désormais automatiquement les connecteurs pertinents selon le contexte de la conversation. Disponibles sur tous les plans (gratuit inclus), web, desktop et mobile (mobile en bêta). Aucun placement payant ni réponse sponsorisée ; les données d’une app ne servent pas à entraîner les modèles.

🔗 Connecteurs vie quotidienne

GitHub Copilot — Sept mises à jour en trois jours

GitHub Copilot a publié sept entrées dans son changelog entre le 22 et le 23 avril.

Chat pour les pull requests (3 nouvelles capacités)

23 avril — Copilot Chat intègre désormais trois capacités pour les pull requests, accessibles via github.com/copilot ou le bouton Copilot sur les diffs (preview publique) :

Compréhension de PR (pull request understanding) : commentaires, changements, commits et revues intégrés comme contexte
Revue de PR : revue structurée à la demande
Résumé de PR : résumé concis des changements

🔗 Copilot Chat PR improvements

Sessions d’agent pilotables depuis issues et projets

23 avril — Le cloud agent est désormais pilotable directement depuis les issues et les boards de projets GitHub : indicateur de session en en-tête d’issue, panneau latéral de progression, sessions activées par défaut dans toutes les vues de projets.

🔗 Agent sessions depuis issues

Débogage structuré des stack traces sur le web

23 avril — Copilot Chat sur github.com guide désormais l’analyse des stack traces en six étapes structurées : ce qui a échoué, pourquoi, la cause racine, les preuves issues du code, le niveau de confiance et les vérifications suivantes.

🔗 Débogage stack traces

BYOK VS Code disponible (GA)

22 avril — Bring Your Own Key (apportez votre propre clé API) est en disponibilité générale pour les utilisateurs Copilot Business et Enterprise dans VS Code. Anthropic, Gemini, OpenAI, OpenRouter, Azure sont supportés, ainsi que les modèles locaux via Ollama et Foundry Local. La facturation est directe par le fournisseur choisi, hors quotas Copilot.

🔗 BYOK VS Code GA

C++ Language Server en preview publique pour Copilot CLI

22 avril — Le Microsoft C++ Language Server (moteur IntelliSense de Visual Studio/VS Code) est disponible en preview publique pour Copilot CLI. Il fournit des données sémantiques précises (définitions de symboles, références, hiérarchies d’appels, types) en remplacement de la recherche grep itérative. Prérequis : authentification Copilot CLI + compile_commands.json.

🔗 C++ Language Server

Nouvelles inscriptions Business self-serve suspendues

22 avril — GitHub suspend les nouvelles inscriptions en self-serve pour Copilot Business sur les plans GitHub Free et GitHub Team. Les clients existants ne sont pas affectés.

🔗 Pause Business self-serve

Champ `used_copilot_cloud_agent` dans les métriques API

23 avril — Suite au rebranding “coding agent” → “cloud agent”, l’API métriques ajoute le champ used_copilot_cloud_agent dans les rapports utilisateurs (1 jour et 28 jours glissants). L’ancien champ used_copilot_coding_agent est maintenu jusqu’au 1er août 2026.

🔗 Métriques cloud agent

Gemini CLI v0.39.0 et Deep Think pour tous les Ultra

Gemini CLI v0.39.0

23 avril — Google publie Gemini CLI v0.39.0, version stable marquée “Latest”. Le point fort est la nouvelle commande /memory inbox pour revoir et valider les skills extraits automatiquement par le CLI lors des sessions de travail.

Fonctionnalité	Description
`/memory inbox`	Révision des skills extraits automatiquement
`invoke_subagent` unifié	Outil sous-agent refactorisé en interface unique
Formatage compact	Meilleure lisibilité en mode compact
Plan Mode — confirmations	Validation requise avant activation de skills
Démarrage allégé	Processus parent léger pour démarrage plus rapide
Migration JSONL streaming	Enregistrement de sessions chat en JSONL

Raccourcis claviers ajoutés : Ctrl+Backspace pour suppression mot par mot (Windows Terminal), Ctrl+Shift+G.

🔗 Gemini CLI v0.39.0

Deep Think ouvert à tous les abonnés Ultra

22 avril — Google ouvre le mode Deep Think (raisonnement approfondi, extended thinking) à l’ensemble des abonnés Gemini Ultra. Ce mode était précédemment en accès limité ; il est maintenant disponible directement depuis le menu outils de l’app Gemini (web et mobile).

🔗 Tweet @GeminiApp

Kimi K2.6 : essaim de 300 sous-agents et benchmarks open-weights

Agent Swarm — 300 sous-agents parallèles

23 avril — Moonshot AI lance Kimi K2.6 Agent Swarm : un système capable de déployer 300 sous-agents en parallèle sur 4 000 étapes par exécution, contre 100 agents et 1 500 étapes pour K2.5.

Capacité	K2.5	K2.6
Sous-agents parallèles	100	300
Étapes par exécution	1 500	4 000
Types d’outputs	Texte chat	100+ fichiers réels, reviews 100 000 mots, datasets 20 000 lignes

Les sous-agents combinent des compétences hétérogènes : recherche web, analyse de données, codage, rédaction longue forme et génération visuelle. Disponible sur kimi.com/agent-swarm.

🔗 Tweet @Kimi_Moonshot

Benchmarks : numéro 1 open-weights

23 avril — Kimi K2.6 atteint la première place des modèles open-weights sur deux benchmarks :

Design Arena : même bande de performance que Claude Opus 4.7
MathArena open (mode Think) : devant GLM 5.1

🔗 Design Arena

SpaceXAI × Cursor et Grok Imagine

Partenariat SpaceXAI × Cursor

22 avril — SpaceXAI (entité issue du rapprochement xAI/SpaceX) et Cursor annoncent un partenariat pour créer “l’IA de codage et de travail de la connaissance la plus performante du monde”. SpaceX apporte le superordinateur Colossus (équivalent d’un million de H100) ; Cursor lui accorde le droit d’acquérir la société plus tard en 2026 pour $60 milliards, ou de payer $10 milliards pour la collaboration seule.

🔗 Tweet @SpaceX

Grok Imagine — Templates personnalisés partageables

22 avril — Les abonnés SuperGrok et Premium+ peuvent désormais créer des templates personnalisés dans Grok Imagine et les partager publiquement.

🔗 Tweet @imagine

NVIDIA × Google Cloud Next

22 avril — À Google Cloud Next (Las Vegas), NVIDIA et Google Cloud annoncent plusieurs avancées majeures autour de l’infrastructure IA agentique.

Annonce	Détail
Instances A5X (Vera Rubin NVL72)	Jusqu’à 960 000 GPUs Rubin en cluster multisite, 10× moins cher par token, 10× plus de débit par mégawatt
Gemini sur Google Distributed Cloud	Preview avec GPUs Blackwell et Blackwell Ultra — souveraineté des données
Confidential VMs Blackwell	Première offre de calcul confidentiel (confidential computing) Blackwell dans le cloud public
Nemotron 3 Super	Disponible sur la Gemini Enterprise Agent Platform
NeMo RL API	Apprentissage par renforcement (Reinforcement Learning) managé à grande échelle

🔗 Blog NVIDIA × Google Cloud

Kling AI Video 3.0 — Mode 4K natif

23 avril — Kling AI lance le mode 4K natif dans sa série Video 3.0. La génération 4K se fait en un seul clic, sans étape d’upscaling supplémentaire. La cohérence visuelle (personnages, textes, styles, éclairages) est assurée en résolution native pour la production haut de gamme. Disponible également via fal.ai pour les entreprises.

Kling AI organise simultanément un 4K Short Film Creative Contest, concours mondial invitant les créateurs à soumettre des courts-métrages réalisés avec le nouveau mode.

🔗 Tweet @Kling_ai

ChatGPT for Clinicians et OpenAI Privacy Filter

ChatGPT for Clinicians + HealthBench Professional

22 avril — OpenAI lance ChatGPT for Clinicians, une version gratuite pour les professionnels de santé vérifiés aux États-Unis (médecins, infirmiers praticiens, assistants médicaux, pharmaciens). Le service comprend l’accès aux modèles frontier pour les questions cliniques complexes, des skills pour workflows répétitifs (lettres de référence, autorisations préalables), la recherche clinique citée en temps réel, et la génération automatique de crédits de formation continue (CME). Le traitement HIPAA est disponible en option via accord.

OpenAI publie également HealthBench Professional, un benchmark ouvert évaluant l’IA sur des tâches cliniques réelles (700 000+ réponses évaluées par des médecins). GPT-5.4 dans ChatGPT for Clinicians surpasse les médecins humains sur ce benchmark en conditions non limitées en temps avec accès web.

🔗 ChatGPT for Clinicians

OpenAI Privacy Filter

22 avril — OpenAI publie Privacy Filter, un modèle open-weight (Apache 2.0) pour détecter et masquer les informations personnellement identifiables (Personally Identifiable Information, PII) dans le texte. Le modèle tourne en local (aucune donnée envoyée vers un serveur), supporte 128K tokens de contexte, et atteint un score F1 de 97.43% sur le benchmark PII-Masking-300k.

Caractéristique	Valeur
Architecture	Classificateur de tokens bidirectionnel (décodage Viterbi contraint)
Taille	1.5B paramètres totaux, 50M actifs
Contexte	128 000 tokens
Licence	Apache 2.0 (Hugging Face + GitHub)
F1	97.43% sur PII-Masking-300k corrigé

Catégories de PII couvertes : private_person, private_address, private_email, private_phone, private_url, private_date, account_number, secret (mots de passe et clés API).

🔗 OpenAI Privacy Filter

Perplexity et Cohere

Perplexity intègre Kimi K2.6

23 avril — Kimi K2.6 de Moonshot AI est désormais disponible pour tous les abonnés Pro et Max de Perplexity.

🔗 Tweet @perplexity_ai

Cohere — W4A8 production-ready dans vLLM

22 avril — Cohere annonce l’intégration de son inférence W4A8 (quantification 4 bits pour les poids, 8 bits pour les activations) dans vLLM. Résultats sur GPU Hopper versus W4A16 : +58% sur le temps jusqu’au premier token (Time To First Token) et +45% sur le temps par token de sortie (Time Per Output Token). L’intégration cible en priorité les modèles MoE Command A à grande échelle en production.

🔗 Blog Cohere W4A8

Brèves

Suno numéro 1 dans l’App Store musique

21 avril — Suno, la plateforme de génération musicale IA, atteint la première place de l’App Store dans la catégorie musique. Le CEO Mikey Shulman annonce : « The future of music is one where everyone enjoys creating. »

🔗 Tweet @suno

Anthropic Economic Index Survey

22 avril — Anthropic lance l’Anthropic Economic Index Survey, une enquête mensuelle conduite via Anthropic Interviewer auprès d’un échantillon aléatoire d’utilisateurs Claude. L’objectif est de collecter des données qualitatives sur l’impact économique de l’IA : tâches déléguées, gains de productivité, évolutions des rôles. Les résultats alimenteront les futurs rapports Anthropic Economic Index.

🔗 Annonce enquête

Anthropic — Agents MCP en production : les chiffres

22 avril — Un article technique d’Anthropic documente les bénéfices de MCP pour les agents de production : les SDK MCP dépassent 300 millions de téléchargements par mois, la recherche d’outils (tool search) réduit les tokens de définition d’outils de 85%, et les appels d’outils programmatiques (programmatic tool calling) réduisent l’usage de tokens de 37% sur des workflows multi-étapes complexes.

🔗 Blog MCP production agents

OpenAI — WebSockets dans l’API Responses : gain de 40% de latence

22 avril — Article rétrospectif d’OpenAI expliquant comment le mode WebSocket dans l’API Responses réduit la latence des boucles d’agents de 40%. La connexion persistante maintient un cache en mémoire de l’état des réponses précédentes, évitant de retraiter tout l’historique à chaque appel. Déjà en production : Codex, Vercel AI SDK, Cline (+39%), Cursor (+30%).

🔗 Article WebSockets

Perplexity Research — Entraînement de modèles de recherche augmentée

22 avril — Perplexity publie une recherche sur son pipeline SFT + RL (Supervised Fine-Tuning + Reinforcement Learning) pour améliorer la qualité des réponses de recherche. Résultat clé : des modèles Qwen post-entraînés atteignent la factualité des modèles GPT à moindre coût.

🔗 Research Perplexity

Ce que ça signifie

Le 23 avril 2026 dessine deux tendances convergentes. D’un côté, GPT-5.5 confirme qu’OpenAI a regagné la tête sur les benchmarks agentiques (Terminal-Bench, ARC-AGI-2, OSWorld) après plusieurs mois où Claude Opus 4.7 dominait. Le gap reste serré sur SWE-Bench Pro, où Anthropic conserve l’avantage — signe que les deux labos s’accordent sur les mêmes cas d’usage prioritaires.

De l’autre côté, la journée marque l’entrée dans l’ère des agents persistants à mémoire : OpenAI Workspace Agents, Anthropic Managed Agents Memory et Kimi K2.6 Agent Swarm arrivent simultanément avec des approches différentes (intégration Slack, filesystem-based, essaim de sous-agents), mais un même objectif — que l’agent se souvienne, apprenne et agisse sans supervision constante. Les chiffres Rakuten (-97% d’erreurs, -27% de coût) donnent une première mesure industrielle de l’impact.

GitHub Copilot continue sa stratégie d’intégration profonde dans GitHub.com (PR chat, agent sessions depuis les issues, stack traces structurées) tout en s’ouvrant à l’extérieur via BYOK. Le BYOK VS Code GA signale que Copilot se positionne autant comme une interface que comme un modèle.