Le 21 avril 2026, trois annonces majeures dominent l’actualité IA : OpenAI lance ChatGPT Images 2.0 avec son premier modèle image capable de raisonner, Google DeepMind présente deux agents de recherche autonomes alimentés par Gemini 3.1 Pro, et NVIDIA consolide un partenariat tri-partite avec Adobe et WPP autour d’agents créatifs pour le marketing d’entreprise. Claude Code, Codex et Git 2.54 complètent une journée riche en mises à jour outillage.
ChatGPT Images 2.0 et gpt-image-2
21 avril — OpenAI lance ChatGPT Images 2.0, disponible immédiatement pour tous les utilisateurs de ChatGPT et de Codex. Le modèle sous-jacent, gpt-image-2, est simultanément disponible via l’API.
Cette nouvelle version marque une rupture par rapport à la génération précédente : le suivi d’instructions détaillées (instruction following) est significativement amélioré, le placement et la mise en relation précise des objets sont plus fiables, le rendu de texte dense est revu, et plusieurs formats (portrait, paysage, carré) sont supportés nativement.
Le mode réflexion (thinking) est la principale nouveauté. ChatGPT Images 2.0 est le premier modèle image d’OpenAI doté de capacités de raisonnement. En mode thinking, disponible pour les abonnés Plus, Pro et Business (Enterprise bientôt), le modèle peut :
- Chercher le web en temps réel pour des informations à jour
- Générer plusieurs images distinctes depuis un seul prompt
- Auto-vérifier et corriger ses propres sorties
Les équipes de recherche d’OpenAI ont détaillé les cas d’usage dans un thread : rendu multilingue et texte précis, diapositives et infographies professionnelles, multiples formats et résolutions, suivi d’instructions complexes.
| Fonctionnalité | Disponibilité |
|---|---|
| ChatGPT Images 2.0 (standard) | Tous les utilisateurs ChatGPT et Codex |
| Mode thinking | ChatGPT Plus, Pro, Business (Enterprise bientôt) |
| API gpt-image-2 | Disponible dès maintenant |
La ligne directrice d’OpenAI pour ce lancement : le modèle “passe de la génération d’images au design stratégique, d’un outil à un système visuel.”
🔗 Introducing ChatGPT Images 2.0 🔗 Tweet @OpenAI
Google Deep Research et Deep Research Max
21 avril — Google DeepMind lance deux agents de recherche autonomes alimentés par Gemini 3.1 Pro : Deep Research et Deep Research Max.
Ces agents naviguent à la fois sur le web ouvert et sur des données personnalisées — documents internes, informations financières spécialisées — pour produire des rapports professionnels entièrement cités.
Deep Research est optimisé pour la vitesse et la faible latence, idéal pour les interfaces nécessitant des réponses rapides. Deep Research Max exploite un temps de calcul étendu (extended test-time compute) pour raisonner de façon itérative, affiner les recherches et produire un rapport de haute qualité — conçu pour les traitements asynchrones en arrière-plan.
| Fonctionnalité | Détail |
|---|---|
| Support MCP | Connexion sécurisée à des sources propriétaires ou tierces |
| Génération native de visuels | Premier agent à générer graphiques et infographies (HTML ou Nano Banana 2) |
| Planification collaborative | L’utilisateur peut affiner le plan de recherche avant exécution |
| Multimodalité | PDFs, CSVs, images, audio, vidéo acceptés en entrée |
| Disponibilité | API Gemini, tiers payants, aperçu public |
La génération native de visuels est notable : Deep Research Max peut produire des graphiques et infographies directement dans ses rapports, en HTML ou via Nano Banana 2, sans outil externe. Les startups et entreprises Google Cloud bénéficieront d’une disponibilité prochainement annoncée.
🔗 Annonce @GoogleDeepMind 🔗 Article blog.google
NVIDIA × Adobe × WPP — Agents créatifs pour le marketing d’entreprise
20 avril — NVIDIA élargit ses collaborations stratégiques avec Adobe et WPP pour déployer des agents IA autonomes dans les opérations marketing d’entreprise. L’annonce s’accompagne d’une démonstration live à l’Adobe Summit le 21 avril, avec Jensen Huang (CEO NVIDIA) et Shantanu Narayen (CEO Adobe).
La nouvelle solution Adobe CX Enterprise Coworker est orchestrée par des agents IA reposant sur :
- NVIDIA OpenShell : environnement d’exécution sécurisé, observable et auditable pour workflows agentiques
- NVIDIA Agent Toolkit et modèles Nemotron open-source
- Adobe Firefly Foundry accéléré par infrastructure NVIDIA AI
Concrètement, un retailer mondial peut désormais générer des millions de combinaisons produit/audience/canal en quelques minutes au lieu de mois. Les jumeaux numériques 3D (Omniverse + OpenUSD) servent d’identités produits persistantes pour automatiser la production de contenu haute-fidélité à grande échelle.
🔗 Article blogs.nvidia.com 🔗 Tweet @NVIDIAAI
Claude Code v2.1.116
19–21 avril — Claude Code v2.1.116 apporte une série d’améliorations ciblées sur les performances, la fiabilité et l’expérience terminal.
La mise à jour la plus tangible : la commande /resume est jusqu’à 67 % plus rapide sur les grandes sessions (40 Mo+), avec une meilleure gestion des entrées “dead-fork”. Le démarrage MCP est également plus rapide avec plusieurs serveurs stdio configurés.
Expérience utilisateur :
- L’indicateur de réflexion affiche maintenant la progression en ligne (“still thinking”, “thinking more”, “almost done thinking”), remplaçant la ligne d’indice séparée
/configpeut rechercher par valeur d’option (ex : chercher “vim” trouve le paramètre Editor mode)/doctorpeut être ouvert pendant que Claude répond, sans attendre la fin du tour
Sécurité : le sandbox auto-allow ne contourne plus la vérification des chemins dangereux pour rm/rmdir ciblant /, $HOME ou d’autres répertoires système critiques.
8 corrections terminaux incluent : protocole clavier Kitty (Ctrl+-, Cmd+Gauche/Droite), rendu scripts Devanagari, blocage Ctrl+Z via processus wrapper, duplication scrollback en mode inline, et plusieurs corrections VS Code/Warp/Ghostty.
| Catégorie | Changement clé |
|---|---|
| Performance | /resume 67 % plus rapide sur sessions 40 Mo+ |
| UX | Thinking spinner progressif, /config par valeur |
| Sécurité | Sandbox respecte la protection des chemins critiques |
| Terminaux | 8 corrections (Kitty, VS Code, Warp, Ghostty, WezTerm) |
| Plugins | Auto-install des dépendances manquantes |
Live Artifacts dans Claude Cowork
20 avril — Anthropic lance les “Live Artifacts” dans Claude Cowork : des tableaux de bord et trackers dynamiques directement connectés aux applications et fichiers de l’utilisateur.
Contrairement aux artefacts classiques (statiques), les Live Artifacts se rafraîchissent automatiquement à l’ouverture avec les données actuelles. Ils sont sauvegardés dans un nouvel onglet dédié avec historique de versions, accessible depuis n’importe quelle session.
“In Cowork, Claude can now build live artifacts: dashboards and trackers connected to your apps and files. Open one any time and it refreshes with current data.”
🇫🇷 “Dans Cowork, Claude peut maintenant créer des artefacts dynamiques : des tableaux de bord et trackers connectés à vos applications et fichiers. Ouvrez-en un à tout moment et il se rafraîchit avec les données actuelles.” — @claudeai sur X
La fonctionnalité est disponible sur tous les plans payants via une mise à jour de l’application Claude.
Codex en entreprise : Codex Labs et 7 partenaires intégrateurs
21 avril — OpenAI franchit une nouvelle étape dans le déploiement enterprise de Codex : 4 millions de développeurs l’utilisent chaque semaine (contre 3 millions début avril, soit +33 % en deux semaines), et lance simultanément Codex Labs ainsi qu’un programme de partenariats avec 7 intégrateurs mondiaux.
Codex Labs amène des experts OpenAI directement dans les organisations pour des ateliers pratiques et des sessions de travail, avec pour objectif d’aider les équipes à passer d’un usage expérimental à un déploiement reproductible.
Les 7 partenaires intégrateurs (GSI) : Accenture, Capgemini, CGI, Cognizant, Infosys, PwC et Tata Consultancy Services.
| Entreprise | Usage Codex |
|---|---|
| Virgin Atlantic | Couverture de tests, réduction dette technique |
| Ramp | Accélération des revues de code (code review) |
| Notion | Développement rapide de nouvelles fonctionnalités |
| Cisco | Compréhension de grands dépôts interconnectés |
| Rakuten | Réponse aux incidents (incident response) |
Codex s’étend désormais au-delà du développement logiciel : navigation navigateur, génération d’images, mémoire, orchestration de tâches transversales.
🔗 Scaling Codex to enterprises worldwide
Nano Banana Pro dans Google AI Studio
20 avril — Les abonnés Google AI Pro et Ultra bénéficient désormais d’un accès élargi à Google AI Studio sans clé API requise : accès à Nano Banana Pro et aux modèles Gemini Pro avec des limites d’usage augmentées.
Il suffit de se connecter avec son compte abonné pour passer du prototype à la production. Cette évolution positionne l’abonnement Google AI comme un pont pratique pour les développeurs souhaitant expérimenter sans la complexité de la facturation à la requête.
🔗 Annonce @GoogleAI 🔗 Article blog.google
Kimi FlashKDA open-source
21 avril — Moonshot AI publie en open-source FlashKDA, leur implémentation CUTLASS haute performance des Kimi Delta Attention (KDA) kernels.
| Métrique | Valeur |
|---|---|
| Speedup préfill vs baseline | 1,72× à 2,22× sur H20 |
| Intégration | Drop-in backend pour flash-linear-attention |
| Prérequis | SM90+, CUDA 12.9+, PyTorch 2.4+ |
FlashKDA fonctionne comme un backend interchangeable (drop-in) pour flash-linear-attention. L’intégration est disponible via la PR fla-org/flash-linear-attention#852.
🔗 Repo GitHub FlashKDA 🔗 Tweet @Kimi_Moonshot
Git 2.54
20 avril — Git 2.54 est disponible avec trois évolutions structurelles.
git history (expérimental) — Nouvelle sous-commande pour réécrire l’historique sans passer par git rebase -i :
git history reword <commit>: modifier le message d’un commit et réécrire les branches en placegit history split <commit>: découper un commit en deux interactivement
Config-based hooks — Les hooks peuvent désormais être définis dans les fichiers de configuration Git, plus seulement dans .git/hooks. Cela permet le partage entre plusieurs dépôts via ~/.gitconfig, plusieurs hooks pour le même événement, et la désactivation individuelle via hook.<name>.enabled = false.
Geometric repacking par défaut — git maintenance utilise maintenant la stratégie géométrique par défaut, améliorant les performances sans configuration supplémentaire.
🔗 Highlights from Git 2.54 🔗 Tweet @github
Genspark Build en aperçu public
21 avril — Genspark lance Genspark Build en aperçu public (public preview) : un outil de création d’applications et de sites web propulsé par Claude Opus 4.7, couvrant l’intégralité du processus de idée à maquette design, prototype et code fonctionnel.
Les utilisateurs Plus et Pro bénéficient de 3 jours d’accès sans crédit du 21 au 24 avril (9h PT). Genspark précise lancer “rough edges and all” — l’outil est en construction active.
La même journée, Genspark intègre également Lyria 3 Music dans son AI Music Agent et Gemini 3.1 Flash TTS dans son AI Audio Agent.
🔗 Tweet Genspark Build 🔗 Tweet Lyria 3 + TTS
Cohere — Recherche sur le décodage spéculatif pour modèles MoE
21 avril — Cohere publie un article de recherche technique sur l’optimisation des modèles à mélange d’experts (Mixture-of-Experts, MoE) avec le décodage spéculatif (speculative decoding).
L’équipe valide sur ses modèles MoE en production — dont Command A (111 milliards de paramètres) — une courbe de gain non-monotonique selon la taille de lot : les gains augmentent d’abord avant de diminuer. Deux mécanismes clés sont identifiés : la corrélation temporelle dans le routage d’experts réduit de 20 à 31 % le nombre d’experts uniques à charger en mémoire, et un amortissement des coûts fixes explique les gains élevés à BS=1.
Genspark Claw : Kimi K2.6 dès le jour J
21 avril — Genspark intègre Kimi K2.6 dans son outil Claw dès le jour du lancement (Day 0), via un partenariat avec Fireworks AI qui a accompagné les phases de pré-lancement et de test.
Anthropic STEM Fellows Program
21 avril — Anthropic lance le programme STEM Fellows, ciblant des experts en sciences et ingénierie pour travailler aux côtés des équipes de recherche sur des projets de quelques mois, basés à San Francisco.
Ce que ça signifie
Le 21 avril marque une convergence entre raisonnement et génération multimodale. gpt-image-2 illustre une tendance claire : les modèles génératifs intègrent le raisonnement comme couche d’orchestration, pas seulement comme amélioration de qualité. Le résultat est un modèle capable de chercher, générer, vérifier et corriger dans une même session.
Deep Research Max pousse la même logique côté recherche : avec le support MCP, l’agent peut accéder à des données propriétaires structurées, ce qui ouvre la voie à des workflows analytiques autonomes sans export de données sensibles vers des services tiers.
Le partenariat NVIDIA × Adobe × WPP signale que l’adoption enterprise de l’IA créative sort de la phase pilote. OpenShell comme runtime auditable répond à une vraie contrainte des grandes organisations : les agents autonomes doivent pouvoir être observés et retracés, pas seulement performants.
Côté outillage, les config-based hooks de Git 2.54 sont une évolution architecturale discrète mais importante : les hooks partagés entre dépôts via ~/.gitconfig vont changer les pratiques d’équipe pour la standardisation des workflows CI locaux.
Sources
- Introducing ChatGPT Images 2.0
- Tweet @OpenAI — Images 2.0
- Scaling Codex to enterprises worldwide
- Gemini Deep Research — blog.google
- Tweet @GoogleDeepMind — Deep Research
- Nano Banana Pro dans AI Studio — blog.google
- Tweet @GoogleAI — AI Studio
- NVIDIA × Adobe × WPP — blogs.nvidia.com
- Tweet @NVIDIAAI — Adobe Summit
- CHANGELOG Claude Code v2.1.116
- Annonce Live Artifacts @claudeai
- Highlights from Git 2.54
- Tweet @github — Git 2.54
- Tweet Genspark Build
- Tweet Genspark Lyria 3 + TTS
- FlashKDA GitHub
- Tweet @Kimi_Moonshot — FlashKDA
- Cohere — MoE speculative decoding
- Annonce STEM Fellows @AnthropicAI