GPT-5.4 avec computer use, NotebookLM Cinematic Videos, Codex sur Windows

La semaine se termine sur plusieurs annonces significatives : GPT-5.4 d’OpenAI consolide le computer use natif avec 75 % sur OSWorld et une fenêtre de contexte d’un million de tokens, NotebookLM introduit les Cinematic Video Overviews où Gemini joue le rôle de réalisateur, et Codex étend son support à Windows avec un bac à sable (sandbox) natif. Côté outillage développeur, Anthropic améliore le skill-creator et lance les HTTP hooks dans Claude Code, GitHub active Copilot Memory par défaut pour tous les utilisateurs Pro.

GPT-5.4 — Computer use natif, 1M tokens, outil de recherche

5 mars 2026 — OpenAI lance GPT-5.4, son modèle frontier pour le travail professionnel. Disponible dans ChatGPT (sous le nom GPT-5.4 Thinking), dans l’API (identifiant gpt-5.4) et dans Codex, ce modèle consolide dans une seule architecture les capacités de raisonnement, de codage et de flux de travail agentiques (agentic workflows) introduites dans les modèles précédents.

La nouveauté technique la plus significative est l’intégration native du computer use : GPT-5.4 peut opérer des interfaces graphiques via captures d’écran et clavier/souris sans plug-in tiers. Sur OSWorld-Verified — le benchmark de référence pour l’interaction avec des interfaces logicielles réelles — GPT-5.4 atteint 75,0 %, contre 47,3 % pour GPT-5.2. La fenêtre de contexte passe à 1 million de tokens dans Codex et l’API.

Une autre nouveauté notable est le tool search : au lieu de recevoir l’intégralité de la liste d’outils disponibles à chaque appel, le modèle reçoit une liste légère et recherche les outils à la demande. OpenAI mesure une réduction de 47 % de la consommation de tokens sur les flux de travail à nombreux outils (testé sur Scale MCP Atlas). Le mode /fast dans Codex gagne 1,5× en vitesse à intelligence égale.

Benchmarks :

Évaluation	GPT-5.4	GPT-5.3-Codex	GPT-5.2
GDPval (travail professionnel)	83,0 %	70,9 %	70,9 %
SWE-Bench Pro	57,7 %	56,8 %	55,6 %
OSWorld-Verified (computer use)	75,0 %	74,0 %	47,3 %
BrowseComp (recherche web)	82,7 %	77,3 %	65,8 %
Toolathlon (utilisation d’outils)	54,6 %	51,9 %	46,3 %
ARC-AGI-2 (raisonnement abstrait)	73,3 %	—	52,9 %

Tarifs API :

Modèle	Entrée	Sortie
gpt-5.2	1,75 $ / M tokens	14 $ / M tokens
gpt-5.4	2,50 $ / M tokens	15 $ / M tokens
gpt-5.2-pro	21 $ / M tokens	168 $ / M tokens
gpt-5.4-pro	30 $ / M tokens	180 $ / M tokens

GPT-5.4 Thinking est accessible dès aujourd’hui aux abonnés ChatGPT Plus, Team et Pro. GPT-5.2 Thinking restera disponible sous « Legacy Models » jusqu’au 5 juin 2026. Sur le plan de la sécurité, OpenAI classe GPT-5.4 comme « High cyber capability » dans son cadre de préparation (Preparedness Framework). L’entreprise publie simultanément CoT-Control, une suite d’évaluation open source mesurant la contrôlabilité de la chaîne de pensée de 13 modèles frontier — les scores, bas (0,1 % à 15,4 %), indiquent que la surveillance des chaînes de pensée reste un outil de sécurité fiable.

🔗 Introducing GPT-5.4 | OpenAI

NotebookLM — Cinematic Video Overviews

4 mars 2026 — NotebookLM introduit les Cinematic Video Overviews dans son Studio. Ces vidéos vont au-delà des Audio Overviews (format podcast) lancés en 2024 et des gabarits (templates) vidéo standard.

Le principe : Gemini est positionné comme réalisateur. Le modèle analyse les sources de l’utilisateur, décide du format le plus adapté (tutoriel, documentaire, etc.), choisit un style visuel, génère les images, puis les auto-critique avant de produire la version finale. Le résultat est une vidéo immersive et personnalisée, unique pour chaque ensemble de sources.

La fonctionnalité est disponible pour les abonnés Google AI Ultra, en anglais, depuis le 4 mars 2026. Le déploiement complet aux utilisateurs Ultra a été confirmé le même jour. Un accès pour les abonnés Pro est prévu dans la feuille de route, sans calendrier précis. Le tweet d’annonce a recueilli 3 millions de vues.

🔗 Annonce NotebookLM sur X

OpenAI — Codex sur Windows, recherche CoT-Control

Codex disponible sur Windows

4 mars 2026 — L’application Codex est désormais disponible sur Windows, avec un bac à sable d’agent natif et la prise en charge des environnements de développement Windows via PowerShell. Deux nouvelles compétences (skills) sont disponibles : $aspnet-core pour les applications Blazor, ASP.NET MVC et Razor Pages, et $winui-app pour les applications Windows natives avec WinUI 3.

🔗 @OpenAIDevs sur X

Recherche — contrôlabilité de la chaîne de pensée

5 mars 2026 — OpenAI publie « Les modèles de raisonnement peinent à contrôler leurs chaînes de pensée, et c’est une bonne chose » (Reasoning models struggle to control their chains of thought, and that’s good). La suite d’évaluation open source CoT-Control mesure la contrôlabilité de la chaîne de pensée de 13 modèles frontier. Les scores varient entre 0,1 % et 15,4 %, ce qui indique que les modèles actuels peinent à modifier délibérément leur raisonnement pour contourner les systèmes de surveillance — résultat présenté comme positif pour la sécurité. OpenAI prévoit d’inclure ces métriques dans les fiches système (system cards) des futurs modèles.

🔗 Recherche CoT-Control | OpenAI

Anthropic — Skill-creator et HTTP hooks

Skill-creator amélioré

3 mars 2026 — Anthropic publie une mise à jour majeure de son outil skill-creator pour Claude Code et Claude.ai. L’annonce introduit deux types formels de compétences (Agent Skills) :

Type	Description	Durabilité
Capability uplift	Aide Claude à faire quelque chose qu’il ne sait pas encore bien faire	Peut devenir obsolète si le modèle s’améliore
Encoded preference	Encode les processus et préférences d’une équipe	Durable, dépend de la fidélité au workflow réel

Les nouvelles fonctionnalités : evals (tests automatisés) pour vérifier qu’une compétence produit le résultat attendu, mode benchmark pour mesurer le taux de réussite, le temps et la consommation de tokens, et support multi-agent pour exécuter les évaluations en parallèle sans contamination croisée entre les tests. Un mode comparateur A/B permet de confronter deux versions d’une compétence. Le skill-creator est disponible dès maintenant sur Claude.ai et Cowork ; pour Claude Code, il s’installe comme plugin.

🔗 Improving skill-creator: Test, measure, and refine Agent Skills

HTTP hooks dans Claude Code

4 mars 2026 — Claude Code lance les HTTP hooks, une alternative aux hooks de commande (command hooks) existants. Au lieu d’exécuter un script shell local, Claude Code envoie un événement vers une URL au choix de l’utilisateur et attend une réponse. Cas d’usage : construire une application web pour visualiser la progression, gérer les permissions, ou synchroniser l’état entre plusieurs instances de Claude Code via une base de données. Les HTTP hooks fonctionnent dans les plugins, les agents personnalisés et les paramètres d’entreprise gérés.

🔗 Tweet @dickson_tsai

Gemini CLI v0.32.0 — Generalist Agent par défaut

3 mars 2026 — La version 0.32.0 du Gemini CLI active par défaut le Generalist Agent pour améliorer la délégation et le routage des tâches. La mise à jour apporte également le pilotage de modèle (Model Steering) directement dans le workspace, des améliorations au Plan Mode (ouverture et modification des plans dans un éditeur externe, gestion multi-sélection pour les tâches complexes), l’autocomplétion interactive dans le shell, et le chargement parallèle des extensions pour de meilleures performances au démarrage.

🔗 Changelog Gemini CLI

GitHub Copilot — Memory par défaut, mobile et métriques

Copilot Memory activé par défaut

4 mars 2026 — GitHub active Copilot Memory par défaut pour tous les utilisateurs des plans Pro et Pro+. La fonctionnalité, auparavant en préversion sur abonnement volontaire, permet à Copilot de retenir des informations persistantes au niveau d’un dépôt : conventions de codage, patterns architecturaux, dépendances critiques.

Les mémoires sont strictement limitées à un seul dépôt et validées contre le code actuel avant application, ce qui évite l’utilisation d’un contexte obsolète. Elles expirent automatiquement après 28 jours. La fonctionnalité est active sur l’agent de codage, la revue de code et le CLI Copilot — les connaissances découvertes par un agent sont immédiatement disponibles pour les autres. Les utilisateurs peuvent désactiver Copilot Memory dans leurs paramètres (Settings > Features > Copilot Memory) ; les administrateurs Enterprise conservent un contrôle total.

🔗 Copilot Memory now on by default for Pro and Pro+ users

Notifications en direct pour les agents dans GitHub Mobile

4 mars 2026 — GitHub Mobile reçoit les notifications en temps réel pour les sessions d’agents Copilot. Les développeurs peuvent suivre la progression de leurs agents, que la session ait été lancée depuis un ordinateur ou depuis le téléphone.

🔗 GitHub Mobile | Annonce sur X

Grok Code Fast 1 dans Copilot Free Auto

4 mars 2026 — GitHub ajoute Grok Code Fast 1 de xAI à la sélection automatique de modèles (Auto) de Copilot Free. Ce modèle peut désormais être sélectionné par Copilot lors des sessions de chat dans Visual Studio Code, Visual Studio, JetBrains IDEs, Xcode et Eclipse.

🔗 Grok Code Fast 1 in Copilot Free auto model selection

Métriques Copilot CLI au niveau utilisateur

5 mars 2026 — GitHub étend les métriques d’utilisation Copilot à l’activité CLI au niveau utilisateur. Cette mise à jour fait suite à la release de la semaine précédente au niveau entreprise. Les administrateurs peuvent désormais identifier les utilisateurs actifs sur le CLI, consulter le nombre de requêtes et de sessions, et suivre la consommation de tokens par utilisateur.

🔗 Copilot usage metrics — user-level CLI activity

Perplexity — GPT-5.4 et Voice Mode dans Computer

GPT-5.4 Thinking disponible sur Perplexity

5 mars 2026 — GPT-5.4 et GPT-5.4 Thinking sont désormais accessibles dans Perplexity pour les abonnés Pro et Max. La version Thinking active le raisonnement étendu de GPT-5.4 pour des réponses plus approfondies sur les requêtes complexes.

🔗 Annonce sur X

Voice Mode dans Perplexity Computer

4 mars 2026 — Perplexity introduit un mode vocal (Voice Mode) dans Perplexity Computer. L’interface, qui permettait déjà de rechercher, coder et déployer des projets, accepte désormais les instructions vocales directement.

🔗 Annonce sur X

Cohere × Aston Martin F1 — partenariat pluriannuel

4 mars 2026 — Cohere annonce un partenariat pluriannuel avec l’écurie Aston Martin Aramco F1. Chaque membre de l’équipe aura accès aux modèles d’entreprise et à la plateforme d’IA agentique de Cohere (North) pour travailler dans l’un des environnements de données les plus exigeants du sport mondial. Le logo Cohere apparaît sur la monoplace à partir du Grand Prix d’Australie 2026.

🔗 Annonce Cohere sur X

Black Forest Labs — Self-Flow, recherche multi-modale

4 mars 2026 — Black Forest Labs (créateurs de FLUX) publie Self-Flow en research preview. Cette approche entraîne des modèles génératifs multi-modaux (image, vidéo, audio, texte) sans dépendre de modèles externes pour la représentation, via une méthode de flow matching auto-supervisé (self-supervised flow matching).

Résultats présentés : jusqu’à 2,8× plus rapide en convergence cross-modale, meilleure cohérence temporelle en vidéo, rendu typographique plus net. Les démonstrations incluent un modèle vidéo 4B paramètres entraîné sur 6M vidéos, un modèle image 4B paramètres entraîné sur 200M images, et un modèle audio-vidéo joint. BFL positionne Self-Flow comme un chemin vers les world models : “Self-Flow opens a path toward world models: combining visual scalability with semantic abstraction for planning and understanding.”

🔗 Tweet @bfl_ml

En bref

Runway a lancé un hub de modèles unifiés le 3 mars, centralisant l’accès aux modèles tiers d’image, vidéo, audio et langage directement dans la plateforme. 🔗 Annonce

Claude a atteint la 1re place de l’App Store iOS dans 14 pays simultanément le 5 mars — Australie, Autriche, Belgique, Canada, France, Allemagne, Irlande, Italie, Nouvelle-Zélande, Norvège, Singapour, Suisse, Royaume-Uni, États-Unis. 🔗 Tweet

Manus a publié sa lettre annuelle le 5 mars à l’occasion de son premier anniversaire, mettant en avant des témoignages d’utilisateurs (une mère, un linguiste de 86 ans, une fleuriste). 🔗 Lettre

Grok a franchi le cap d’un million d’avis sur l’App Store américain. 🔗 Tweet @grok

Ce que ça signifie

GPT-5.4 confirme que le computer use passe du statut expérimental à fonctionnalité intégrée dans un modèle polyvalent. Le score de 75 % sur OSWorld-Verified et la réduction de 47 % des tokens via le tool search sont des mesures concrètes d’un changement de paradigme : les agents IA peuvent désormais opérer des interfaces logicielles complexes sans infrastructure spécialisée.

Du côté des outils développeur, la semaine montre une convergence : Anthropic améliore la façon de tester et superviser les compétences d’agents, GitHub active la mémoire persistante pour ses agents de codage, et Perplexity ajoute le voice mode à son agent Computer. Les environnements d’exécution agentiques (agentic runtimes) s’enrichissent de couches de mémoire, d’observabilité (HTTP hooks, notifications mobiles) et d’interaction naturelle (vocal).

NotebookLM Cinematic Video Overviews illustre un axe différent : la génération de contenu pédagogique long format à partir de sources personnelles. Gemini comme réalisateur — analyser, critiquer, recomposer — est un usage de l’IA comme méta-outil de production créative, plus que comme simple assistant de génération.