Rechercher

Claude Opus 4.6 et GPT-5.3-Codex : double lancement, Gemini 3 mis à jour

Claude Opus 4.6 et GPT-5.3-Codex : double lancement, Gemini 3 mis à jour

Double lancement au sommet : Anthropic sort Claude Opus 4.6 avec contexte 1M tokens et agent teams, pendant qu’OpenAI répond avec GPT-5.3-Codex et une plateforme enterprise. Google pousse Gemini 3 sur tous les fronts, et GitHub répond enfin à une demande vieille de 8 ans.


Claude Opus 4.6 : SOTA en agentic coding et contexte 1M

5 février — Anthropic lance Claude Opus 4.6, une mise à jour majeure de son modèle le plus intelligent. Le modèle progresse en planification, en sessions longues, en revue de code, et propose pour la première fois un contexte de 1 million de tokens en bêta pour un modèle Opus.

BenchmarkScoreDétail
Terminal-Bench 2.0SOTAPlus haut score agentic coding
Humanity’s Last ExamSOTARaisonnement multidisciplinaire
GDPval-AA+144 Elo vs GPT-5.2Travail professionnel (finance, juridique)
BrowseCompSOTARecherche d’information complexe
MRCR v2 (8-needle 1M)76%vs 18.5% pour Sonnet 4.5

Nouveautés API et produit

FonctionnalitéDescription
Agent teamsPlusieurs agents Claude Code en parallèle (research preview)
Adaptive thinkingLe modèle choisit quand utiliser la réflexion approfondie
Effort controls4 niveaux : low, medium, high (défaut), max
Context compactionRésumé automatique du contexte pour sessions longues
128k output tokensSorties plus longues en une seule requête
Claude in PowerPointResearch preview (Max, Team, Enterprise)

Tarification : inchangée à 5/5/25 par million de tokens (input/output). Premium pricing au-delà de 200k tokens (10/10/37.50).

Disponibilité : claude.ai, API (claude-opus-4-6), et toutes les plateformes cloud majeures.

Engineering blogs : bruit d’infrastructure et compilateur C

Anthropic publie deux articles techniques le même jour. Le premier quantifie le bruit d’infrastructure dans les benchmarks de coding agentic : sur Terminal-Bench 2.0, la configuration des ressources seule peut créer des écarts de 6 points de pourcentage entre setups. Le second documente la construction d’un compilateur C en Rust par 16 agents Claude en parallèle : 100 000 lignes de code, capable de compiler le noyau Linux 6.9 sur x86, ARM et RISC-V, en ~2 000 sessions Claude Code pour ~$20 000.

Opus 4.6 dans GitHub Copilot

Le même jour, Claude Opus 4.6 devient disponible en GA dans GitHub Copilot via Agent HQ, après la preview publique annoncée la veille.

🔗 Annonce Opus 4.6 | Infrastructure noise | Building a C compiler


GPT-5.3-Codex : coding frontier + connaissances pro

5 février — OpenAI lance GPT-5.3-Codex, qui fusionne les performances de coding de GPT-5.2-Codex avec les capacités de raisonnement de GPT-5.2, le tout 25% plus rapide.

BenchmarkScore
SWE-Bench Pro (Public)56.8%
Terminal-Bench 2.077.3%
OSWorld-Verified64.7%
GDPval (wins or ties)70.9%
Cybersecurity CTF77.6%
SWE-Lancer IC Diamond81.4%

GPT-5.3-Codex est le premier modèle à avoir contribué à sa propre création : l’équipe a utilisé des versions préliminaires pour déboguer l’entraînement, gérer le déploiement et analyser les résultats de tests.

Au-delà du code

Le modèle produit des présentations, des feuilles de calcul, de l’analyse de données et gère des tâches de productivité dans un environnement de bureau (64.7% sur OSWorld-Verified).

Cybersécurité : haute capacité

GPT-5.3-Codex est le premier modèle classé haute capacité pour la cybersécurité dans le cadre de préparation d’OpenAI, et le premier spécifiquement entraîné à identifier des vulnérabilités logicielles.

🔗 Blog GPT-5.3-Codex | System Card


OpenAI : Frontier, MCP Apps, sécurité et biotech

OpenAI Frontier : plateforme agents enterprise

5 février — OpenAI lance Frontier, une plateforme pour développer, déployer et gérer des agents IA en entreprise. Les agents reçoivent un contexte métier partagé, des autorisations, et apprennent par l’expérience.

AspectDétail
Premiers clientsHP, Intuit, Oracle, State Farm, Thermo Fisher, Uber
Partenaires IAAbridge, Clay, Ambience, Decagon, Harvey, Sierra
ApprocheForward Deployed Engineers (FDE) intégrés aux équipes
StandardsNormes ouvertes, compatible systèmes existants

ChatGPT : MCP Apps en bêta

5 février — Les MCP Apps arrivent en bêta dans ChatGPT Business, Enterprise et Edu. De nouveaux connecteurs partenaires : Amplitude, Fireflies, Vercel, Monday.com, Stripe, Hex, Egnyte et d’autres. Les organisations peuvent construire des apps MCP personnalisées via le mode développeur.

Trusted Access for Cyber

5 février — OpenAI lance Trusted Access for Cyber, un programme pilote d’accès basé sur la confiance pour les capacités cyber avancées. Les utilisateurs peuvent vérifier leur identité sur chatgpt.com/cyber. 10 millions de dollars de crédits API sont alloués à la cyberdéfense via le Cybersecurity Grant Program.

GPT-5 réduit le coût de synthèse protéique

5 février — En partenariat avec Ginkgo Bioworks, OpenAI connecte GPT-5 à un laboratoire robotisé pour optimiser la synthèse protéique cell-free (CFPS). Résultat : 40% de réduction du coût de production et 57% d’amélioration sur le coût des réactifs, après 36 000 compositions testées sur 580 plaques automatisées en six rounds d’expérimentation.

🔗 OpenAI Frontier | MCP Apps | Trusted Access for Cyber | GPT-5 protéines


Google : Gemini 3, Super Bowl et NotebookLM

Gemini 3 : mises à jour et Super Bowl

5-6 février — Google pousse Gemini 3 sur tous les fronts. Gemini 3 Flash, lancé récemment, offre un raisonnement de niveau Pro à la vitesse Flash : 90.4% sur GPQA Diamond et 33.7% sur Humanity’s Last Exam (sans outils). Gemini 3 devient le modèle par défaut pour les AI Overviews dans Google Search.

Google prépare également une pub Gemini de 60 secondes pour le Super Bowl LX (8 février) — le spot “New Home” montre un enfant préparant un déménagement avec l’aide de Gemini, illustrant les capacités de recherche dans Google Photos et de génération d’images.

NotebookLM : Infographics et Slide Decks

NotebookLM, désormais construit sur Gemini 3, déploie les Infographics et Slide Decks pour les utilisateurs Free et Pro. Les Slide Decks sont déjà le deuxième output studio le plus populaire. Les utilisateurs Ultra peuvent retirer le watermark.

🔗 Gemini 3 Flash | Gemini 3 App | NotebookLM Infographics


GitHub : commentaires épinglés sur les Issues

5 février — GitHub lance les commentaires épinglés sur les Issues. Il est désormais possible d’épingler un commentaire en haut d’une issue depuis le menu contextuel. Une fonctionnalité demandée depuis 2017 pour mettre en avant les décisions, mises à jour et prochaines étapes clés dans les threads longs.

🔗 Changelog


Ce que ça signifie

Le 5 février 2026 restera comme un jour marquant : Anthropic et OpenAI lancent simultanément leurs modèles de coding les plus avancés. Claude Opus 4.6 domine les benchmarks de travail professionnel et de recherche d’information, tandis que GPT-5.3-Codex excelle en coding terminal et en utilisation d’ordinateur. Les deux modèles revendiquent le SOTA (State Of The Art, meilleur score de l’industrie) sur Terminal-Bench 2.0 — l’article d’Anthropic sur le bruit d’infrastructure prend tout son sens.

Au-delà des modèles, c’est la bataille des plateformes qui s’intensifie : OpenAI Frontier attaque l’enterprise avec des agents déployés chez Oracle et Uber, tandis qu’Anthropic mise sur l’écosystème développeur (GitHub, Xcode, Claude Code). Google avance sur tous les fronts avec Gemini 3 dans Search, Chrome et NotebookLM, et prépare le Super Bowl pour ancrer Gemini dans le grand public.


Sources