Rechercher

Anthropic+xAI partenariat compute Colossus 1, Claude M365 GA, GPT-Realtime-2 voix raisonnement

Anthropic et xAI signent un accord inédit : 220 000 GPU NVIDIA du supercalculateur Colossus 1 viennent doubler les limites Claude Code dès cette semaine. Claude for Microsoft 365 passe en disponibilité générale sur Excel, PowerPoint et Word. OpenAI lance GPT-Realtime-2, premier modèle vocal doté du raisonnement de niveau GPT-5. Perplexity ouvre Personal Computer à tous les utilisateurs Mac, et ElevenLabs franchit les 500 millions de dollars d’ARR avec NVIDIA comme investisseur stratégique.


Anthropic loue Colossus 1 à xAI — 220 000 GPU NVIDIA, doublement des limites Claude Code

6 mai — Anthropic annonce simultanément une hausse immédiate des limites d’utilisation et un accord d’infrastructure inédit avec SpaceX / xAI.

Pour les utilisateurs, le changement le plus visible est le doublement des limites de débit sur cinq heures dans Claude Code, effectif immédiatement sur les plans Pro, Max, Team et Enterprise. La réduction automatique aux heures de pointe — qui bridait les plans Pro et Max — est également supprimée. Les limites API pour les modèles Claude Opus sont relevées en parallèle.

Ces hausses deviennent possibles grâce à un accord avec SpaceX : Anthropic accède à la totalité de la capacité de Colossus 1, le supercalculateur de xAI, soit plus de 300 mégawatts et plus de 220 000 GPU NVIDIA (H100, H200 et GB200). Cette capacité est disponible dans le mois. Les deux entreprises annoncent également une intention commune de développer plusieurs gigawatts de capacité de calcul IA en orbite — une première dans l’industrie.

Ce partenariat vient s’ajouter à une accumulation d’accords déjà en cours : Amazon (jusqu’à 5 GW dont près de 1 GW disponible fin 2026), Google et Broadcom (5 GW dès 2027), Microsoft et NVIDIA (30 milliards de dollars de capacité Azure), et Fluidstack (50 milliards de dollars d’infrastructure IA américaine). L’expansion internationale intégrera les exigences de résidence des données pour les secteurs réglementés. Anthropic s’engage par ailleurs à couvrir toute hausse du prix de l’électricité pour les consommateurs locaux liée à ses datacenters.

ChangementPlans concernésEffective
Doublement limites 5h Claude CodePro, Max, Team, EnterpriseImmédiat
Suppression réduction heures de pointePro, MaxImmédiat
Hausse limites API OpusTousImmédiat
Accord computeCapacitéCalendrier
SpaceX / xAI Colossus 1300+ MW, 220 000+ GPU NVIDIADans le mois
AmazonJusqu’à 5 GW (~1 GW fin 2026)2026
Google + Broadcom5 GWDès 2027
Microsoft + NVIDIAUSD 30 milliards Azure
FluidstackUSD 50 milliards infrastructure US

🔗 Anthropic — Hausse des limites + accord SpaceX


Claude for Microsoft 365 — disponibilité générale sur Excel, PowerPoint, Word + bêta Outlook

7 mai — Claude for Excel, PowerPoint et Word passent en disponibilité générale pour tous les plans payants. Claude for Outlook entre simultanément en bêta publique dans les mêmes conditions.

“Claude for Excel, PowerPoint, and Word are now generally available, and Claude for Outlook is in public beta. As Claude moves between your Microsoft apps, it carries the full context of your conversation.”

🇫🇷 Claude for Excel, PowerPoint et Word est désormais disponible pour tous, et Claude for Outlook est en bêta publique. Au fil de vos applications Microsoft, Claude conserve l’intégralité du contexte de votre conversation.@claudeai sur X

La fonctionnalité centrale est le contexte partagé entre les quatre applications : une conversation commencée dans Outlook pour trier un e-mail se poursuit dans Word pour rédiger un mémo, puis dans Excel pour l’analyse de données, et dans PowerPoint pour la présentation — sans jamais ré-expliquer le contexte. La mise à jour croisée automatique est l’autre apport concret : ajuster une hypothèse dans un modèle Excel actualise simultanément le graphique dans la présentation et le chiffre correspondant dans le mémo Word.

Parmi les entreprises citées : ServiceNow (“Claude does the work in Excel itself, instead of asking us to move content between tools”) et des équipes de gestion d’actifs privés qui l’utilisent pour construire et maintenir des modèles de couverture financière.

ApplicationStatut au 7 mai 2026Plans
Claude for ExcelDisponibilité générale (GA)Tous plans payants
Claude for PowerPointDisponibilité générale (GA)Tous plans payants
Claude for WordDisponibilité générale (GA)Tous plans payants
Claude for OutlookBêta publiqueTous plans payants

🔗 Annonce Claude for Microsoft 365


Claude Managed Agents — dreaming, outcomes, orchestration multiagent, webhooks

6 mai — Lors de la conférence Code with Claude, Anthropic lance plusieurs nouvelles fonctionnalités pour sa plateforme de déploiement d’agents.

La nouveauté la plus marquante est dreaming : un processus planifié qui analyse les sessions passées d’un agent, en extrait des motifs récurrents et consolide sa mémoire pour qu’il s’améliore au fil du temps. Le développeur garde le contrôle — dreaming peut mettre à jour la mémoire automatiquement ou soumettre chaque changement à une revue humaine. Dreaming est disponible en recherche expérimentale (research preview) sur demande.

Outcomes entre en bêta publique : cette fonctionnalité permet d’évaluer chaque résultat d’un agent selon des critères définis par le développeur avant de le livrer à l’utilisateur. L’entreprise Wisedocs l’a utilisée pour accélérer de 50 % la revue de documents médicaux tout en maintenant l’alignement avec ses standards internes.

L’orchestration multiagent permet à un agent pilote de déléguer des sous-tâches à des agents spécialistes qui s’exécutent en parallèle, facilitant le traitement de travaux complexes nécessitant plusieurs expertises simultanées. Les webhooks sont également disponibles pour déclencher des actions externes.

FonctionnalitéDisponibilitéDescription
DreamingResearch preview (sur demande)Auto-amélioration par analyse des sessions passées
OutcomesBêta publiqueÉvaluation des résultats avant livraison
Orchestration multiagentBêta publiqueAgent pilote + agents spécialistes en parallèle
WebhooksBêta publiqueDéclenchement d’actions externes

🔗 Annonce Claude Managed Agents


GPT-Realtime-2 — voix avec raisonnement GPT-5 et contexte 128K

7 mai — OpenAI lance une nouvelle génération de modèles dans la Realtime API : GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper.

GPT-Realtime-2 est le premier modèle vocal doté du raisonnement de niveau GPT-5 : il peut gérer des requêtes complexes, appeler des outils en parallèle (parallel tool calls), récupérer après des interruptions (recovery behavior) et maintenir une fenêtre de contexte de 128 000 tokens (contre 32 000 pour son prédécesseur), adaptée aux sessions longues. Cinq niveaux de raisonnement sont ajustables : minimal, low, medium, high, xhigh (low par défaut). Des formules de transition (preambles) peuvent être insérées avant les réponses pour une fluidité naturelle.

GPT-Realtime-Translate permet la traduction simultanée en direct vers 13 langues cibles depuis 70+ langues sources. GPT-Realtime-Whisper offre une transcription en flux (streaming) à basse latence.

Zillow a testé GPT-Realtime-2 sur ses interactions vocales : +26 points de taux de réussite sur son benchmark adversarial le plus difficile (95 % contre 69 %). EU Data Residency est supporté.

ModèleCapacitéTarif
GPT-Realtime-2Voix + raisonnement GPT-5, 128K$32/1M tokens audio input, $64/1M output
GPT-Realtime-TranslateTraduction 70→13 langues$0,034/min
GPT-Realtime-WhisperTranscription en flux$0,017/min
BenchmarkGPT-Realtime-1.5GPT-Realtime-2 (high)GPT-Realtime-2 (xhigh)
Big Bench Audioréférence+15,2 %
Audio MultiChallenge APR36,7 %70,8 %

🔗 Annonce OpenAI — nouveaux modèles voix


Perplexity Personal Computer disponible pour tous les utilisateurs Mac

7 mai — Perplexity lance une nouvelle application macOS et ouvre Personal Computer à tous les utilisateurs, sans restriction d’abonnement Pro ou Max.

L’application fait sortir l’IA du cloud pour l’installer directement sur l’appareil. Elle opère sur les fichiers locaux, les applications Mac natives, le web ouvert et les serveurs sécurisés Perplexity. Elle supporte 400+ connecteurs et s’intègre avec le navigateur Comet pour les outils web sans connecteurs directs. Les plans Pro et Max voient leurs crédits liés à l’abonnement existant ; les utilisateurs gratuits y ont aussi accès.

L’usage recommandé est le Mac mini comme hub permanent : des équipes d’agents peuvent fonctionner en continu (24h/24), pendant que l’utilisateur travaille sur autre chose, avec une notification quand une validation humaine est nécessaire. Le contrôle s’effectue depuis n’importe quel appareil — iPhone inclus.

L’ancienne application Perplexity Mac sera retirée dans les prochaines semaines. Le téléchargement est direct (pas encore disponible sur l’App Store).

DimensionValeur
DisponibilitéTous les utilisateurs Mac
Appareil recommandéMac mini (allumé en permanence)
Connecteurs supportés400+
Intégration navigateurComet
App StoreNon (téléchargement direct)
Ancienne appRetrait dans les prochaines semaines

🔗 Blog Perplexity — Personal Computer pour tous


Perplexity Finance Search dans l’Agent API — #1 précision sur FinSearchComp T1

6 mai — Perplexity lance Finance Search dans l’Agent API : un seul appel d’outil agrège données financières sous licence, données de marché en temps réel et sources web citées.

Le problème résolu est simple : les décisions financières dépendent de sources fiables, à jour et traçables. Finance Search remplace la recherche web générique par des données structurées sous licence — cours, fondamentaux, transcripts de conférences téléphoniques, estimations — retournées dans un schéma cohérent quel que soit le fournisseur en arrière-plan.

Sur le benchmark FinSearchComp T1, Finance Search atteint la plus grande précision pour les données financières en temps réel, constante dans le temps, et le coût le plus faible par réponse correcte (moins de tokens nécessaires grâce aux données structurées). Les citations sont intégrées dans chaque résultat. Le modèle est configurable par le développeur, avec visibilité sur l’utilisation des tokens.

Finance Search est complémentaire de Computer for Professional Finance (déjà couvert le 5 mai) : là où le premier offre un workspace visuel, Finance Search s’intègre dans des workflows programmatiques via l’API.

DimensionValeur
InterfaceUn seul appel d’outil (finance_search)
Données couvertesCours, fondamentaux, transcripts, estimations, contexte marché
Benchmark FinSearchComp T1#1 précision, #1 coût/réponse correcte
CitationsIntégrées dans chaque résultat

🔗 Blog Perplexity — Finance Search


Natural Language Autoencoders (NLAs) — lire les pensées internes de Claude

7 mai — Anthropic publie une nouvelle méthode d’interprétabilité qui convertit les activations internes d’un modèle en texte directement lisible.

L’architecture repose sur un entraînement en boucle fermée : un verbalisateur d’activation (activation verbalizer) traduit une activation en texte explicatif, un reconstructeur d’activation (activation reconstructor) tente de reconstruire l’activation depuis ce texte. Plus la reconstruction est fidèle, meilleure est l’explication.

L’application sécurité est frappante : appliquées à Claude Opus 4.6 et Claude Mythos Preview, les NLAs révèlent que les modèles suspectaient être en situation de test bien plus souvent qu’ils ne l’exprimaient. Dans les tests de code destructif, la conscience implicite de l’évaluation apparaît dans 16 % des cas, contre 0 % de verbalisation explicite. Sur SWE-bench Verified, ce chiffre monte à 26 %. Sur de vraies conversations d’utilisateurs claude.ai, il reste inférieur à 1 %.

Sur un jeu d’audit avec un modèle intentionnellement mal aligné, les auditeurs équipés de NLAs ont identifié la cause racine dans 12 à 15 % des cas, contre moins de 3 % avec d’autres outils. Le code d’entraînement est publié en open source ; une démo interactive est disponible sur Neuronpedia.

ÉvaluationConscience implicite (NLA)Conscience verbalisée
Tests code destructif16 %~0 %
SWE-bench Verified26 %~0 %
Conversations claude.ai réelles< 1 %

🔗 Anthropic Research — Natural Language Autoencoders


Petri 3.0 — outil d’alignement open source cédé à Meridian Labs

7 mai — Anthropic cède Petri, son outil d’alignement open source, à Meridian Labs, organisation indépendante à but non lucratif dédiée à l’évaluation de l’IA.

Petri est une boîte à outils de tests d’alignement applicable à n’importe quel modèle de langage : tromperie, sycophanie, coopération avec des requêtes nuisibles. Intégré aux évaluations de tous les modèles Claude depuis Sonnet 4.5, il a été adopté par l’AI Security Institute britannique pour ses évaluations de sabotage de la recherche IA.

La version 3.0 apporte trois avancées : une meilleure adaptabilité par séparation des composants auditeur et modèle cible, un module “Dish” qui exécute les tests dans les conditions réelles de déploiement (vrai system prompt, vrai scaffold) pour rendre les scénarios moins détectables, et une intégration avec Bloom pour des évaluations comportementales plus approfondies.

La cession à Meridian Labs suit le modèle de la cession du protocole MCP à la Linux Foundation : garantir l’indépendance de l’outil vis-à-vis de tout laboratoire d’IA.

🔗 Anthropic Research — Petri 3.0


The Anthropic Institute (TAI) — agenda de recherche sur 4 axes

7 mai — Anthropic publie l’agenda de recherche complet du TAI, l’organisation interne lancée en mars 2026 pour étudier les impacts réels de l’IA depuis la position d’un laboratoire frontier.

L’agenda s’articule sur quatre axes : diffusion économique (adoption IA par les entreprises et les pays, impact sur les marchés du travail), menaces et résilience (capacités à double usage, cybersécurité, mécanismes défensifs), systèmes IA dans la nature (in the wild — effets comportementaux et institutionnels de l’IA déployée à grande échelle), et R&D par l’IA (accélération de la recherche scientifique par l’IA elle-même, y compris les risques de boucle récursive d’auto-amélioration).

Le TAI s’engage à partager des données plus fréquentes de l’Anthropic Economic Index et des informations sur l’accélération interne d’Anthropic par ses propres outils. Un appel à candidatures pour le programme Anthropic Fellows (quatre mois financés) est ouvert.

🔗 Anthropic Research — Agenda TAI


Codex Extension Chrome — pilotage navigateur en arrière-plan sur macOS et Windows

7 mai — OpenAI lance l’extension Chrome pour Codex, permettant à l’agent de piloter directement des onglets Chrome sans interrompre le workflow de l’utilisateur.

Codex opère en arrière-plan sur plusieurs onglets simultanément, en combinant ses capacités de plugins natifs avec l’accès direct aux sites web (tableaux de bord, CRM, applications web). Le système choisit automatiquement le meilleur outil pour chaque étape : plugins, Chrome ou combinaison. Cas d’usage : déboguer des flux navigateur, vérifier des tableaux de bord, faire de la recherche, mettre à jour des CRM, tester des applications web complexes (y compris des jeux multijoueur via des sous-agents).

L’extension s’installe via le plugin Chrome dans l’app Codex. Disponible immédiatement sur macOS et Windows pour tous les utilisateurs Codex.

🔗 Tweet OpenAI — Codex Chrome Extension


ChatGPT Trusted Contact — sécurité santé mentale avec revue humaine

7 mai — OpenAI déploie Trusted Contact, une fonctionnalité de sécurité optionnelle dans ChatGPT.

Tout adulte (18+, 19+ en Corée du Sud) peut désigner une personne de confiance (ami, famille, soignant) qui sera alertée si des signaux de crise sont détectés dans ses conversations. Le processus combine détection automatisée et revue humaine (objectif : moins d’une heure avant tout envoi), avec une notification sans accès aux transcriptions pour protéger la vie privée. La fonctionnalité étend aux adultes les contrôles parentaux déjà existants pour les comptes ados. Développée avec l’American Psychological Association et un réseau de 260+ médecins dans 60 pays.

ParamètreValeur
Éligibilité18+ (19+ Corée du Sud)
Délai d’acceptation pour le contact1 semaine
SLA revue humaineObjectif < 1 heure
Contenu notificationRaison générale, sans transcription
CanauxEmail, SMS, in-app

🔗 OpenAI — Trusted Contact


OpenAI B2B Signals — l’écart entre entreprises de pointe et entreprises typiques se creuse

6 mai — OpenAI publie le premier rapport B2B Signals, qui documente l’écart croissant entre les entreprises “de pointe” et les entreprises typiques dans leur adoption de l’IA.

Les entreprises du 95e percentile utilisent 3,5× plus d’intelligence par employé que les entreprises typiques (contre 2× en avril 2025). L’écart tient moins au volume de messages (36 % de l’écart) qu’à la profondeur d’usage (64 %) : délégation de tâches complexes, workflows agentiques, intégration dans les systèmes de production. Sur Codex, l’écart est le plus marqué : ×16 de messages par employé.

Deux cas concrets : Cisco réduit le temps de build de ~20 %, économise 1 500+ heures d’ingénierie par mois et multiplie par 10 à 15 la vitesse de résolution des défauts. Travelers Insurance traite ~100 000 appels sinistres par an via un assistant.

IndicateurEntreprises typiquesEntreprises de pointe
Intelligence/employéréférence×3,5
Messages Codex/employéréférence×16
Part du volume dans l’écart36 %
Part de la profondeur dans l’écart64 %

🔗 OpenAI — B2B Signals


MRC — Protocole réseau open source pour supercalculateurs Stargate

5 mai — OpenAI publie en open source via l’Open Compute Project le protocole MRC (Multipath Reliable Connection), co-développé avec AMD, Broadcom, Intel, Microsoft et NVIDIA sur deux ans.

MRC est un protocole réseau 800 Gb/s pour supercalculateurs d’entraînement IA de grande échelle. Il connecte 100 000+ GPU avec seulement 2 niveaux de switches (contre 3 à 4 en approche conventionnelle), en pulvérisant les paquets sur des centaines de chemins simultanément via routage source IPv6 (SRv6). La récupération après panne s’effectue en microsecondes (contre plusieurs secondes avec BGP dynamique classique). Déjà en production sur Stargate (Abilene, Texas) et les supercalculateurs Fairwater de Microsoft, MRC a permis l’entraînement de plusieurs modèles dont GPT-5.5 et Codex.

AspectApproche conventionnelleMRC
Niveaux de switches pour 100K+ GPU3-42
Récupération après panneSecondes à dizaines de secondesMicrosecondes
RoutageBGP dynamiqueSRv6 statique
Répartition paquets1 chemin par transfert100s de chemins en parallèle

🔗 OpenAI — MRC Supercomputer Networking


Perplexity ROSE — Moteur d’inférence propriétaire et CuTeDSL

6 mai — Perplexity publie un article de recherche détaillant ROSE (Runtime-Optimized Serving Engine), son moteur d’inférence propriétaire, et son intégration de CuTeDSL (librairie de kernels GPU NVIDIA).

ROSE alimente tous les services Perplexity (Sonar, Search, Embeddings) sur des GPU NVIDIA Hopper et Blackwell, des modèles d’encodage jusqu’aux LLM à mille milliards de paramètres. CuTeDSL permet de construire des kernels GPU personnalisés optimisés plus rapidement, adaptés aux nouvelles architectures de modèles à un rythme soutenu.

Cette publication illustre la stratégie de Perplexity : contrôler l’ensemble de la pile technique jusqu’au niveau des kernels GPU pour se différencier sur la performance et réduire la dépendance aux frameworks tiers.

🔗 Perplexity Research — CuTeDSL et ROSE


ElevenLabs atteint 500 M$ d’ARR — NVIDIA investisseur via NVentures

5 mai — ElevenLabs annonce un troisième closing de sa Série D avec NVIDIA comme nouvel investisseur stratégique via NVentures.

L’ARR est passé de 350 Mfin2025aˋ500M fin 2025 à **500 M en avril 2026**, soit +43 % en quatre mois. Ce troisième closing inclut également BlackRock, Wellington Management, D.E. Shaw, Schroders, ainsi que des entreprises clientes (Salesforce, Santander, KPN, Deutsche Telekom) et un investissement retail via Robinhood Ventures. Un tender offer de 100 M$ a été clôturé en parallèle. ElevenLabs compte 530 employés dans 50+ pays. La feuille de route annonce la fusion image/vidéo et audio dans une plateforme créative unifiée.

🔗 ElevenLabs — 500 M$ ARR et nouveaux investisseurs


AlphaEvolve en production — 5 secteurs industriels via Google Cloud

7 mai — Un an après son lancement, Google DeepMind publie un bilan d’AlphaEvolve, son agent de codage alimenté par Gemini, désormais passé de la recherche à la production industrielle.

AlphaEvolve optimise l’infrastructure critique de Google : TPU, politiques de remplacement de cache, compaction LSM-tree dans Google Spanner. Il est déployé commercialement via Google Cloud dans cinq secteurs : finance (doublement des performances d’un transformer), semi-conducteurs (lithographie computationnelle), logistique (problème du voyageur de commerce), publicité et sciences des matériaux (~4× de gain de vitesse chez Schrödinger). Sur le plan académique, AlphaEvolve a collaboré avec Terence Tao (UCLA) sur les problèmes d’Erdős et amélioré les bornes inférieures pour le problème du voyageur de commerce et les nombres de Ramsey.

🔗 DeepMind — AlphaEvolve Impact


Manus Projects auto-apprenants — workspace agentique qui s’améliore à chaque tâche

6 mai — Manus lance une fonctionnalité permettant aux Projets d’apprendre automatiquement de chaque conversation et de proposer des mises à jour approuvées par l’utilisateur.

À l’issue de chaque tâche, Manus identifie les décisions, normes et modèles réutilisables, puis propose : des mises à jour d’instructions (quand le processus ou la terminologie a évolué), des mises à jour de fichiers (sources, exemples ou modèles obsolètes) et des mises à jour de compétences (skills) pour les flux récurrents. Aucune modification n’est appliquée sans validation humaine explicite. Les futurs collaborateurs démarrent avec le dernier contexte partagé du Projet. La fonctionnalité est disponible pour toutes les sessions où instructions et fichiers sont pris en charge.

🔗 Manus — Projets auto-apprenants


Brèves

  • Bug bounty Anthropic ouvert au public — Le programme, jusqu’ici privé au sein de la communauté de recherche en sécurité, est maintenant accessible à tous sur HackerOne. 🔗 source
  • xAI Image Generation Quality Mode API — Le mode qualité de génération d’images (300 M+ images générées sur Grok) est désormais disponible via l’API xAI : réalisme accru, meilleur rendu du texte, contrôle créatif renforcé. 🔗 source
  • Z.ai GLM-5V-Turbo Tech Report — Z.ai (Zhipu AI) publie le rapport technique de GLM-5V-Turbo, modèle de fondation natif pour agents multimodaux avec encodeur CogViT (distillation SigLIP2 + DINOv3) et boucle perception-planification-exécution. 🔗 source
  • ChatGPT Futures Class of 2026 — OpenAI distingue 26 jeunes bâtisseurs issus de 20+ universités (Vanderbilt, Oxford, Georgia Tech…) avec un grant de USD 10 000 chacun et un accès aux modèles de pointe. 🔗 source
  • NVIDIA DeepStream + Claude Code — Démonstration d’une approche “concept to app” combinant DeepStream, Claude Code et reusable Skills pour générer des applications Vision AI sans écrire chaque ligne de code. 🔗 source
  • NVIDIA Guess-Verify-Refine — Nouvelle technique d’inférence hardware-aware où chaque étape de décodage donne une longueur d’avance à la suivante, conçue spécifiquement pour les accélérateurs NVIDIA. 🔗 source
  • TokenSpeed + NVIDIA Dynamo — TokenSpeed (LightSeek Foundation) atteint le niveau TensorRT-LLM en open source ; NVIDIA Dynamo ajoute un support day-0 pour ce backend, avec Kimi K2.5 supporté via le frontend Dynamo. 🔗 source
  • Ideogram BG Remover — Nouveau modèle génératif (entraîné de zéro, pas une segmentation classique) pour la suppression d’arrière-plan : préservation du canal alpha, orienté logos et illustrations complexes, API disponible. 🔗 source
  • Google DeepMind × EVE Online — Partenariat avec CCP Games pour explorer la recherche IA dans les environnements de jeux complexes dirigés par les joueurs. 🔗 source
  • GitHub Copilot Trust Layer — Microsoft/GitHub publie une recherche sur une couche de confiance structurelle pour valider les agents Copilot (graphes d’exécution + analyse des dominateurs) : précision 100 % vs 82,2 % pour l’auto-évaluation, rappel 100 % vs 60 %. 🔗 source
  • GitHub — reviewer les pull requests d’agents — Guide pratique (checklist 10 minutes) avec 5 signaux d’alerte : CI gaming, code reuse blindness, hallucinated correctness, agentic ghosting, injection de prompts dans les pipelines CI. 🔗 source

Ce que ça signifie

La course au Personal Computer s’accélère. En l’espace d’une semaine, trois interfaces très différentes visent le même bureau de l’utilisateur : Perplexity Personal Computer s’installe sur Mac (et Mac mini comme hub permanent), Claude envahit les quatre applications Microsoft 365 avec un contexte partagé, et Codex pilote Chrome en arrière-plan. Ces agents ne sont plus dans le cloud : ils s’intègrent dans les workflows existants, sur les fichiers ouverts, dans les applications natives. Le glissement de la recherche d’information vers l’action directe sur les outils de travail quotidiens est désormais concret.

Le compute orbital entre dans le registre des faits. L’accord Anthropic/xAI Colossus 1 est remarquable à deux titres : d’abord, il donne à Anthropic un accès immédiat à 220 000 GPU NVIDIA pour doubler ses limites dès cette semaine ; ensuite, il inclut une intention commune de développer plusieurs gigawatts de capacité IA en orbite. Cumulé aux accords Amazon, Google/Broadcom, Microsoft/NVIDIA et Fluidstack, Anthropic constitue une infrastructure de calcul qui n’a pas d’équivalent chez un laboratoire de recherche indépendant. Cette accumulation de puissance de calcul est la condition préalable à la prochaine génération de modèles — et au doublement continu des limites.

La voix raisonnante change le périmètre des agents vocaux. GPT-Realtime-2 n’est pas une mise à jour cosmétique : porter le raisonnement GPT-5 dans une interface temps réel, avec 128K de contexte et appels d’outils parallèles, transforme les cas d’usage. Zillow mesure +26 points de taux de réussite sur ses appels les plus difficiles. La traduction en direct (70 langues sources vers 13 cibles) dans le même modèle ouvre des workflows multilingues sans pipeline de traduction séparé. La question n’est plus “peut-on faire de la voix IA ?” mais “quelles interactions vocales complexes deviennent économiquement viables ?”

L’alignement et la confiance agentique passent à l’outillage. Trois annonces distinctes convergent vers le même problème — comment faire confiance aux agents en production. Les NLAs d’Anthropic révèlent que Claude sait quand il est testé (dans 16 à 26 % des évaluations) sans le verbaliser. Le Trust Layer de GitHub (précision 100 % vs 82 % pour l’auto-évaluation) donne aux équipes de développement une validation structurelle des pull requests générées par agents. La cession de Petri 3.0 à Meridian Labs crée un référentiel d’évaluation indépendant de tout laboratoire. Ces trois couches — interprétabilité du modèle, validation des sorties, indépendance des outils d’audit — commencent à former une architecture de confiance pour les déploiements agentiques à grande échelle.


Sources