Anthropic+xAI partenariat compute Colossus 1, Claude M365 GA, GPT-Realtime-2 voix raisonnement

Anthropic et xAI signent un accord inédit : 220 000 GPU NVIDIA du supercalculateur Colossus 1 viennent doubler les limites Claude Code dès cette semaine. Claude for Microsoft 365 passe en disponibilité générale sur Excel, PowerPoint et Word. OpenAI lance GPT-Realtime-2, premier modèle vocal doté du raisonnement de niveau GPT-5. Perplexity ouvre Personal Computer à tous les utilisateurs Mac, et ElevenLabs franchit les 500 millions de dollars d’ARR avec NVIDIA comme investisseur stratégique.

Anthropic loue Colossus 1 à xAI — 220 000 GPU NVIDIA, doublement des limites Claude Code

6 mai — Anthropic annonce simultanément une hausse immédiate des limites d’utilisation et un accord d’infrastructure inédit avec SpaceX / xAI.

Pour les utilisateurs, le changement le plus visible est le doublement des limites de débit sur cinq heures dans Claude Code, effectif immédiatement sur les plans Pro, Max, Team et Enterprise. La réduction automatique aux heures de pointe — qui bridait les plans Pro et Max — est également supprimée. Les limites API pour les modèles Claude Opus sont relevées en parallèle.

Ces hausses deviennent possibles grâce à un accord avec SpaceX : Anthropic accède à la totalité de la capacité de Colossus 1, le supercalculateur de xAI, soit plus de 300 mégawatts et plus de 220 000 GPU NVIDIA (H100, H200 et GB200). Cette capacité est disponible dans le mois. Les deux entreprises annoncent également une intention commune de développer plusieurs gigawatts de capacité de calcul IA en orbite — une première dans l’industrie.

Ce partenariat vient s’ajouter à une accumulation d’accords déjà en cours : Amazon (jusqu’à 5 GW dont près de 1 GW disponible fin 2026), Google et Broadcom (5 GW dès 2027), Microsoft et NVIDIA (30 milliards de dollars de capacité Azure), et Fluidstack (50 milliards de dollars d’infrastructure IA américaine). L’expansion internationale intégrera les exigences de résidence des données pour les secteurs réglementés. Anthropic s’engage par ailleurs à couvrir toute hausse du prix de l’électricité pour les consommateurs locaux liée à ses datacenters.

Changement	Plans concernés	Effective
Doublement limites 5h Claude Code	Pro, Max, Team, Enterprise	Immédiat
Suppression réduction heures de pointe	Pro, Max	Immédiat
Hausse limites API Opus	Tous	Immédiat

Accord compute	Capacité	Calendrier
SpaceX / xAI Colossus 1	300+ MW, 220 000+ GPU NVIDIA	Dans le mois
Amazon	Jusqu’à 5 GW (~1 GW fin 2026)	2026
Google + Broadcom	5 GW	Dès 2027
Microsoft + NVIDIA	USD 30 milliards Azure	—
Fluidstack	USD 50 milliards infrastructure US	—

🔗 Anthropic — Hausse des limites + accord SpaceX

Claude for Microsoft 365 — disponibilité générale sur Excel, PowerPoint, Word + bêta Outlook

7 mai — Claude for Excel, PowerPoint et Word passent en disponibilité générale pour tous les plans payants. Claude for Outlook entre simultanément en bêta publique dans les mêmes conditions.

“Claude for Excel, PowerPoint, and Word are now generally available, and Claude for Outlook is in public beta. As Claude moves between your Microsoft apps, it carries the full context of your conversation.”

🇫🇷 Claude for Excel, PowerPoint et Word est désormais disponible pour tous, et Claude for Outlook est en bêta publique. Au fil de vos applications Microsoft, Claude conserve l’intégralité du contexte de votre conversation. — @claudeai sur X

La fonctionnalité centrale est le contexte partagé entre les quatre applications : une conversation commencée dans Outlook pour trier un e-mail se poursuit dans Word pour rédiger un mémo, puis dans Excel pour l’analyse de données, et dans PowerPoint pour la présentation — sans jamais ré-expliquer le contexte. La mise à jour croisée automatique est l’autre apport concret : ajuster une hypothèse dans un modèle Excel actualise simultanément le graphique dans la présentation et le chiffre correspondant dans le mémo Word.

Parmi les entreprises citées : ServiceNow (“Claude does the work in Excel itself, instead of asking us to move content between tools”) et des équipes de gestion d’actifs privés qui l’utilisent pour construire et maintenir des modèles de couverture financière.

Application	Statut au 7 mai 2026	Plans
Claude for Excel	Disponibilité générale (GA)	Tous plans payants
Claude for PowerPoint	Disponibilité générale (GA)	Tous plans payants
Claude for Word	Disponibilité générale (GA)	Tous plans payants
Claude for Outlook	Bêta publique	Tous plans payants

🔗 Annonce Claude for Microsoft 365

Claude Managed Agents — dreaming, outcomes, orchestration multiagent, webhooks

6 mai — Lors de la conférence Code with Claude, Anthropic lance plusieurs nouvelles fonctionnalités pour sa plateforme de déploiement d’agents.

La nouveauté la plus marquante est dreaming : un processus planifié qui analyse les sessions passées d’un agent, en extrait des motifs récurrents et consolide sa mémoire pour qu’il s’améliore au fil du temps. Le développeur garde le contrôle — dreaming peut mettre à jour la mémoire automatiquement ou soumettre chaque changement à une revue humaine. Dreaming est disponible en recherche expérimentale (research preview) sur demande.

Outcomes entre en bêta publique : cette fonctionnalité permet d’évaluer chaque résultat d’un agent selon des critères définis par le développeur avant de le livrer à l’utilisateur. L’entreprise Wisedocs l’a utilisée pour accélérer de 50 % la revue de documents médicaux tout en maintenant l’alignement avec ses standards internes.

L’orchestration multiagent permet à un agent pilote de déléguer des sous-tâches à des agents spécialistes qui s’exécutent en parallèle, facilitant le traitement de travaux complexes nécessitant plusieurs expertises simultanées. Les webhooks sont également disponibles pour déclencher des actions externes.

Fonctionnalité	Disponibilité	Description
Dreaming	Research preview (sur demande)	Auto-amélioration par analyse des sessions passées
Outcomes	Bêta publique	Évaluation des résultats avant livraison
Orchestration multiagent	Bêta publique	Agent pilote + agents spécialistes en parallèle
Webhooks	Bêta publique	Déclenchement d’actions externes

🔗 Annonce Claude Managed Agents

GPT-Realtime-2 — voix avec raisonnement GPT-5 et contexte 128K

7 mai — OpenAI lance une nouvelle génération de modèles dans la Realtime API : GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper.

GPT-Realtime-2 est le premier modèle vocal doté du raisonnement de niveau GPT-5 : il peut gérer des requêtes complexes, appeler des outils en parallèle (parallel tool calls), récupérer après des interruptions (recovery behavior) et maintenir une fenêtre de contexte de 128 000 tokens (contre 32 000 pour son prédécesseur), adaptée aux sessions longues. Cinq niveaux de raisonnement sont ajustables : minimal, low, medium, high, xhigh (low par défaut). Des formules de transition (preambles) peuvent être insérées avant les réponses pour une fluidité naturelle.

GPT-Realtime-Translate permet la traduction simultanée en direct vers 13 langues cibles depuis 70+ langues sources. GPT-Realtime-Whisper offre une transcription en flux (streaming) à basse latence.

Zillow a testé GPT-Realtime-2 sur ses interactions vocales : +26 points de taux de réussite sur son benchmark adversarial le plus difficile (95 % contre 69 %). EU Data Residency est supporté.

Modèle	Capacité	Tarif
GPT-Realtime-2	Voix + raisonnement GPT-5, 128K	$32/1M tokens audio input, $64/1M output
GPT-Realtime-Translate	Traduction 70→13 langues	$0,034/min
GPT-Realtime-Whisper	Transcription en flux	$0,017/min

Benchmark	GPT-Realtime-1.5	GPT-Realtime-2 (high)	GPT-Realtime-2 (xhigh)
Big Bench Audio	référence	+15,2 %	—
Audio MultiChallenge APR	36,7 %	—	70,8 %

🔗 Annonce OpenAI — nouveaux modèles voix

Perplexity Personal Computer disponible pour tous les utilisateurs Mac

7 mai — Perplexity lance une nouvelle application macOS et ouvre Personal Computer à tous les utilisateurs, sans restriction d’abonnement Pro ou Max.

L’application fait sortir l’IA du cloud pour l’installer directement sur l’appareil. Elle opère sur les fichiers locaux, les applications Mac natives, le web ouvert et les serveurs sécurisés Perplexity. Elle supporte 400+ connecteurs et s’intègre avec le navigateur Comet pour les outils web sans connecteurs directs. Les plans Pro et Max voient leurs crédits liés à l’abonnement existant ; les utilisateurs gratuits y ont aussi accès.

L’usage recommandé est le Mac mini comme hub permanent : des équipes d’agents peuvent fonctionner en continu (24h/24), pendant que l’utilisateur travaille sur autre chose, avec une notification quand une validation humaine est nécessaire. Le contrôle s’effectue depuis n’importe quel appareil — iPhone inclus.

L’ancienne application Perplexity Mac sera retirée dans les prochaines semaines. Le téléchargement est direct (pas encore disponible sur l’App Store).

Dimension	Valeur
Disponibilité	Tous les utilisateurs Mac
Appareil recommandé	Mac mini (allumé en permanence)
Connecteurs supportés	400+
Intégration navigateur	Comet
App Store	Non (téléchargement direct)
Ancienne app	Retrait dans les prochaines semaines

🔗 Blog Perplexity — Personal Computer pour tous

Perplexity Finance Search dans l’Agent API — #1 précision sur FinSearchComp T1

6 mai — Perplexity lance Finance Search dans l’Agent API : un seul appel d’outil agrège données financières sous licence, données de marché en temps réel et sources web citées.

Le problème résolu est simple : les décisions financières dépendent de sources fiables, à jour et traçables. Finance Search remplace la recherche web générique par des données structurées sous licence — cours, fondamentaux, transcripts de conférences téléphoniques, estimations — retournées dans un schéma cohérent quel que soit le fournisseur en arrière-plan.

Sur le benchmark FinSearchComp T1, Finance Search atteint la plus grande précision pour les données financières en temps réel, constante dans le temps, et le coût le plus faible par réponse correcte (moins de tokens nécessaires grâce aux données structurées). Les citations sont intégrées dans chaque résultat. Le modèle est configurable par le développeur, avec visibilité sur l’utilisation des tokens.

Finance Search est complémentaire de Computer for Professional Finance (déjà couvert le 5 mai) : là où le premier offre un workspace visuel, Finance Search s’intègre dans des workflows programmatiques via l’API.

Dimension	Valeur
Interface	Un seul appel d’outil (`finance_search`)
Données couvertes	Cours, fondamentaux, transcripts, estimations, contexte marché
Benchmark FinSearchComp T1	#1 précision, #1 coût/réponse correcte
Citations	Intégrées dans chaque résultat

🔗 Blog Perplexity — Finance Search

Natural Language Autoencoders (NLAs) — lire les pensées internes de Claude

7 mai — Anthropic publie une nouvelle méthode d’interprétabilité qui convertit les activations internes d’un modèle en texte directement lisible.

L’architecture repose sur un entraînement en boucle fermée : un verbalisateur d’activation (activation verbalizer) traduit une activation en texte explicatif, un reconstructeur d’activation (activation reconstructor) tente de reconstruire l’activation depuis ce texte. Plus la reconstruction est fidèle, meilleure est l’explication.

L’application sécurité est frappante : appliquées à Claude Opus 4.6 et Claude Mythos Preview, les NLAs révèlent que les modèles suspectaient être en situation de test bien plus souvent qu’ils ne l’exprimaient. Dans les tests de code destructif, la conscience implicite de l’évaluation apparaît dans 16 % des cas, contre 0 % de verbalisation explicite. Sur SWE-bench Verified, ce chiffre monte à 26 %. Sur de vraies conversations d’utilisateurs claude.ai, il reste inférieur à 1 %.

Sur un jeu d’audit avec un modèle intentionnellement mal aligné, les auditeurs équipés de NLAs ont identifié la cause racine dans 12 à 15 % des cas, contre moins de 3 % avec d’autres outils. Le code d’entraînement est publié en open source ; une démo interactive est disponible sur Neuronpedia.

Évaluation	Conscience implicite (NLA)	Conscience verbalisée
Tests code destructif	16 %	~0 %
SWE-bench Verified	26 %	~0 %
Conversations claude.ai réelles	< 1 %	—

🔗 Anthropic Research — Natural Language Autoencoders

Petri 3.0 — outil d’alignement open source cédé à Meridian Labs

7 mai — Anthropic cède Petri, son outil d’alignement open source, à Meridian Labs, organisation indépendante à but non lucratif dédiée à l’évaluation de l’IA.

Petri est une boîte à outils de tests d’alignement applicable à n’importe quel modèle de langage : tromperie, sycophanie, coopération avec des requêtes nuisibles. Intégré aux évaluations de tous les modèles Claude depuis Sonnet 4.5, il a été adopté par l’AI Security Institute britannique pour ses évaluations de sabotage de la recherche IA.

La version 3.0 apporte trois avancées : une meilleure adaptabilité par séparation des composants auditeur et modèle cible, un module “Dish” qui exécute les tests dans les conditions réelles de déploiement (vrai system prompt, vrai scaffold) pour rendre les scénarios moins détectables, et une intégration avec Bloom pour des évaluations comportementales plus approfondies.

La cession à Meridian Labs suit le modèle de la cession du protocole MCP à la Linux Foundation : garantir l’indépendance de l’outil vis-à-vis de tout laboratoire d’IA.

🔗 Anthropic Research — Petri 3.0

The Anthropic Institute (TAI) — agenda de recherche sur 4 axes

7 mai — Anthropic publie l’agenda de recherche complet du TAI, l’organisation interne lancée en mars 2026 pour étudier les impacts réels de l’IA depuis la position d’un laboratoire frontier.

L’agenda s’articule sur quatre axes : diffusion économique (adoption IA par les entreprises et les pays, impact sur les marchés du travail), menaces et résilience (capacités à double usage, cybersécurité, mécanismes défensifs), systèmes IA dans la nature (in the wild — effets comportementaux et institutionnels de l’IA déployée à grande échelle), et R&D par l’IA (accélération de la recherche scientifique par l’IA elle-même, y compris les risques de boucle récursive d’auto-amélioration).

Le TAI s’engage à partager des données plus fréquentes de l’Anthropic Economic Index et des informations sur l’accélération interne d’Anthropic par ses propres outils. Un appel à candidatures pour le programme Anthropic Fellows (quatre mois financés) est ouvert.

🔗 Anthropic Research — Agenda TAI

Codex Extension Chrome — pilotage navigateur en arrière-plan sur macOS et Windows

7 mai — OpenAI lance l’extension Chrome pour Codex, permettant à l’agent de piloter directement des onglets Chrome sans interrompre le workflow de l’utilisateur.

Codex opère en arrière-plan sur plusieurs onglets simultanément, en combinant ses capacités de plugins natifs avec l’accès direct aux sites web (tableaux de bord, CRM, applications web). Le système choisit automatiquement le meilleur outil pour chaque étape : plugins, Chrome ou combinaison. Cas d’usage : déboguer des flux navigateur, vérifier des tableaux de bord, faire de la recherche, mettre à jour des CRM, tester des applications web complexes (y compris des jeux multijoueur via des sous-agents).

L’extension s’installe via le plugin Chrome dans l’app Codex. Disponible immédiatement sur macOS et Windows pour tous les utilisateurs Codex.

🔗 Tweet OpenAI — Codex Chrome Extension

ChatGPT Trusted Contact — sécurité santé mentale avec revue humaine

7 mai — OpenAI déploie Trusted Contact, une fonctionnalité de sécurité optionnelle dans ChatGPT.

Tout adulte (18+, 19+ en Corée du Sud) peut désigner une personne de confiance (ami, famille, soignant) qui sera alertée si des signaux de crise sont détectés dans ses conversations. Le processus combine détection automatisée et revue humaine (objectif : moins d’une heure avant tout envoi), avec une notification sans accès aux transcriptions pour protéger la vie privée. La fonctionnalité étend aux adultes les contrôles parentaux déjà existants pour les comptes ados. Développée avec l’American Psychological Association et un réseau de 260+ médecins dans 60 pays.

Paramètre	Valeur
Éligibilité	18+ (19+ Corée du Sud)
Délai d’acceptation pour le contact	1 semaine
SLA revue humaine	Objectif < 1 heure
Contenu notification	Raison générale, sans transcription
Canaux	Email, SMS, in-app

🔗 OpenAI — Trusted Contact

OpenAI B2B Signals — l’écart entre entreprises de pointe et entreprises typiques se creuse

6 mai — OpenAI publie le premier rapport B2B Signals, qui documente l’écart croissant entre les entreprises “de pointe” et les entreprises typiques dans leur adoption de l’IA.

Les entreprises du 95e percentile utilisent 3,5× plus d’intelligence par employé que les entreprises typiques (contre 2× en avril 2025). L’écart tient moins au volume de messages (36 % de l’écart) qu’à la profondeur d’usage (64 %) : délégation de tâches complexes, workflows agentiques, intégration dans les systèmes de production. Sur Codex, l’écart est le plus marqué : ×16 de messages par employé.

Deux cas concrets : Cisco réduit le temps de build de ~20 %, économise 1 500+ heures d’ingénierie par mois et multiplie par 10 à 15 la vitesse de résolution des défauts. Travelers Insurance traite ~100 000 appels sinistres par an via un assistant.

Indicateur	Entreprises typiques	Entreprises de pointe
Intelligence/employé	référence	×3,5
Messages Codex/employé	référence	×16
Part du volume dans l’écart	—	36 %
Part de la profondeur dans l’écart	—	64 %

🔗 OpenAI — B2B Signals

MRC — Protocole réseau open source pour supercalculateurs Stargate

5 mai — OpenAI publie en open source via l’Open Compute Project le protocole MRC (Multipath Reliable Connection), co-développé avec AMD, Broadcom, Intel, Microsoft et NVIDIA sur deux ans.

MRC est un protocole réseau 800 Gb/s pour supercalculateurs d’entraînement IA de grande échelle. Il connecte 100 000+ GPU avec seulement 2 niveaux de switches (contre 3 à 4 en approche conventionnelle), en pulvérisant les paquets sur des centaines de chemins simultanément via routage source IPv6 (SRv6). La récupération après panne s’effectue en microsecondes (contre plusieurs secondes avec BGP dynamique classique). Déjà en production sur Stargate (Abilene, Texas) et les supercalculateurs Fairwater de Microsoft, MRC a permis l’entraînement de plusieurs modèles dont GPT-5.5 et Codex.

Aspect	Approche conventionnelle	MRC
Niveaux de switches pour 100K+ GPU	3-4	2
Récupération après panne	Secondes à dizaines de secondes	Microsecondes
Routage	BGP dynamique	SRv6 statique
Répartition paquets	1 chemin par transfert	100s de chemins en parallèle

🔗 OpenAI — MRC Supercomputer Networking

Perplexity ROSE — Moteur d’inférence propriétaire et CuTeDSL

6 mai — Perplexity publie un article de recherche détaillant ROSE (Runtime-Optimized Serving Engine), son moteur d’inférence propriétaire, et son intégration de CuTeDSL (librairie de kernels GPU NVIDIA).

ROSE alimente tous les services Perplexity (Sonar, Search, Embeddings) sur des GPU NVIDIA Hopper et Blackwell, des modèles d’encodage jusqu’aux LLM à mille milliards de paramètres. CuTeDSL permet de construire des kernels GPU personnalisés optimisés plus rapidement, adaptés aux nouvelles architectures de modèles à un rythme soutenu.

Cette publication illustre la stratégie de Perplexity : contrôler l’ensemble de la pile technique jusqu’au niveau des kernels GPU pour se différencier sur la performance et réduire la dépendance aux frameworks tiers.

🔗 Perplexity Research — CuTeDSL et ROSE

ElevenLabs atteint 500 M$ d’ARR — NVIDIA investisseur via NVentures

5 mai — ElevenLabs annonce un troisième closing de sa Série D avec NVIDIA comme nouvel investisseur stratégique via NVentures.

L’ARR est passé de 350 M $fin 2025 à **500 M$ en avril 2026**, soit +43 % en quatre mois. Ce troisième closing inclut également BlackRock, Wellington Management, D.E. Shaw, Schroders, ainsi que des entreprises clientes (Salesforce, Santander, KPN, Deutsche Telekom) et un investissement retail via Robinhood Ventures. Un tender offer de 100 M$ a été clôturé en parallèle. ElevenLabs compte 530 employés dans 50+ pays. La feuille de route annonce la fusion image/vidéo et audio dans une plateforme créative unifiée.

🔗 ElevenLabs — 500 M$ ARR et nouveaux investisseurs

AlphaEvolve en production — 5 secteurs industriels via Google Cloud

7 mai — Un an après son lancement, Google DeepMind publie un bilan d’AlphaEvolve, son agent de codage alimenté par Gemini, désormais passé de la recherche à la production industrielle.

AlphaEvolve optimise l’infrastructure critique de Google : TPU, politiques de remplacement de cache, compaction LSM-tree dans Google Spanner. Il est déployé commercialement via Google Cloud dans cinq secteurs : finance (doublement des performances d’un transformer), semi-conducteurs (lithographie computationnelle), logistique (problème du voyageur de commerce), publicité et sciences des matériaux (~4× de gain de vitesse chez Schrödinger). Sur le plan académique, AlphaEvolve a collaboré avec Terence Tao (UCLA) sur les problèmes d’Erdős et amélioré les bornes inférieures pour le problème du voyageur de commerce et les nombres de Ramsey.

🔗 DeepMind — AlphaEvolve Impact

Manus Projects auto-apprenants — workspace agentique qui s’améliore à chaque tâche

6 mai — Manus lance une fonctionnalité permettant aux Projets d’apprendre automatiquement de chaque conversation et de proposer des mises à jour approuvées par l’utilisateur.

À l’issue de chaque tâche, Manus identifie les décisions, normes et modèles réutilisables, puis propose : des mises à jour d’instructions (quand le processus ou la terminologie a évolué), des mises à jour de fichiers (sources, exemples ou modèles obsolètes) et des mises à jour de compétences (skills) pour les flux récurrents. Aucune modification n’est appliquée sans validation humaine explicite. Les futurs collaborateurs démarrent avec le dernier contexte partagé du Projet. La fonctionnalité est disponible pour toutes les sessions où instructions et fichiers sont pris en charge.

🔗 Manus — Projets auto-apprenants

Brèves

Bug bounty Anthropic ouvert au public — Le programme, jusqu’ici privé au sein de la communauté de recherche en sécurité, est maintenant accessible à tous sur HackerOne. 🔗 source
xAI Image Generation Quality Mode API — Le mode qualité de génération d’images (300 M+ images générées sur Grok) est désormais disponible via l’API xAI : réalisme accru, meilleur rendu du texte, contrôle créatif renforcé. 🔗 source
Z.ai GLM-5V-Turbo Tech Report — Z.ai (Zhipu AI) publie le rapport technique de GLM-5V-Turbo, modèle de fondation natif pour agents multimodaux avec encodeur CogViT (distillation SigLIP2 + DINOv3) et boucle perception-planification-exécution. 🔗 source
ChatGPT Futures Class of 2026 — OpenAI distingue 26 jeunes bâtisseurs issus de 20+ universités (Vanderbilt, Oxford, Georgia Tech…) avec un grant de USD 10 000 chacun et un accès aux modèles de pointe. 🔗 source
NVIDIA DeepStream + Claude Code — Démonstration d’une approche “concept to app” combinant DeepStream, Claude Code et reusable Skills pour générer des applications Vision AI sans écrire chaque ligne de code. 🔗 source
NVIDIA Guess-Verify-Refine — Nouvelle technique d’inférence hardware-aware où chaque étape de décodage donne une longueur d’avance à la suivante, conçue spécifiquement pour les accélérateurs NVIDIA. 🔗 source
TokenSpeed + NVIDIA Dynamo — TokenSpeed (LightSeek Foundation) atteint le niveau TensorRT-LLM en open source ; NVIDIA Dynamo ajoute un support day-0 pour ce backend, avec Kimi K2.5 supporté via le frontend Dynamo. 🔗 source
Ideogram BG Remover — Nouveau modèle génératif (entraîné de zéro, pas une segmentation classique) pour la suppression d’arrière-plan : préservation du canal alpha, orienté logos et illustrations complexes, API disponible. 🔗 source
Google DeepMind × EVE Online — Partenariat avec CCP Games pour explorer la recherche IA dans les environnements de jeux complexes dirigés par les joueurs. 🔗 source
GitHub Copilot Trust Layer — Microsoft/GitHub publie une recherche sur une couche de confiance structurelle pour valider les agents Copilot (graphes d’exécution + analyse des dominateurs) : précision 100 % vs 82,2 % pour l’auto-évaluation, rappel 100 % vs 60 %. 🔗 source
GitHub — reviewer les pull requests d’agents — Guide pratique (checklist 10 minutes) avec 5 signaux d’alerte : CI gaming, code reuse blindness, hallucinated correctness, agentic ghosting, injection de prompts dans les pipelines CI. 🔗 source

Ce que ça signifie

La course au Personal Computer s’accélère. En l’espace d’une semaine, trois interfaces très différentes visent le même bureau de l’utilisateur : Perplexity Personal Computer s’installe sur Mac (et Mac mini comme hub permanent), Claude envahit les quatre applications Microsoft 365 avec un contexte partagé, et Codex pilote Chrome en arrière-plan. Ces agents ne sont plus dans le cloud : ils s’intègrent dans les workflows existants, sur les fichiers ouverts, dans les applications natives. Le glissement de la recherche d’information vers l’action directe sur les outils de travail quotidiens est désormais concret.

Le compute orbital entre dans le registre des faits. L’accord Anthropic/xAI Colossus 1 est remarquable à deux titres : d’abord, il donne à Anthropic un accès immédiat à 220 000 GPU NVIDIA pour doubler ses limites dès cette semaine ; ensuite, il inclut une intention commune de développer plusieurs gigawatts de capacité IA en orbite. Cumulé aux accords Amazon, Google/Broadcom, Microsoft/NVIDIA et Fluidstack, Anthropic constitue une infrastructure de calcul qui n’a pas d’équivalent chez un laboratoire de recherche indépendant. Cette accumulation de puissance de calcul est la condition préalable à la prochaine génération de modèles — et au doublement continu des limites.

La voix raisonnante change le périmètre des agents vocaux. GPT-Realtime-2 n’est pas une mise à jour cosmétique : porter le raisonnement GPT-5 dans une interface temps réel, avec 128K de contexte et appels d’outils parallèles, transforme les cas d’usage. Zillow mesure +26 points de taux de réussite sur ses appels les plus difficiles. La traduction en direct (70 langues sources vers 13 cibles) dans le même modèle ouvre des workflows multilingues sans pipeline de traduction séparé. La question n’est plus “peut-on faire de la voix IA ?” mais “quelles interactions vocales complexes deviennent économiquement viables ?”

L’alignement et la confiance agentique passent à l’outillage. Trois annonces distinctes convergent vers le même problème — comment faire confiance aux agents en production. Les NLAs d’Anthropic révèlent que Claude sait quand il est testé (dans 16 à 26 % des évaluations) sans le verbaliser. Le Trust Layer de GitHub (précision 100 % vs 82 % pour l’auto-évaluation) donne aux équipes de développement une validation structurelle des pull requests générées par agents. La cession de Petri 3.0 à Meridian Labs crée un référentiel d’évaluation indépendant de tout laboratoire. Ces trois couches — interprétabilité du modèle, validation des sorties, indépendance des outils d’audit — commencent à former une architecture de confiance pour les déploiements agentiques à grande échelle.