Rechercher

Grok STT et TTS APIs à prix cassés, Claude for Word, Midjourney V8.1

Le 18 avril, xAI lance deux APIs audio — reconnaissance vocale (Speech to Text) et synthèse vocale (Text to Speech) — avec des tarifs qui sous-coupent tous les concurrents établis. Anthropic rend Claude accessible directement dans Microsoft Word pour ses abonnés Pro, Max, Team et Enterprise. Midjourney déploie V8.1 avec un rendu 2K natif, trois fois plus rapide et trois fois moins cher que V8. En parallèle : Luma et Wonder Project ouvrent le studio Innovative Dreams soutenu par AWS, MiniMax s’associe à NousResearch pour MaxHermes, Kimi publie une architecture d’inférence cross-datacenter, et Google enrichit Chrome avec les Gemini Skills.


Grok STT et TTS — les APIs audio les moins chères du marché

17 avril — xAI lance simultanément deux APIs audio standalone : une API de reconnaissance vocale (Speech to Text, STT) et une API de synthèse vocale (Text to Speech, TTS). Le positionnement tarifaire est frontal : les deux APIs affichent les prix les plus bas de leur segment respectif.

API STT (reconnaissance vocale)

L’API STT de Grok propose deux modes : batch REST et streaming WebSocket. Les tarifs sont respectivement de $0,10/heure (batch) et $0,20/heure (streaming), contre $0,22 et $0,39 chez ElevenLabs, $0,21 et $0,45 chez AssemblyAI, $0,31 et $0,55 chez Deepgram.

ConcurrentBatch (REST)Streaming (WebSocket)
Grok$0,10/h$0,20/h
ElevenLabs$0,22/h$0,39/h
AssemblyAI$0,21/h$0,45/h
Deepgram$0,31/h$0,55/h

Sur la qualité, le taux d’erreur de mots (Word Error Rate) global de Grok STT est de 6,9%, contre 9,0% pour ElevenLabs, 11,0% pour Deepgram et 12,9% pour AssemblyAI. Grok STT couvre 25+ langues avec timestamps au niveau du mot, diarisation multi-locuteurs (speaker diarization), support multicanal et normalisation inverse du texte (conversion chiffres et dates depuis la parole).

API TTS (synthèse vocale)

L’API TTS de Grok est tarifée à $4,20 par million de caractères, là où OpenAI facture $30, InWorld $40, Cartesia $46,70 et ElevenLabs $50. L’API supporte REST et streaming WebSocket. Elle introduit des balises expressives : [laugh], [sigh], [whisper], <emphasis>, <slow>, <pause> — pour piloter le ton et le rythme de la synthèse.

ConcurrentPrix / million de caractères
Grok$4,20
OpenAI$30,00
InWorld$40,00
Cartesia$46,70
ElevenLabs$50,00

xAI announces the launch of Grok speech to text and text to speech APIs. Grok STT has the world’s lowest word error rate and price. Grok TTS has the world’s most expressive voice and lowest price.

🇫🇷 xAI annonce le lancement des APIs de reconnaissance vocale et de synthèse vocale Grok. Grok STT affiche le taux d’erreur de mots et le prix les plus bas au monde. Grok TTS propose la voix la plus expressive et le prix le plus bas au monde.@xai sur X

🔗 Annonce xAI 🔗 Tweet @xai


Claude for Word — l’extension Microsoft en bêta

17 avril — Anthropic lance Claude for Word en version bêta pour les abonnés Pro, Max, Team et Enterprise. L’extension s’intègre directement dans l’interface de Microsoft Word — sans fenêtre séparée — et fonctionne au niveau du document.

FonctionnalitéDescription
Tracked changes natifsToutes les modifications de Claude apparaissent comme des révisions Word acceptables/rejetables
Gestion des commentairesClaude lit les commentaires, édite le texte ancré et répond dans le fil
Préservation du formatHérite des styles de titres, numérotations et termes définis
Cross-contextPartage le contexte avec les add-ins Excel et PowerPoint dans une même conversation
Sécurité entrepriseConnexion via compte Claude ou fournisseur cloud existant

Les formats supportés sont .docx et .docm. L’extension s’installe via le Microsoft Marketplace sous l’identifiant WA200010453.

🔗 claude.com/claude-for-word 🔗 Tweet @claudeai


Midjourney V8.1 — rendu 2K natif, 3× plus rapide

14 avril — Midjourney a mis en ligne la version V8.1 de son générateur d’images. Cette mise à jour apporte le rendu 2K HD natif avec une vitesse de génération trois fois supérieure à V8, pour un coût trois fois inférieur.

V8.1 constitue un raffinement significatif du moteur V8 : la résolution passe directement en 2K sans upscaling postérieur, ce qui améliore la fidélité des détails fins et réduit les artefacts habituels des étapes d’agrandissement. La combinaison vitesse/prix/résolution positionne V8.1 comme la version la plus accessible de la gamme V8.


Luma × Wonder Project — le studio Innovative Dreams, soutenu par AWS

16 avril — Luma AI et Wonder Project (studio de production faith & values, partenaire Prime Video) annoncent conjointement le lancement d’Innovative Dreams — une nouvelle société de production cinématographique, laboratoire de R&D et entreprise de VFX, soutenue et financée par Amazon Web Services (AWS).

Innovative Dreams est présenté comme le premier studio à déployer à grande échelle le Realtime Hybrid Filmmaking — une approche qui mêle capture de performance, production virtuelle et IA générative (notamment les Luma Agents) à toutes les étapes de production : concept, pré-visualisation, tournage et post-production.

AspectDétail
PDGJon Erwin (fondateur Wonder Project)
CTO / LumaAmit Jain (PDG de Luma AI)
InfrastructureAWS cloud + IA pour R&D et outils de production virtuelle
TechnologieLuma Agents + Realtime Hybrid Filmmaking
SiteMBS Media Campus, Manhattan Beach, Californie
Premier projet”The Old Stories: Moses” (3 épisodes) avec Ben Kingsley et O-T Fagbenle, pour Prime Video

L’approche “Realtime Hybrid Filmmaking” supprime les délais traditionnels entre tournage, rendu et montage. Les acteurs peuvent réagir aux environnements numériques en temps réel, ce qui raccourcit la distance entre idée créative et pixel final tout en préservant la performance humaine. Innovative Dreams propose également ses outils à d’autres studios Hollywood.

🔗 Annonce Luma 🔗 Tweet @LumaLabsAI


MiniMax M2.7 × NousResearch — MaxHermes, Hermes Agent sans configuration

16 avril — MiniMax annonce un partenariat approfondi avec NousResearch pour intégrer le modèle M2.7 dans le harness Hermes Agent. L’annonce introduit MaxHermes — une version cloud managée de Hermes Agent accessible directement depuis @MiniMaxAgent, sans configuration en terminal ni installation locale.

La co-évolution M2.7 × Hermes Agent vise des agents de classe supérieure : la boucle d’auto-amélioration (self-improving loop) de Hermes tire le meilleur du modèle M2.7 pour les tâches agentiques. Les utilisateurs qui font tourner Hermes localement peuvent également connecter leur agent à MaxHermes pour bénéficier de l’infrastructure cloud managée.

🔗 Tweet @MiniMax_AI


Gemini Skills dans Chrome — vos prompts en un clic

14 avril — Google Chrome intègre une nouvelle fonctionnalité appelée “Skills” pour Gemini dans le navigateur. Vous pouvez désormais sauvegarder vos prompts les plus utiles et les relancer d’un seul clic, sans retaper. Une bibliothèque de prompts prédéfinis est également disponible pour démarrer rapidement.

La fonctionnalité a été annoncée le 14 avril et confirmée disponible le 15 avril 2026, puis reprise dans le récapitulatif hebdomadaire @GoogleAI du 17 avril.

🔗 Tweet @googlechrome (14 avr.) 🔗 Tweet @googlechrome (15 avr.)


Gemini API — prépaiement (Prepay Billing) dans Google AI Studio

15 avril — Google AI Studio introduit le “Prepay Billing” pour l’API Gemini. Les développeurs peuvent désormais acheter des crédits à l’avance et les consommer au fur et à mesure, éliminant les surprises de facturation en fin de mois.

Le rechargement automatique est disponible quand le solde est bas. La fonctionnalité est compatible avec les Spend Caps (lancés précédemment) et les Usage Tiers. Elle est disponible aux États-Unis pour les nouveaux comptes de facturation Google Cloud, avec un déploiement mondial dans les prochaines semaines. Les comptes établis avec des niveaux d’usage élevés pourront basculer vers le postpaid.

🔗 Tweet @GoogleAIStudio


Kimi Prefill-as-a-Service — l’inférence cross-datacenter

18 avril — Moonshot AI (Kimi) publie une avancée technique en infrastructure d’inférence : le Prefill-as-a-Service (PraaS). L’architecture pousse la désagrégation Prefill/Decode (prefill/decode disaggregation) au-delà d’un seul cluster, vers une architecture cross-datacenter avec matériel hétérogène.

Les résultats annoncés : 1,54× de débit (throughput) supplémentaire et -64% sur le P90 TTFT (temps jusqu’au premier token). La technologie clé est le modèle hybride Kimi Linear, qui réduit le coût de transfert du cache KV (key-value cache) entre datacenters. Ce n’est pas un lancement grand public mais une publication de recherche en infrastructure d’inférence distribuée, avec un impact direct sur la réduction du coût par token pour Kimi.

🔗 Tweet @Kimi_Moonshot 🔗 Papier arXiv


Claude Code v2.1.114 et Runway Seedance 2.0 API

18 avril — Claude Code v2.1.114 corrige un crash survenant lorsqu’un membre d’une équipe d’agents demandait l’accès à un outil via la boîte de dialogue des permissions.

16 avril — Runway rend Seedance 2.0 accessible via l’API Runway pour les développeurs. Après le lancement web (9 avril), le rendu 1080p (16 avril) et l’application iOS (17 avril), l’accès API complète le déploiement multi-canal du modèle. La documentation est disponible sur dev.runwayml.com.

🔗 CHANGELOG Claude Code 🔗 Tweet @runwayml — Seedance API


Ce que ça signifie

Le lancement simultané des APIs STT et TTS de Grok est le mouvement tarifaire le plus agressif de la semaine. En cassant les prix de 2 à 10 fois par rapport à ElevenLabs, AssemblyAI et OpenAI TTS, xAI signale clairement que l’audio IA devient une commodité — ce qui va accélérer l’adoption pour les développeurs indépendants et les startups, mais compresser les marges des acteurs établis. La combinaison d’un taux d’erreur de reconnaissance parmi les plus bas du marché, de prix cassés et de balises expressives rend ces APIs immédiatement utilisables en production.

Claude for Word et les Gemini Skills dans Chrome traduisent deux stratégies différentes : Anthropic intègre son modèle dans les outils de productivité bureautique existants, là où ses utilisateurs passent déjà leurs journées ; Google, lui, enrichit son navigateur pour rendre Gemini incontournable au quotidien. Les deux approches cherchent à réduire la friction d’accès au modèle.

Luma × Wonder Project × AWS illustre l’émergence d’un nouveau modèle de studio hollywoodien : IA générative intégrée à chaque étape de production, infrastructure cloud AWS, et ambition de “localiser” à Los Angeles des productions qui partaient en délocalisation. L’annonce est symbolique autant que technique — elle valide le Realtime Hybrid Filmmaking comme un pipeline industrialisable, pas seulement un concept.


Sources