Zoeken

Grok STT en TTS API’s tegen dumpprijzen, Claude voor Word, Midjourney V8.1

Grok STT en TTS API’s tegen dumpprijzen, Claude voor Word, Midjourney V8.1

Op 18 april lanceert xAI twee audio-API’s — spraakherkenning (Speech to Text) en spraaksynthese (Text to Speech) — met tarieven die alle gevestigde concurrenten onderbieden. Anthropic maakt Claude rechtstreeks beschikbaar in Microsoft Word voor zijn Pro-, Max-, Team- en Enterprise-abonnees. Midjourney rolt V8.1 uit met native 2K-rendering, drie keer sneller en drie keer goedkoper dan V8. Tegelijkertijd: Luma en Wonder Project openen de door AWS gesteunde studio Innovative Dreams, MiniMax gaat een partnership aan met NousResearch voor MaxHermes, Kimi publiceert een cross-datacenter inferentiearchitectuur, en Google verrijkt Chrome met Gemini Skills.


Grok STT en TTS — de goedkoopste audio-API’s op de markt

17 april — xAI lanceert tegelijk twee standalone audio-API’s: een spraakherkennings-API (Speech to Text, STT) en een spraaksynthese-API (Text to Speech, TTS). De prijszetting is direct: beide API’s hebben de laagste prijzen in hun respectieve segment.

API STT (spraakherkenning)

De STT-API van Grok biedt twee modi: batch REST en streaming WebSocket. De tarieven bedragen respectievelijk $0,10/uur (batch) en $0,20/uur (streaming), tegenover $0,22 en $0,39 bij ElevenLabs, $0,21 en $0,45 bij AssemblyAI, $0,31 en $0,55 bij Deepgram.

ConcurrentBatch (REST)Streaming (WebSocket)
Grok$0,10/u$0,20/u
ElevenLabs$0,22/u$0,39/u
AssemblyAI$0,21/u$0,45/u
Deepgram$0,31/u$0,55/u

Qua kwaliteit bedraagt Grok STT’s totale woordfoutpercentage (Word Error Rate) 6,9%, tegenover 9,0% voor ElevenLabs, 11,0% voor Deepgram en 12,9% voor AssemblyAI. Grok STT ondersteunt 25+ talen met woordniveau-timestamps, multi-speaker diarization (speaker diarization), multikanaalondersteuning en inverse tekstnormalisatie (cijfers en datums omzetten vanuit spraak).

API TTS (spraaksynthese)

De TTS-API van Grok kost $4,20 per miljoen tekens, terwijl OpenAI $30 rekent, InWorld $40, Cartesia $46,70 en ElevenLabs $50. De API ondersteunt REST en streaming WebSocket. Ze introduceert expressieve tags: [laugh], [sigh], [whisper], <emphasis>, <slow>, <pause> — om de toon en het ritme van de synthese aan te sturen.

ConcurrentPrijs / miljoen tekens
Grok$4,20
OpenAI$30,00
InWorld$40,00
Cartesia$46,70
ElevenLabs$50,00

xAI announces the launch of Grok speech to text and text to speech APIs. Grok STT has the world’s lowest word error rate and price. Grok TTS has the world’s most expressive voice and lowest price.

🇳🇱 xAI kondigt de lancering aan van de Grok-API’s voor spraakherkenning en spraaksynthese. Grok STT heeft het laagste woordfoutpercentage en de laagste prijs ter wereld. Grok TTS heeft de meest expressieve stem ter wereld en de laagste prijs ter wereld.@xai op X

🔗 xAI-aankondiging 🔗 Tweet @xai


Claude for Word — de Microsoft-extensie in bèta

17 april — Anthropic lanceert Claude for Word in bètaversie voor Pro-, Max-, Team- en Enterprise-abonnees. De extensie integreert rechtstreeks in de interface van Microsoft Word — zonder apart venster — en werkt op documentniveau.

FunctionaliteitBeschrijving
Inheemse tracked changesAlle wijzigingen van Claude verschijnen als Word-revisies die kunnen worden geaccepteerd/geweigerd
CommentaarbeheerClaude leest opmerkingen, bewerkt de verankerde tekst en antwoordt in de thread
Behoud van opmaakErft kopstijlen, nummeringen en gedefinieerde termen
Cross-contextDeelt context met de Excel- en PowerPoint-add-ins binnen één gesprek
EnterprisebeveiligingInloggen via Claude-account of bestaande cloudprovider

De ondersteunde formaten zijn .docx en .docm. De extensie wordt geïnstalleerd via de Microsoft Marketplace onder de identifier WA200010453.

🔗 claude.com/claude-for-word 🔗 Tweet @claudeai


Midjourney V8.1 — native 2K-rendering, 3× sneller

14 april — Midjourney heeft versie V8.1 van zijn imagegenerator online gezet. Deze update brengt native 2K HD-rendering met een generatiesnelheid die drie keer hoger ligt dan V8, tegen een kostprijs die drie keer lager is.

V8.1 is een significante verfijning van de V8-engine: de resolutie gaat rechtstreeks naar 2K zonder latere upscaling, wat de trouw van fijne details verbetert en de gebruikelijke artefacten van vergrotingsstappen vermindert. De combinatie van snelheid/prijs/resolutie positioneert V8.1 als de meest toegankelijke versie in de V8-reeks.


Luma × Wonder Project — de Innovative Dreams-studio, gesteund door AWS

16 april — Luma AI en Wonder Project (een faith & values-productiestudio, partner van Prime Video) kondigen gezamenlijk de lancering aan van Innovative Dreams — een nieuw filmproductiebedrijf, R&D-lab en VFX-bedrijf, ondersteund en gefinancierd door Amazon Web Services (AWS).

Innovative Dreams wordt gepresenteerd als de eerste studio die op grote schaal Realtime Hybrid Filmmaking inzet — een aanpak die performance capture, virtual production en generatieve AI (met name de Luma Agents) combineert in alle productiefasen: concept, previsualisatie, draaien en postproductie.

AspectDetail
CEOJon Erwin (oprichter van Wonder Project)
CTO / LumaAmit Jain (CEO van Luma AI)
InfrastructuurAWS-cloud + AI voor R&D en virtual production-tools
TechnologieLuma Agents + Realtime Hybrid Filmmaking
LocatieMBS Media Campus, Manhattan Beach, Californië
Eerste project”The Old Stories: Moses” (3 afleveringen) met Ben Kingsley en O-T Fagbenle, voor Prime Video

De aanpak “Realtime Hybrid Filmmaking” schrapt de traditionele vertragingen tussen draaien, renderen en monteren. Acteurs kunnen in realtime reageren op digitale omgevingen, wat de afstand tussen creatief idee en uiteindelijke pixel verkleint terwijl de menselijke performance behouden blijft. Innovative Dreams stelt zijn tools ook ter beschikking aan andere Hollywood-studio’s.

🔗 Luma-aankondiging 🔗 Tweet @LumaLabsAI


MiniMax M2.7 × NousResearch — MaxHermes, Hermes Agent zonder configuratie

16 april — MiniMax kondigt een diepgaand partnership met NousResearch aan om het model M2.7 te integreren in de Hermes Agent-harness. De aankondiging introduceert MaxHermes — een beheerde cloudversie van Hermes Agent die rechtstreeks toegankelijk is via @MiniMaxAgent, zonder terminalconfiguratie of lokale installatie.

De co-evolutie van M2.7 × Hermes Agent is gericht op agents van hogere klasse: de zelfverbeterende lus (self-improving loop) van Hermes haalt het beste uit het M2.7-model voor agentische taken. Gebruikers die Hermes lokaal draaien, kunnen hun agent ook verbinden met MaxHermes om te profiteren van de beheerde cloudinfrastructuur.

🔗 Tweet @MiniMax_AI


Gemini Skills in Chrome — je prompts in één klik

14 april — Google Chrome integreert een nieuwe functie genaamd “Skills” voor Gemini in de browser. Je kunt voortaan je nuttigste prompts opslaan en met één klik opnieuw starten, zonder ze opnieuw in te typen. Er is ook een bibliotheek met vooraf gedefinieerde prompts beschikbaar om snel te beginnen.

De functie werd aangekondigd op 14 april en bevestigd beschikbaar op 15 april 2026, en vervolgens opgenomen in het wekelijkse overzicht van @GoogleAI van 17 april.

🔗 Tweet @googlechrome (14 apr.) 🔗 Tweet @googlechrome (15 apr.)


Gemini API — vooruitbetaling (Prepay Billing) in Google AI Studio

15 april — Google AI Studio introduceert “Prepay Billing” voor de Gemini API. Ontwikkelaars kunnen voortaan vooraf credits kopen en die gaandeweg verbruiken, waardoor factureringsverrassingen aan het einde van de maand verdwijnen.

Automatisch aanvullen is beschikbaar wanneer het saldo laag is. De functie is compatibel met de eerder gelanceerde Spend Caps en Usage Tiers. Ze is beschikbaar in de Verenigde Staten voor nieuwe Google Cloud-factureringsaccounts, met een wereldwijde uitrol in de komende weken. Bestaande accounts met hoge gebruiksniveaus kunnen overstappen naar postpaid.

🔗 Tweet @GoogleAIStudio


Kimi Prefill-as-a-Service — cross-datacenter inferentie

18 april — Moonshot AI (Kimi) publiceert een technische doorbraak in inferentie-infrastructuur: Prefill-as-a-Service (PraaS). De architectuur duwt Prefill/Decode-disaggregatie (prefill/decode disaggregation) verder dan één cluster, richting een cross-datacenterarchitectuur met heterogene hardware.

De aangekondigde resultaten: 1,54× extra throughput en -64% op de P90 TTFT (time to first token). De sleuteltechnologie is het hybride model Kimi Linear, dat de kosten voor het overdragen van de KV-cache (key-value cache) tussen datacenters verlaagt. Dit is geen consumentgerichte lancering maar een onderzoekspublicatie over gedistribueerde inferentie-infrastructuur, met een directe impact op de verlaging van de kost per token voor Kimi.

🔗 Tweet @Kimi_Moonshot 🔗 arXiv-paper


Claude Code v2.1.114 en Runway Seedance 2.0 API

18 april — Claude Code v2.1.114 verhelpt een crash die optrad wanneer een lid van een agentteam toegang vroeg tot een tool via het permissiedialoogvenster.

16 april — Runway maakt Seedance 2.0 beschikbaar via de Runway API voor ontwikkelaars. Na de weblancering (9 april), de 1080p-rendering (16 april) en de iOS-app (17 april) maakt API-toegang de multikanaaluitrol van het model compleet. De documentatie is beschikbaar op dev.runwayml.com.

🔗 CHANGELOG Claude Code 🔗 Tweet @runwayml — Seedance API


Wat dit betekent

De gelijktijdige lancering van Grok’s STT- en TTS-API’s is de meest agressieve prijszetting van de week. Door de prijzen 2 tot 10 keer te verlagen ten opzichte van ElevenLabs, AssemblyAI en OpenAI TTS laat xAI duidelijk zien dat audio-AI een commodity wordt — wat de adoptie door zelfstandige ontwikkelaars en startups zal versnellen, maar de marges van gevestigde spelers onder druk zet. De combinatie van een van de laagste herkenningsfoutpercentages op de markt, dumpprijzen en expressieve tags maakt deze API’s onmiddellijk productiewaardig.

Claude for Word en Gemini Skills in Chrome vertalen twee verschillende strategieën: Anthropic integreert zijn model in bestaande kantoorproductiviteitstools waar zijn gebruikers al hun dagen doorbrengen; Google verrijkt zijn browser om Gemini tot een dagelijkse aanwezigheid te maken. Beide benaderingen proberen de toegangsdrempel tot het model te verlagen.

Luma × Wonder Project × AWS illustreert de opkomst van een nieuw Hollywood-studiomodel: generatieve AI geïntegreerd in elke productiefase, AWS-cloudinfrastructuur, en de ambitie om in Los Angeles te “localiseren” wat anders naar het buitenland zou worden uitbesteed. De aankondiging is zowel symbolisch als technisch — ze valideert Realtime Hybrid Filmmaking als een industrialiseerbare pipeline, niet alleen als concept.


Bronnen

Dit document is vertaald van de fr-versie naar de taal nl met behulp van het model gpt-5.4-mini. Voor meer informatie over het vertaalproces, raadpleeg https://gitlab.com/jls42/ai-powered-markdown-translator