Grok STT- och TTS-API:er till vrakpris, Claude for Word, Midjourney V8.1

Den 18 april lanserar xAI två ljud-API:er — taligenkänning (Speech to Text) och talsyntes (Text to Speech) — med priser som underbjuder alla etablerade konkurrenter. Anthropic gör Claude direkt tillgängligt i Microsoft Word för sina abonnenter Pro, Max, Team och Enterprise. Midjourney rullar ut V8.1 med inbyggd 2K-rendering, tre gånger snabbare och tre gånger billigare än V8. Samtidigt: Luma och Wonder Project öppnar studion Innovative Dreams med stöd från AWS, MiniMax inleder ett samarbete med NousResearch för MaxHermes, Kimi publicerar en cross-datacenter-inferensarkitektur, och Google berikar Chrome med Gemini Skills.

Grok STT och TTS — marknadens billigaste ljud-API:er

17 april — xAI lanserar samtidigt två fristående ljud-API:er: ett API för taligenkänning (Speech to Text, STT) och ett API för talsyntes (Text to Speech, TTS). Prispositioneringen är offensiv: båda API:erna har de lägsta priserna i sina respektive segment.

STT-API (taligenkänning)

Grok STT-API erbjuder två lägen: batch REST och streaming WebSocket. Priserna är respektive $0,10/timme (batch) och $0,20/timme (streaming), jämfört med $0,22 och $0,39 hos ElevenLabs, $0,21 och $0,45 hos AssemblyAI, $0,31 och $0,55 hos Deepgram.

Konkurrent	Batch (REST)	Streaming (WebSocket)
Grok	$0,10/h	$0,20/h
ElevenLabs	$0,22/h	$0,39/h
AssemblyAI	$0,21/h	$0,45/h
Deepgram	$0,31/h	$0,55/h

Vad gäller kvalitet är Grok STT:s globala Word Error Rate 6,9%, jämfört med 9,0% för ElevenLabs, 11,0% för Deepgram och 12,9% för AssemblyAI. Grok STT täcker 25+ språk med ordnivå-tidsstämplar, diarisation med flera talare (speaker diarization), stöd för flera kanaler och omvänd textnormalisering (konvertering av siffror och datum från tal).

TTS-API (talsyntes)

Grok TTS-API prissätts till $4,20 per miljon tecken, där OpenAI tar $30, InWorld $40, Cartesia $46,70 och ElevenLabs $50. API:et stöder REST och streaming WebSocket. Det introducerar uttrycksfulla taggar: [laugh], [sigh], [whisper], <emphasis>, <slow>, <pause> — för att styra ton och rytm i syntesen.

Konkurrent	Pris / miljon tecken
Grok	$4,20
OpenAI	$30,00
InWorld	$40,00
Cartesia	$46,70
ElevenLabs	$50,00

xAI announces the launch of Grok speech to text and text to speech APIs. Grok STT has the world’s lowest word error rate and price. Grok TTS has the world’s most expressive voice and lowest price.

🇸🇪 xAI tillkännager lanseringen av Grok API:er för taligenkänning och talsyntes. Grok STT visar världens lägsta Word Error Rate och lägsta pris. Grok TTS erbjuder den mest uttrycksfulla rösten och världens lägsta pris. — @xai på X

🔗 xAI:s tillkännagivande 🔗 Tweet @xai

Claude for Word — Microsoft-tillägget i beta

17 april — Anthropic lanserar Claude for Word i betaversion för abonnenterna Pro, Max, Team och Enterprise. Tillägget integreras direkt i Microsoft Word-gränssnittet — utan separat fönster — och fungerar på dokumentnivå.

Funktion	Beskrivning
Inbyggda spårade ändringar	Alla ändringar från Claude visas som Word-revideringar som kan accepteras/avvisas
Kommentarhantering	Claude läser kommentarer, redigerar den ankarbundna texten och svarar i tråden
Formateringsbevarande	Ärver stilar för rubriker, numreringar och definierade termer
Cross-context	Delar kontext med Excel- och PowerPoint-tillägg i samma konversation
Företagssäkerhet	Inloggning via Claude-konto eller befintlig molnleverantör

De format som stöds är .docx och .docm. Tillägget installeras via Microsoft Marketplace under identifieraren WA200010453.

🔗 claude.com/claude-for-word 🔗 Tweet @claudeai

Midjourney V8.1 — inbyggd 2K-rendering, 3× snabbare

14 april — Midjourney har lagt upp version V8.1 av sin bildgenerator. Uppdateringen ger inbyggd 2K HD-rendering med en genereringshastighet som är tre gånger högre än V8, till en kostnad som är tre gånger lägre.

V8.1 utgör en betydande förfining av V8-motorn: upplösningen går direkt till 2K utan efterföljande uppskalning, vilket förbättrar återgivningen av fina detaljer och minskar de vanliga artefakterna från uppskalningssteg. Kombinationen av hastighet/pris/upplösning placerar V8.1 som den mest tillgängliga versionen i V8-familjen.

Luma × Wonder Project — studion Innovative Dreams, med stöd från AWS

16 april — Luma AI och Wonder Project (produktionsstudio för faith & values, Prime Video-partner) tillkännager gemensamt lanseringen av Innovative Dreams — ett nytt filmbolag, ett FoU-labb och ett VFX-företag, stött och finansierat av Amazon Web Services (AWS).

Innovative Dreams beskrivs som den första studion som i stor skala använder Realtime Hybrid Filmmaking — en metod som blandar performance capture, virtuell produktion och generativ AI (särskilt Luma Agents) i alla produktionssteg: koncept, förvisualisering, inspelning och efterproduktion.

Aspekt	Detalj
VD	Jon Erwin (grundare av Wonder Project)
CTO / Luma	Amit Jain (VD för Luma AI)
Infrastruktur	AWS-moln + AI för FoU och verktyg för virtuell produktion
Teknik	Luma Agents + Realtime Hybrid Filmmaking
Plats	MBS Media Campus, Manhattan Beach, Kalifornien
Första projekt	”The Old Stories: Moses” (3 avsnitt) med Ben Kingsley och O-T Fagbenle, för Prime Video

Metoden “Realtime Hybrid Filmmaking” tar bort de traditionella fördröjningarna mellan inspelning, rendering och klippning. Skådespelare kan reagera på digitala miljöer i realtid, vilket förkortar avståndet mellan kreativ idé och slutlig pixel samtidigt som den mänskliga prestationen bevaras. Innovative Dreams erbjuder också sina verktyg till andra Hollywood-studior.

🔗 Lumas tillkännagivande 🔗 Tweet @LumaLabsAI

MiniMax M2.7 × NousResearch — MaxHermes, Hermes Agent utan konfiguration

16 april — MiniMax tillkännager ett fördjupat partnerskap med NousResearch för att integrera modellen M2.7 i harnesset Hermes Agent. Tillkännagivandet introducerar MaxHermes — en molnhanterad version av Hermes Agent som kan användas direkt från @MiniMaxAgent, utan terminalkonfiguration eller lokal installation.

Samspelet mellan M2.7 och Hermes Agent riktar sig mot agenter i högre klass: Hermes självförbättringsloop (self-improving loop) drar maximal nytta av M2.7-modellen för agentiska uppgifter. Användare som kör Hermes lokalt kan också ansluta sin agent till MaxHermes för att dra nytta av den molnhanterade infrastrukturen.

🔗 Tweet @MiniMax_AI

Gemini Skills i Chrome — dina prompts med ett klick

14 april — Google Chrome integrerar en ny funktion kallad “Skills” för Gemini i webbläsaren. Du kan nu spara dina mest användbara prompts och köra dem igen med ett enda klick, utan att skriva om dem. Ett bibliotek med fördefinierade prompts finns också tillgängligt för att komma igång snabbt.

Funktionen tillkännagavs den 14 april och bekräftades tillgänglig den 15 april 2026, och togs därefter upp i @GoogleAI:s veckosammanfattning den 17 april.

🔗 Tweet @googlechrome (14 apr.) 🔗 Tweet @googlechrome (15 apr.)

Gemini API — förskottsbetalning (Prepay Billing) i Google AI Studio

15 april — Google AI Studio introducerar “Prepay Billing” för Gemini API. Utvecklare kan nu köpa krediter i förväg och förbruka dem successivt, vilket eliminerar faktureringsöverraskningar i slutet av månaden.

Automatisk påfyllning är tillgänglig när saldot är lågt. Funktionen är kompatibel med Spend Caps (som lanserades tidigare) och Usage Tiers. Den är tillgänglig i USA för nya Google Cloud-faktureringskonton, med global utrullning under de kommande veckorna. Etablerade konton med höga användningsnivåer kommer att kunna gå över till postpaid.

🔗 Tweet @GoogleAIStudio

Kimi Prefill-as-a-Service — inferens över flera datacenter

18 april — Moonshot AI (Kimi) publicerar ett tekniskt framsteg inom inferensinfrastruktur: Prefill-as-a-Service (PraaS). Arkitekturen driver Prefill/Decode-distansering (prefill/decode disaggregation) bortom ett enda kluster, mot en cross-datacenter-arkitektur med heterogen hårdvara.

De tillkännagivna resultaten: 1,54× extra throughput och -64% på P90 TTFT (tid till första token). Nyckeltekniken är den hybrida modellen Kimi Linear, som minskar kostnaden för att överföra KV-cache (key-value cache) mellan datacenter. Det här är inte en konsumentlansering utan en forskningspublikation om distribuerad inferensinfrastruktur, med direkt påverkan på att minska kostnaden per token för Kimi.

🔗 Tweet @Kimi_Moonshot 🔗 arXiv-artikel

Claude Code v2.1.114 och Runway Seedance 2.0 API

18 april — Claude Code v2.1.114 åtgärdar ett kraschnande fel som uppstod när en medlem i ett agentteam begärde åtkomst till ett verktyg via dialogrutan för behörigheter.

16 april — Runway gör Seedance 2.0 tillgänglig via Runway API för utvecklare. Efter webblanseringen (9 april), 1080p-renderingen (16 april) och iOS-appen (17 april) kompletterar API-åtkomsten modellens multikanalutrullning. Dokumentationen finns på dev.runwayml.com.

🔗 CHANGELOG Claude Code 🔗 Tweet @runwayml — Seedance API

Vad det betyder

Den samtidiga lanseringen av Groks STT- och TTS-API:er är veckans mest aggressiva prisrörelse. Genom att sänka priserna med 2 till 10 gånger jämfört med ElevenLabs, AssemblyAI och OpenAI TTS signalerar xAI tydligt att AI-ljud håller på att bli en commodity — vilket kommer att påskynda adoptionen för oberoende utvecklare och startups, men pressa marginalerna för etablerade aktörer. Kombinationen av en av marknadens lägsta igenkänningsfelgrader, dumpade priser och uttrycksfulla taggar gör dessa API:er omedelbart produktionsklara.

Claude for Word och Gemini Skills i Chrome översätter två olika strategier: Anthropic integrerar sin modell i befintliga kontorsproduktivitetsverktyg, där dess användare redan tillbringar sina dagar; Google, å sin sida, berikar sin webbläsare för att göra Gemini till en självklar del av vardagen. Båda metoderna försöker minska friktionen för att komma åt modellen.

Luma × Wonder Project × AWS illustrerar framväxten av en ny modell för Hollywoodstudion: generativ AI integrerad i varje produktionssteg, AWS-molninfrastruktur och ambitionen att “lokalisera” produktioner som tidigare flyttade ut från Los Angeles. Tillkännagivandet är lika symboliskt som tekniskt — det bekräftar Realtime Hybrid Filmmaking som ett industrialiserbart pipeline, inte bara ett koncept.

Källor

Detta dokument har översatts från versionen fr till språket sv med hjälp av modellen gpt-5.4-mini. För mer information om översättningsprocessen, se https://github.com/jls42/ai-powered-markdown-translator