Sök

Grok STT och TTS-API:er till vrakpris, Claude for Word, Midjourney V8.1

Den 18 april lanserar xAI två audio-API:er — taligenkänning (Speech to Text) och talsyntes (Text to Speech) — med priser som underbjuder alla etablerade konkurrenter. Anthropic gör Claude direkt tillgängligt i Microsoft Word för sina Pro-, Max-, Team- och Enterprise-prenumeranter. Midjourney rullar ut V8.1 med inbyggd 2K-rendering, tre gånger snabbare och tre gånger billigare än V8. Parallellt: Luma och Wonder Project öppnar studion Innovative Dreams med stöd från AWS, MiniMax går ihop med NousResearch för MaxHermes, Kimi publicerar en cross-datacenter-inferensarkitektur, och Google utökar Chrome med Gemini Skills.


Grok STT och TTS — marknadens billigaste audio-API:er

17 april — xAI lanserar samtidigt två fristående audio-API:er: ett API för taligenkänning (Speech to Text, STT) och ett API för talsyntes (Text to Speech, TTS). Prispositioneringen är offensiv: båda API:erna har de lägsta priserna i sina respektive segment.

STT-API (taligenkänning)

Grok STT-API erbjuder två lägen: batch REST och streaming WebSocket. Priserna är respektive $0,10/timme (batch) och $0,20/timme (streaming), jämfört med $0,22 och $0,39 hos ElevenLabs, $0,21 och $0,45 hos AssemblyAI, $0,31 och $0,55 hos Deepgram.

KonkurrentBatch (REST)Streaming (WebSocket)
Grok$0,10/h$0,20/h
ElevenLabs$0,22/h$0,39/h
AssemblyAI$0,21/h$0,45/h
Deepgram$0,31/h$0,55/h

När det gäller kvalitet är Grok STT:s globala ordfelsfrekvens (Word Error Rate) 6,9%, jämfört med 9,0% för ElevenLabs, 11,0% för Deepgram och 12,9% för AssemblyAI. Grok STT täcker 25+ språk med tidsstämplar på ordnivå, diarization för flera talare (speaker diarization), stöd för flera kanaler och omvänd textnormalisering (konvertering av siffror och datum från tal).

TTS-API (talsyntes)

Grok TTS-API kostar $4,20 per miljon tecken, medan OpenAI tar $30, InWorld $40, Cartesia $46,70 och ElevenLabs $50. API:et stöder REST och streaming WebSocket. Det introducerar uttrycksfulla taggar: [laugh], [sigh], [whisper], <emphasis>, <slow>, <pause> — för att styra tonen och rytmen i syntesen.

KonkurrentPris / miljon tecken
Grok$4,20
OpenAI$30,00
InWorld$40,00
Cartesia$46,70
ElevenLabs$50,00

xAI tillkännager lanseringen av Groks API:er för tal till text och text till tal. Grok STT har världens lägsta ordfelsfrekvens och pris. Grok TTS har världens mest uttrycksfulla röst och lägsta pris.

🇸🇪 xAI tillkännager lanseringen av Groks API:er för tal till text och text till tal. Grok STT har världens lägsta ordfelsfrekvens och pris. Grok TTS har världens mest uttrycksfulla röst och lägsta pris.@xai på X

🔗 xAI:s tillkännagivande 🔗 Tweet @xai


Claude for Word — Microsoft-tillägget i beta

17 april — Anthropic lanserar Claude for Word i betaversion för Pro-, Max-, Team- och Enterprise-prenumeranter. Tillägget integreras direkt i Microsoft Words gränssnitt — utan separat fönster — och fungerar på dokumentnivå.

FunktionBeskrivning
Inbyggda ändringsspårningarAlla ändringar från Claude visas som Word-revideringar som kan accepteras eller avvisas
Hantering av kommentarerClaude läser kommentarer, redigerar den ankarbundna texten och svarar i tråden
Bevarande av formateringÄrver stilar för rubriker, numrering och definierade termer
Cross-contextDelar kontext med Excel- och PowerPoint-tillägg i samma konversation
FöretagssäkerhetInloggning via Claude-konto eller befintlig molnleverantör

De format som stöds är .docx och .docm. Tillägget installeras via Microsoft Marketplace under identifieraren WA200010453.

🔗 claude.com/claude-for-word 🔗 Tweet @claudeai


Midjourney V8.1 — inbyggd 2K-rendering, 3× snabbare

14 april — Midjourney har lagt ut version V8.1 av sin bildgenerator. Uppdateringen ger inbyggd 2K HD-rendering med en genereringshastighet som är tre gånger högre än V8, till en kostnad som är tre gånger lägre.

V8.1 utgör en betydande förfining av V8-motorn: upplösningen går direkt till 2K utan efterföljande upscaling, vilket förbättrar återgivningen av fina detaljer och minskar de vanliga artefakterna från förstärkningssteg. Kombinationen av hastighet/pris/upplösning positionerar V8.1 som den mest tillgängliga versionen i V8-serien.


Luma × Wonder Project — studion Innovative Dreams, med stöd från AWS

16 april — Luma AI och Wonder Project (ett faith & values-produktionsbolag, Prime Video-partner) tillkännager tillsammans lanseringen av Innovative Dreams — ett nytt filmbolag, ett R&D-labb och ett VFX-företag, med stöd och finansiering från Amazon Web Services (AWS).

Innovative Dreams beskrivs som den första studion som i stor skala använder Realtime Hybrid Filmmaking — ett arbetssätt som kombinerar performance capture, virtuell produktion och generativ AI (särskilt Luma Agents) i alla produktionssteg: koncept, förvisualisering, inspelning och efterproduktion.

AspektDetalj
VDJon Erwin (grundare av Wonder Project)
CTO / LumaAmit Jain (VD för Luma AI)
InfrastrukturAWS-moln + AI för R&D och verktyg för virtuell produktion
TeknikLuma Agents + Realtime Hybrid Filmmaking
PlatsMBS Media Campus, Manhattan Beach, Kalifornien
Första projekt”The Old Stories: Moses” (3 avsnitt) med Ben Kingsley och O-T Fagbenle, för Prime Video

Tillvägagångssättet “Realtime Hybrid Filmmaking” tar bort de traditionella fördröjningarna mellan inspelning, rendering och klippning. Skådespelare kan reagera på digitala miljöer i realtid, vilket förkortar avståndet mellan kreativ idé och slutlig pixel samtidigt som den mänskliga prestationen bevaras. Innovative Dreams erbjuder också sina verktyg till andra Hollywood-studior.

🔗 Lumas tillkännagivande 🔗 Tweet @LumaLabsAI


MiniMax M2.7 × NousResearch — MaxHermes, Hermes Agent utan konfigurering

16 april — MiniMax tillkännager ett fördjupat partnerskap med NousResearch för att integrera modellen M2.7 i harnesset Hermes Agent. Tillkännagivandet introducerar MaxHermes — en molnhanterad version av Hermes Agent som kan nås direkt via @MiniMaxAgent, utan terminalkonfiguration eller lokal installation.

Den samutvecklade M2.7 × Hermes Agent syftar till agenter i toppklass: Hermes självförbättringsslinga (self-improving loop) drar maximal nytta av modellen M2.7 för agentiska uppgifter. Användare som kör Hermes lokalt kan också koppla sin agent till MaxHermes för att dra nytta av den hanterade molninfrastrukturen.

🔗 Tweet @MiniMax_AI


Gemini Skills i Chrome — dina prompts med ett klick

14 april — Google Chrome integrerar en ny funktion kallad “Skills” för Gemini i webbläsaren. Du kan nu spara dina mest användbara prompts och köra dem igen med ett enda klick, utan att skriva om dem. Ett bibliotek med fördefinierade prompts finns också tillgängligt för snabb start.

Funktionen tillkännagavs den 14 april och bekräftades vara tillgänglig den 15 april 2026, och togs sedan upp i @GoogleAI:s veckosammanfattning den 17 april.

🔗 Tweet @googlechrome (14 apr.) 🔗 Tweet @googlechrome (15 apr.)


Gemini API — förskottsbetalning (Prepay Billing) i Google AI Studio

15 april — Google AI Studio introducerar “Prepay Billing” för Gemini API. Utvecklare kan nu köpa krediter i förväg och förbruka dem successivt, vilket eliminerar överraskningar i faktureringen i slutet av månaden.

Automatisk påfyllning är tillgänglig när saldot är lågt. Funktionen är kompatibel med Spend Caps (som lanserades tidigare) och Usage Tiers. Den är tillgänglig i USA för nya Google Cloud-faktureringskonton, med global utrullning under de kommande veckorna. Etablerade konton med höga användningsnivåer kommer att kunna gå över till postpaid.

🔗 Tweet @GoogleAIStudio


Kimi Prefill-as-a-Service — inferens över flera datacenter

18 april — Moonshot AI (Kimi) publicerar ett tekniskt framsteg inom inferensinfrastruktur: Prefill-as-a-Service (PraaS). Arkitekturen driver Prefill/Decode-disaggregation (prefill/decode disaggregation) bortom ett enda kluster, mot en cross-datacenter-arkitektur med heterogen hårdvara.

De redovisade resultaten: 1,54× högre throughput och -64% på P90 TTFT (tid till första token). Den centrala tekniken är den hybrida modellen Kimi Linear, som minskar kostnaden för att överföra KV-cachen (key-value cache) mellan datacenter. Det här är inte en konsumentlansering utan en forskningspublikation om distribuerad inferensinfrastruktur, med direkt påverkan på kostnaden per token för Kimi.

🔗 Tweet @Kimi_Moonshot 🔗 arXiv-papper


Claude Code v2.1.114 och Runway Seedance 2.0 API

18 april — Claude Code v2.1.114 åtgärdar en krasch som inträffade när en medlem i ett agentteam begärde åtkomst till ett verktyg via dialogrutan för behörigheter.

16 april — Runway gör Seedance 2.0 tillgängligt via Runway API för utvecklare. Efter webblanseringen (9 april), 1080p-renderingen (16 april) och iOS-appen (17 april) kompletterar API-tillgången modellens flerkanaliga utrullning. Dokumentationen finns på dev.runwayml.com.

🔗 CHANGELOG Claude Code 🔗 Tweet @runwayml — Seedance API


Vad det betyder

Den samtidiga lanseringen av Groks STT- och TTS-API:er är veckans mest aggressiva prisrörelse. Genom att sänka priserna med 2 till 10 gånger jämfört med ElevenLabs, AssemblyAI och OpenAI TTS signalerar xAI tydligt att AI-ljud håller på att bli en handelsvara — vilket kommer att påskynda adoptionen för oberoende utvecklare och startups, men pressa marginalerna hos etablerade aktörer. Kombinationen av en av marknadens lägsta ordfelsfrekvenser, vrakpriser och uttrycksfulla taggar gör dessa API:er omedelbart användbara i produktion.

Claude for Word och Gemini Skills i Chrome representerar två olika strategier: Anthropic integrerar sin modell i befintliga kontorsproduktivitetsverktyg, där användarna redan tillbringar sina dagar; Google bygger ut sin webbläsare för att göra Gemini oumbärlig i vardagen. Båda angreppssätten försöker minska friktionen i åtkomsten till modellen.

Luma × Wonder Project × AWS illustrerar framväxten av en ny typ av Hollywood-studio: generativ AI integrerad i varje produktionssteg, AWS-molninfrastruktur och ambitionen att “lokalisera” produktioner i Los Angeles som annars skulle ha flyttats ut. Tillkännagivandet är lika symboliskt som tekniskt — det bekräftar Realtime Hybrid Filmmaking som en industrialiserbar pipeline, inte bara ett koncept.


Källor

Detta dokument har översatts från versionen fr till språket sv med hjälp av modellen gpt-5.4-mini. För mer information om översättningsprocessen, se https://gitlab.com/jls42/ai-powered-markdown-translator