Suchen

Grok STT- und TTS-APIs zu Tiefstpreisen, Claude für Word, Midjourney V8.1

Am 18. April startet xAI zwei Audio-APIs — Spracherkennung (Speech to Text) und Sprachsynthese (Text to Speech) — mit Tarifen, die alle etablierten Wettbewerber unterbieten. Anthropic macht Claude direkt in Microsoft Word für seine Pro-, Max-, Team- und Enterprise-Abonnenten verfügbar. Midjourney rollt V8.1 mit nativem 2K-Rendering aus, dreimal schneller und dreimal günstiger als V8. Parallel dazu: Luma und Wonder Project eröffnen das von AWS unterstützte Studio Innovative Dreams, MiniMax geht eine Partnerschaft mit NousResearch für MaxHermes ein, Kimi veröffentlicht eine Cross-Datacenter-Inferenzarchitektur, und Google erweitert Chrome um die Gemini Skills.


Grok STT und TTS — die günstigsten Audio-APIs auf dem Markt

17. April — xAI startet gleichzeitig zwei eigenständige Audio-APIs: eine API zur Spracherkennung (Speech to Text, STT) und eine API zur Sprachsynthese (Text to Speech, TTS). Die Preisgestaltung ist offensiv: Beide APIs haben die niedrigsten Preise in ihrem jeweiligen Segment.

STT-API (Spracherkennung)

Die STT-API von Grok bietet zwei Modi: Batch-REST und Streaming-WebSocket. Die Preise liegen bei $0,10/Stunde (Batch) und $0,20/Stunde (Streaming), gegenüber $0,22 und $0,39 bei ElevenLabs, $0,21 und $0,45 bei AssemblyAI sowie $0,31 und $0,55 bei Deepgram.

WettbewerberBatch (REST)Streaming (WebSocket)
Grok$0,10/h$0,20/h
ElevenLabs$0,22/h$0,39/h
AssemblyAI$0,21/h$0,45/h
Deepgram$0,31/h$0,55/h

Bei der Qualität liegt die globale Wortfehlerrate (Word Error Rate) von Grok STT bei 6,9%, gegenüber 9,0% bei ElevenLabs, 11,0% bei Deepgram und 12,9% bei AssemblyAI. Grok STT unterstützt 25+ Sprachen mit Wort-Zeitstempeln, Mehrsprecher-Diarisierung (speaker diarization), Multikanal-Support und inverse Textnormalisierung (Umwandlung von Zahlen und Datumsangaben aus Sprache).

TTS-API (Sprachsynthese)

Die TTS-API von Grok kostet $4,20 pro Million Zeichen, während OpenAI $30 berechnet, InWorld $40, Cartesia $46,70 und ElevenLabs $50. Die API unterstützt REST und Streaming-WebSocket. Sie führt expressive Tags ein: [laugh], [sigh], [whisper], <emphasis>, <slow>, <pause> — zur Steuerung von Ton und Rhythmus der Synthese.

WettbewerberPreis / Million Zeichen
Grok$4,20
OpenAI$30,00
InWorld$40,00
Cartesia$46,70
ElevenLabs$50,00

xAI announces the launch of Grok speech to text and text to speech APIs. Grok STT has the world’s lowest word error rate and price. Grok TTS has the world’s most expressive voice and lowest price.

🇩🇪 xAI kündigt den Start der Grok-APIs für Spracherkennung und Sprachsynthese an. Grok STT bietet die weltweit niedrigste Wortfehlerrate und den weltweit niedrigsten Preis. Grok TTS bietet die ausdrucksstärkste Stimme und den weltweit niedrigsten Preis.@xai auf X

🔗 xAI-Ankündigung 🔗 Tweet @xai


Claude for Word — die Microsoft-Erweiterung in der Beta

17. April — Anthropic startet Claude for Word in einer Beta-Version für Pro-, Max-, Team- und Enterprise-Abonnenten. Die Erweiterung integriert sich direkt in die Benutzeroberfläche von Microsoft Word — ohne separates Fenster — und arbeitet auf Dokumentebene.

FunktionalitätBeschreibung
Native ÄnderungsverfolgungAlle Änderungen von Claude erscheinen als akzeptier-/ablehnbare Word-Revisionen
KommentarverwaltungClaude liest Kommentare, bearbeitet den verankerten Text und antwortet im Thread
FormatbeibehaltungÜbernimmt Überschriftenstile, Nummerierungen und definierte Begriffe
Cross-ContextTeilt den Kontext mit den Excel- und PowerPoint-Add-ins in einer einzigen Unterhaltung
UnternehmenssicherheitAnmeldung über ein Claude-Konto oder bestehenden Cloud-Anbieter

Unterstützte Formate sind .docx und .docm. Die Erweiterung wird über den Microsoft Marketplace unter der Kennung WA200010453 installiert.

🔗 claude.com/claude-for-word 🔗 Tweet @claudeai


Midjourney V8.1 — natives 2K-Rendering, 3× schneller

14. April — Midjourney hat die Version V8.1 seines Bildgenerators online gestellt. Dieses Update bringt das native 2K-HD-Rendering mit einer dreimal höheren Generierungsgeschwindigkeit als V8, bei dreimal geringeren Kosten.

V8.1 ist eine bedeutende Verfeinerung des V8-Kerns: Die Auflösung geht direkt auf 2K, ohne nachträgliches Upscaling, was die Wiedergabetreue feiner Details verbessert und die üblichen Artefakte von Vergrößerungsschritten reduziert. Die Kombination aus Geschwindigkeit, Preis und Auflösung positioniert V8.1 als die zugänglichste Version der V8-Reihe.


Luma × Wonder Project — das Studio Innovative Dreams, unterstützt von AWS

16. April — Luma AI und Wonder Project (ein faith & values-Produktionsstudio, Prime-Video-Partner) kündigen gemeinsam den Start von Innovative Dreams an — ein neues Filmproduktionsunternehmen, ein F&E-Labor und ein VFX-Unternehmen, unterstützt und finanziert von Amazon Web Services (AWS).

Innovative Dreams wird als erstes Studio vorgestellt, das Realtime Hybrid Filmmaking in großem Maßstab einsetzt — ein Ansatz, der Performance Capture, virtuelle Produktion und generative KI (insbesondere die Luma Agents) in allen Produktionsphasen verbindet: Konzept, Vorvisualisierung, Dreh und Postproduktion.

AspektDetail
CEOJon Erwin (Gründer von Wonder Project)
CTO / LumaAmit Jain (CEO von Luma AI)
InfrastrukturAWS-Cloud + KI für F&E und Tools für virtuelle Produktion
TechnologieLuma Agents + Realtime Hybrid Filmmaking
StandortMBS Media Campus, Manhattan Beach, Kalifornien
Erstes Projekt”The Old Stories: Moses” (3 Episoden) mit Ben Kingsley und O-T Fagbenle, für Prime Video

Der Ansatz „Realtime Hybrid Filmmaking“ beseitigt die traditionellen Verzögerungen zwischen Dreh, Rendering und Schnitt. Schauspieler können in Echtzeit auf digitale Umgebungen reagieren, wodurch die Distanz zwischen kreativer Idee und dem finalen Pixel verkürzt wird, während die menschliche Performance erhalten bleibt. Innovative Dreams bietet seine Werkzeuge außerdem anderen Hollywood-Studios an.

🔗 Luma-Ankündigung 🔗 Tweet @LumaLabsAI


MiniMax M2.7 × NousResearch — MaxHermes, Hermes Agent ohne Konfiguration

16. April — MiniMax kündigt eine vertiefte Partnerschaft mit NousResearch an, um das Modell M2.7 in das Hermes Agent-Harness zu integrieren. Die Ankündigung führt MaxHermes ein — eine verwaltete Cloud-Version von Hermes Agent, die direkt über @MiniMaxAgent zugänglich ist, ohne Terminal-Konfiguration oder lokale Installation.

Die Ko-Evolution von M2.7 × Hermes Agent zielt auf Agenten der Spitzenklasse: Die Selbstverbesserungsschleife (self-improving loop) von Hermes holt das Beste aus dem Modell M2.7 für agentische Aufgaben heraus. Nutzer, die Hermes lokal ausführen, können ihren Agenten außerdem mit MaxHermes verbinden, um von der verwalteten Cloud-Infrastruktur zu profitieren.

🔗 Tweet @MiniMax_AI


Gemini Skills in Chrome — Ihre Prompts mit einem Klick

14. April — Google Chrome integriert eine neue Funktion namens „Skills“ für Gemini im Browser. Sie können jetzt Ihre nützlichsten Prompts speichern und mit nur einem Klick erneut ausführen, ohne sie neu einzugeben. Eine Bibliothek mit vorgefertigten Prompts ist ebenfalls verfügbar, um schnell zu starten.

Die Funktion wurde am 14. April angekündigt und am 15. April 2026 als verfügbar bestätigt; anschließend wurde sie in der wöchentlichen Zusammenfassung von @GoogleAI vom 17. April aufgegriffen.

🔗 Tweet @googlechrome (14. Apr.) 🔗 Tweet @googlechrome (15. Apr.)


Gemini API — Vorauszahlung (Prepay Billing) in Google AI Studio

15. April — Google AI Studio führt „Prepay Billing“ für die Gemini-API ein. Entwickler können nun Guthaben im Voraus kaufen und es nach und nach verbrauchen, wodurch Überraschungen bei der Abrechnung am Monatsende vermieden werden.

Automatisches Aufladen ist verfügbar, wenn das Guthaben niedrig ist. Die Funktion ist mit den bereits eingeführten Spend Caps und den Usage Tiers kompatibel. Sie ist in den USA für neue Google-Cloud-Billingkonten verfügbar, mit weltweiter Einführung in den kommenden Wochen. Bestehende Konten mit hohen Nutzungsstufen können auf Postpaid umstellen.

🔗 Tweet @GoogleAIStudio


Kimi Prefill-as-a-Service — die Cross-Datacenter-Inferenz

18. April — Moonshot AI (Kimi) veröffentlicht einen technischen Fortschritt in der Inferenzinfrastruktur: Prefill-as-a-Service (PraaS). Die Architektur treibt die Prefill/Decode-Dekopplung (prefill/decode disaggregation) über einen einzelnen Cluster hinaus in eine Cross-Datacenter-Architektur mit heterogener Hardware.

Die angekündigten Ergebnisse: 1,54× höherer Durchsatz (throughput) und -64% beim P90 TTFT (Zeit bis zum ersten Token). Die Schlüsseltechnologie ist das hybride Modell Kimi Linear, das die Kosten für die Übertragung des KV-Caches (key-value cache) zwischen Rechenzentren reduziert. Es handelt sich nicht um einen Launch für Endnutzer, sondern um eine Forschungsarbeit zur verteilten Inferenzinfrastruktur, mit direkten Auswirkungen auf die Senkung der Kosten pro Token für Kimi.

🔗 Tweet @Kimi_Moonshot 🔗 arXiv-Papier


Claude Code v2.1.114 und Runway Seedance 2.0 API

18. April — Claude Code v2.1.114 behebt einen Absturz, der auftrat, wenn ein Mitglied eines Agententeams über den Berechtigungsdialog Zugriff auf ein Werkzeug anforderte.

16. April — Runway macht Seedance 2.0 für Entwickler über die Runway-API zugänglich. Nach dem Web-Launch (9. April), dem 1080p-Rendering (16. April) und der iOS-App (17. April) vervollständigt der API-Zugang die Multi-Channel-Auslieferung des Modells. Die Dokumentation ist unter dev.runwayml.com verfügbar.

🔗 CHANGELOG Claude Code 🔗 Tweet @runwayml — Seedance API


Was das bedeutet

Der gleichzeitige Start der STT- und TTS-APIs von Grok ist die aggressivste Preisbewegung der Woche. Indem xAI die Preise im Vergleich zu ElevenLabs, AssemblyAI und OpenAI TTS um das 2- bis 10-Fache senkt, sendet das Unternehmen ein klares Signal: KI-Audio wird zur Commodity — das wird die Adoption bei unabhängigen Entwicklern und Startups beschleunigen, aber die Margen etablierter Anbieter unter Druck setzen. Die Kombination aus einer der niedrigsten Erkennungsfehlerraten am Markt, Dumpingpreisen und expressiven Tags macht diese APIs unmittelbar produktionsreif.

Claude for Word und die Gemini Skills in Chrome stehen für zwei unterschiedliche Strategien: Anthropic integriert sein Modell in bestehende Büro-Produktivitätstools, in denen seine Nutzer bereits ihren Alltag verbringen; Google wiederum erweitert seinen Browser, um Gemini im täglichen Gebrauch unverzichtbar zu machen. Beide Ansätze zielen darauf ab, die Zugangsbarrieren zum Modell zu senken.

Luma × Wonder Project × AWS illustriert das Entstehen eines neuen Modells für Hollywood-Studios: generative KI, die in jede Produktionsphase integriert ist, AWS-Cloud-Infrastruktur und der Anspruch, Produktionen, die sonst ins Ausland ausgelagert würden, in Los Angeles zu „lokalisieren“. Die Ankündigung ist ebenso symbolisch wie technisch — sie bestätigt Realtime Hybrid Filmmaking als industrialisierbare Pipeline und nicht nur als Konzept.


Quellen

Ce Dokument wurde aus der Version fr in die Sprache de unter Verwendung des Modells gpt-5.4-mini übersetzt. Für weitere Informationen zum Übersetzungsprozess besuchen Sie https://github.com/jls42/ai-powered-markdown-translator