Grok STT i TTS APIs po cenach bezkonkurencyjnych, Claude for Word, Midjourney V8.1

18 kwietnia xAI uruchamia dwa audio APIs — rozpoznawanie mowy (Speech to Text) i syntezę mowy (Text to Speech) — z cenami, które podcinają wszystkich uznanych konkurentów. Anthropic udostępnia Claude bezpośrednio w Microsoft Word dla subskrybentów Pro, Max, Team i Enterprise. Midjourney wdraża V8.1 z natywnym renderowaniem 2K, trzy razy szybszym i trzy razy tańszym niż V8. Równolegle: Luma i Wonder Project otwierają studio Innovative Dreams wspierane przez AWS, MiniMax łączy siły z NousResearch przy MaxHermes, Kimi publikuje architekturę inferencji cross-datacenter, a Google wzbogaca Chrome o Gemini Skills.

Grok STT i TTS — najtańsze audio APIs na rynku

17 kwietnia — xAI uruchamia jednocześnie dwa samodzielne audio APIs: API rozpoznawania mowy (Speech to Text, STT) oraz API syntezy mowy (Text to Speech, TTS). Pozycjonowanie cenowe jest bezpośrednie: oba APIs mają najniższe ceny w swoich segmentach.

API STT (rozpoznawanie mowy)

API STT od Grok oferuje dwa tryby: batch REST oraz streaming WebSocket. Ceny wynoszą odpowiednio $0,10/godz. (batch) i $0,20/godz. (streaming), wobec $0,22 i $0,39 w ElevenLabs, $0,21 i $0,45 w AssemblyAI, $0,31 i $0,55 w Deepgram.

Konkurent	Batch (REST)	Streaming (WebSocket)
Grok	$0,10/h	$0,20/h
ElevenLabs	$0,22/h	$0,39/h
AssemblyAI	$0,21/h	$0,45/h
Deepgram	$0,31/h	$0,55/h

Jeśli chodzi o jakość, globalny wskaźnik Word Error Rate Grok STT wynosi 6,9%, wobec 9,0% dla ElevenLabs, 11,0% dla Deepgram i 12,9% dla AssemblyAI. Grok STT obsługuje 25+ języków, oferuje znaczniki czasu na poziomie słowa, diarizację wielu mówców (speaker diarization), obsługę wielokanałową oraz odwrotną normalizację tekstu (konwersję liczb i dat na podstawie mowy).

API TTS (synteza mowy)

API TTS od Grok kosztuje $4,20 za milion znaków, podczas gdy OpenAI liczy $30, InWorld $40, Cartesia $46,70, a ElevenLabs $50. API obsługuje REST i streaming WebSocket. Wprowadza też znaczniki ekspresji: [laugh], [sigh], [whisper], <emphasis>, <slow>, <pause> — do sterowania tonem i rytmem syntezy.

Konkurent	Cena / milion znaków
Grok	$4,20
OpenAI	$30,00
InWorld	$40,00
Cartesia	$46,70
ElevenLabs	$50,00

xAI ogłasza uruchomienie APIs Grok do zamiany mowy na tekst i tekstu na mowę. Grok STT ma najniższy na świecie Word Error Rate oraz najniższą cenę. Grok TTS ma najbardziej ekspresyjny głos na świecie i najniższą cenę.

🇵🇱 xAI ogłasza uruchomienie APIs Grok do zamiany mowy na tekst i tekstu na mowę. Grok STT ma najniższy na świecie Word Error Rate oraz najniższą cenę. Grok TTS ma najbardziej ekspresyjny głos na świecie i najniższą cenę. — @xai na X

🔗 Ogłoszenie xAI 🔗 Tweet @xai

Claude for Word — rozszerzenie Microsoft w becie

17 kwietnia — Anthropic uruchamia Claude for Word w wersji beta dla subskrybentów Pro, Max, Team i Enterprise. Rozszerzenie integruje się bezpośrednio z interfejsem Microsoft Word — bez osobnego okna — i działa na poziomie dokumentu.

Funkcjonalność	Opis
Natywny tracked changes	Wszystkie zmiany Claude pojawiają się jako akceptowalne/odrzucalne poprawki Word
Obsługa komentarzy	Claude czyta komentarze, edytuje zakotwiczony tekst i odpowiada w wątku
Zachowanie formatowania	Dziedziczy style nagłówków, numerację i zdefiniowane terminy
Cross-context	Dzieli kontekst z add-ins Excel i PowerPoint w jednej rozmowie
Bezpieczeństwo enterprise	Logowanie przez konto Claude lub istniejącego dostawcę chmurowego

Obsługiwane formaty to .docx i .docm. Rozszerzenie instaluje się przez Microsoft Marketplace pod identyfikatorem WA200010453.

🔗 claude.com/claude-for-word 🔗 Tweet @claudeai

Midjourney V8.1 — natywne renderowanie 2K, 3× szybciej

14 kwietnia — Midjourney udostępnił online wersję V8.1 swojego generatora obrazów. Ta aktualizacja wprowadza natywne renderowanie 2K HD z prędkością generowania trzykrotnie większą niż w V8, przy koszcie trzykrotnie niższym.

V8.1 stanowi znaczące dopracowanie silnika V8: rozdzielczość przechodzi bezpośrednio do 2K bez późniejszego upscalingu, co poprawia wierność drobnych detali i ogranicza typowe artefakty etapów powiększania. Połączenie szybkości, ceny i rozdzielczości pozycjonuje V8.1 jako najbardziej dostępną wersję gamy V8.

Luma × Wonder Project — studio Innovative Dreams, wspierane przez AWS

16 kwietnia — Luma AI i Wonder Project (studio produkcyjne faith & values, partner Prime Video) wspólnie ogłaszają uruchomienie Innovative Dreams — nowej firmy produkcji filmowej, laboratorium R&D oraz przedsiębiorstwa VFX, wspieranych i finansowanych przez Amazon Web Services (AWS).

Innovative Dreams jest przedstawiane jako pierwsze studio, które wdraża na dużą skalę Realtime Hybrid Filmmaking — podejście łączące capture of performance, produkcję wirtualną i generatywną AI (w szczególności Luma Agents) na wszystkich etapach produkcji: koncepcji, prewizualizacji, zdjęć i postprodukcji.

Aspekt	Szczegół
CEO	Jon Erwin (założyciel Wonder Project)
CTO / Luma	Amit Jain (CEO Luma AI)
Infrastruktura	AWS cloud + AI do R&D i narzędzi produkcji wirtualnej
Technologia	Luma Agents + Realtime Hybrid Filmmaking
Lokalizacja	MBS Media Campus, Manhattan Beach, Kalifornia
Pierwszy projekt	”The Old Stories: Moses” (3 odcinki) z Benem Kingsleyem i O-T Fagbenle, dla Prime Video

Podejście “Realtime Hybrid Filmmaking” eliminuje tradycyjne opóźnienia między zdjęciami, renderowaniem i montażem. Aktorzy mogą reagować na cyfrowe środowiska w czasie rzeczywistym, co skraca dystans między pomysłem twórczym a finalnym pikselem, zachowując jednocześnie ludzką interpretację. Innovative Dreams udostępnia też swoje narzędzia innym studiom Hollywood.

🔗 Ogłoszenie Luma 🔗 Tweet @LumaLabsAI

MiniMax M2.7 × NousResearch — MaxHermes, Hermes Agent bez konfiguracji

16 kwietnia — MiniMax ogłasza pogłębione partnerstwo z NousResearch w celu integracji modelu M2.7 w harness Hermes Agent. Ogłoszenie wprowadza MaxHermes — zarządzaną wersję cloud Hermes Agent dostępną bezpośrednio z @MiniMaxAgent, bez konfiguracji w terminalu ani instalacji lokalnej.

Współewolucja M2.7 × Hermes Agent ma na celu agentów wyższej klasy: pętla samodoskonalenia (self-improving loop) Hermes wyciąga maksimum z modelu M2.7 w zadaniach agentowych. Użytkownicy uruchamiający Hermes lokalnie mogą również podłączyć swojego agenta do MaxHermes, aby skorzystać z zarządzanej infrastruktury cloud.

🔗 Tweet @MiniMax_AI

Gemini Skills w Chrome — twoje prompty jednym kliknięciem

14 kwietnia — Google Chrome integruje nową funkcję o nazwie “Skills” dla Gemini w przeglądarce. Możesz teraz zapisywać swoje najbardziej przydatne prompty i uruchamiać je ponownie jednym kliknięciem, bez przepisywania. Dostępna jest także biblioteka gotowych promptów, aby szybko zacząć.

Funkcję ogłoszono 14 kwietnia i potwierdzono jako dostępną 15 kwietnia 2026, a następnie przywołano w tygodniowym podsumowaniu @GoogleAI z 17 kwietnia.

🔗 Tweet @googlechrome (14 kwi.) 🔗 Tweet @googlechrome (15 kwi.)

Gemini API — przedpłata (Prepay Billing) w Google AI Studio

15 kwietnia — Google AI Studio wprowadza “Prepay Billing” dla API Gemini. Deweloperzy mogą teraz kupować kredyty z góry i zużywać je w miarę potrzeb, eliminując niespodzianki z rozliczeniem pod koniec miesiąca.

Automatyczne doładowanie jest dostępne, gdy saldo jest niskie. Funkcja jest zgodna z Spend Caps (wprowadzonymi wcześniej) oraz Usage Tiers. Jest dostępna w Stanach Zjednoczonych dla nowych kont rozliczeniowych Google Cloud, a globalne wdrożenie nastąpi w ciągu najbliższych tygodni. Ustalone konta z wysokimi poziomami użycia będą mogły przejść na postpaid.

🔗 Tweet @GoogleAIStudio

Kimi Prefill-as-a-Service — inferencja cross-datacenter

18 kwietnia — Moonshot AI (Kimi) publikuje przełom techniczny w infrastrukturze inferencji: Prefill-as-a-Service (PraaS). Architektura przesuwa dezagregację Prefill/Decode (prefill/decode disaggregation) poza pojedynczy klaster, w kierunku architektury cross-datacenter z heterogenicznym sprzętem.

Ogłoszone wyniki to 1,54× większy throughput oraz -64% w P90 TTFT (czas do pierwszego token). Kluczową technologią jest hybrydowy model Kimi Linear, który zmniejsza koszt transferu cache KV (key-value cache) między datacenter. To nie jest launch dla szerokiej publiczności, lecz publikacja badawcza o rozproszonej infrastrukturze inferencji, z bezpośrednim wpływem na obniżenie kosztu na token dla Kimi.

🔗 Tweet @Kimi_Moonshot 🔗 Artykuł arXiv

Claude Code v2.1.114 i Runway Seedance 2.0 API

18 kwietnia — Claude Code v2.1.114 naprawia awarię występującą, gdy członek zespołu agentów prosił o dostęp do narzędzia przez okno dialogowe uprawnień.

16 kwietnia — Runway udostępnia Seedance 2.0 przez API Runway dla deweloperów. Po launchu webowym (9 kwietnia), renderowaniu 1080p (16 kwietnia) i aplikacji iOS (17 kwietnia), dostęp API domyka wielokanałowe wdrożenie modelu. Dokumentacja jest dostępna na dev.runwayml.com.

🔗 CHANGELOG Claude Code 🔗 Tweet @runwayml — Seedance API

Co to oznacza

Jednoczesne uruchomienie APIs STT i TTS od Grok to najbardziej agresywny ruch cenowy tygodnia. Tnąc ceny od 2 do 10 razy względem ElevenLabs, AssemblyAI i OpenAI TTS, xAI jasno sygnalizuje, że audio AI staje się towarem — co przyspieszy adopcję wśród niezależnych deweloperów i startupów, ale skompresuje marże uznanych graczy. Połączenie jednego z najniższych wskaźników błędu rozpoznawania na rynku, bezkonkurencyjnych cen i ekspresyjnych znaczników sprawia, że te APIs są natychmiast gotowe do użycia w produkcji.

Claude for Word i Gemini Skills w Chrome odzwierciedlają dwie różne strategie: Anthropic integruje swój model z istniejącymi biurowymi narzędziami produktywności, tam gdzie użytkownicy już spędzają swoje dni; Google z kolei wzbogaca swoją przeglądarkę, aby uczynić Gemini codziennie nieodzownym. Oba podejścia mają na celu zmniejszenie tarcia przy dostępie do modelu.

Luma × Wonder Project × AWS ilustruje wyłanianie się nowego modelu hollywoodzkiego studia: generatywna AI zintegrowana na każdym etapie produkcji, infrastruktura AWS cloud i ambicja “przeniesienia z powrotem do Los Angeles” produkcji, które wcześniej wyjeżdżały za granicę. Ogłoszenie ma znaczenie zarówno symboliczne, jak i techniczne — potwierdza Realtime Hybrid Filmmaking jako możliwy do uprzemysłowienia pipeline, a nie tylko koncepcję.

Źródła

Ten dokument został przetłumaczony z wersji fr na język pl przy użyciu modelu gpt-5.4-mini. Aby uzyskać więcej informacji o procesie tłumaczenia, odwiedź https://gitlab.com/jls42/ai-powered-markdown-translator