18 kwietnia xAI uruchamia dwie audio APIs — rozpoznawanie mowy (Speech to Text) i syntezę mowy (Text to Speech) — z cenami, które przebijają wszystkich uznanych konkurentów. Anthropic udostępnia Claude bezpośrednio w Microsoft Word dla subskrybentów Pro, Max, Team i Enterprise. Midjourney wdraża V8.1 z natywnym renderingiem 2K, trzy razy szybszym i trzy razy tańszym niż V8. Równolegle: Luma i Wonder Project otwierają studio Innovative Dreams wspierane przez AWS, MiniMax łączy siły z NousResearch dla MaxHermes, Kimi publikuje architekturę inferencji cross-datacenter, a Google wzbogaca Chrome o Gemini Skills.
Grok STT i TTS — najtańsze audio APIs na rynku
17 kwietnia — xAI uruchamia jednocześnie dwie standalone audio APIs: API rozpoznawania mowy (Speech to Text, STT) oraz API syntezy mowy (Text to Speech, TTS). Pozycjonowanie cenowe jest bezpośrednie: obie APIs mają najniższe ceny w swoich segmentach.
API STT (rozpoznawanie mowy)
API STT od Grok oferuje dwa tryby: batch REST i streaming WebSocket. Ceny wynoszą odpowiednio $0,10/godz. (batch) i $0,20/godz. (streaming), wobec $0,22 i $0,39 w ElevenLabs, $0,21 i $0,45 w AssemblyAI oraz $0,31 i $0,55 w Deepgram.
| Konkurent | Batch (REST) | Streaming (WebSocket) |
|---|---|---|
| Grok | $0,10/godz. | $0,20/godz. |
| ElevenLabs | $0,22/godz. | $0,39/godz. |
| AssemblyAI | $0,21/godz. | $0,45/godz. |
| Deepgram | $0,31/godz. | $0,55/godz. |
Pod względem jakości globalny wskaźnik błędu słów (Word Error Rate) w Grok STT wynosi 6,9%, wobec 9,0% dla ElevenLabs, 11,0% dla Deepgram i 12,9% dla AssemblyAI. Grok STT obsługuje 25+ języków z timestampami na poziomie słowa, diarizacją wielu mówców (speaker diarization), wsparciem wielokanałowym oraz odwrotną normalizacją tekstu (zamiana liczb i dat z mowy).
API TTS (synteza mowy)
API TTS od Grok kosztuje $4,20 za milion znaków, podczas gdy OpenAI pobiera $30, InWorld $40, Cartesia $46,70, a ElevenLabs $50. API obsługuje REST i streaming WebSocket. Wprowadza znaczniki ekspresji: [laugh], [sigh], [whisper], <emphasis>, <slow>, <pause> — do sterowania tonem i rytmem syntezy.
| Konkurent | Cena / milion znaków |
|---|---|
| Grok | $4,20 |
| OpenAI | $30,00 |
| InWorld | $40,00 |
| Cartesia | $46,70 |
| ElevenLabs | $50,00 |
xAI announces the launch of Grok speech to text and text to speech APIs. Grok STT has the world’s lowest word error rate and price. Grok TTS has the world’s most expressive voice and lowest price.
🇵🇱 xAI ogłasza uruchomienie API rozpoznawania mowy oraz syntezy mowy Grok. Grok STT ma najniższy na świecie wskaźnik błędu słów i najniższą cenę. Grok TTS oferuje najbardziej ekspresyjną mowę i najniższą cenę na świecie. — @xai na X
Claude for Word — rozszerzenie Microsoft w becie
17 kwietnia — Anthropic uruchamia Claude for Word w wersji beta dla subskrybentów Pro, Max, Team i Enterprise. Rozszerzenie integruje się bezpośrednio z interfejsem Microsoft Word — bez osobnego okna — i działa na poziomie dokumentu.
| Funkcjonalność | Opis |
|---|---|
| Natywne śledzone zmiany | Wszystkie modyfikacje Claude pojawiają się jako akceptowalne/odrzucalne poprawki Word |
| Zarządzanie komentarzami | Claude czyta komentarze, edytuje powiązany tekst i odpowiada w wątku |
| Zachowanie formatowania | Dziedziczy style nagłówków, numerację i zdefiniowane terminy |
| Cross-context | Dzieli kontekst z add-inami Excel i PowerPoint w jednej rozmowie |
| Bezpieczeństwo dla firm | Logowanie przez konto Claude lub istniejącego dostawcę chmurowego |
Obsługiwane formaty to .docx i .docm. Rozszerzenie instaluje się przez Microsoft Marketplace pod identyfikatorem WA200010453.
🔗 claude.com/claude-for-word 🔗 Tweet @claudeai
Midjourney V8.1 — natywny rendering 2K, 3× szybciej
14 kwietnia — Midjourney udostępnił online wersję V8.1 swojego generatora obrazów. Aktualizacja wprowadza natywny rendering 2K HD z prędkością generowania trzykrotnie wyższą niż V8, przy koszcie trzy razy niższym.
V8.1 stanowi znaczące dopracowanie silnika V8: rozdzielczość przechodzi bezpośrednio do 2K bez późniejszego upscalingu, co poprawia wierność drobnych detali i ogranicza typowe artefakty etapów powiększania. Połączenie szybkości/ceny/rozdzielczości pozycjonuje V8.1 jako najbardziej dostępną wersję linii V8.
Luma × Wonder Project — studio Innovative Dreams, wspierane przez AWS
16 kwietnia — Luma AI i Wonder Project (studio produkcyjne faith & values, partner Prime Video) ogłaszają wspólnie uruchomienie Innovative Dreams — nowej firmy produkcji filmowej, laboratorium R&D oraz przedsiębiorstwa VFX, wspieranej i finansowanej przez Amazon Web Services (AWS).
Innovative Dreams jest przedstawiane jako pierwsze studio, które wdraża na dużą skalę Realtime Hybrid Filmmaking — podejście łączące capture performance, produkcję wirtualną i generatywną AI (w tym Luma Agents) na wszystkich etapach produkcji: koncept, prewizualizacja, zdjęcia i postprodukcja.
| Aspekt | Szczegóły |
|---|---|
| Prezes | Jon Erwin (założyciel Wonder Project) |
| CTO / Luma | Amit Jain (prezes Luma AI) |
| Infrastruktura | chmura AWS + AI do R&D i narzędzi produkcji wirtualnej |
| Technologia | Luma Agents + Realtime Hybrid Filmmaking |
| Lokalizacja | MBS Media Campus, Manhattan Beach, Kalifornia |
| Pierwszy projekt | ”The Old Stories: Moses” (3 odcinki) z Benem Kingsleyem i O-T Fagbenle, dla Prime Video |
Podejście “Realtime Hybrid Filmmaking” eliminuje tradycyjne opóźnienia między zdjęciami, renderingiem i montażem. Aktorzy mogą reagować na cyfrowe środowiska w czasie rzeczywistym, co skraca dystans między pomysłem kreatywnym a finalnym pikselem, zachowując jednocześnie ludzką grę aktorską. Innovative Dreams udostępnia też swoje narzędzia innym hollywoodzkim studiom.
🔗 Ogłoszenie Luma 🔗 Tweet @LumaLabsAI
MiniMax M2.7 × NousResearch — MaxHermes, Hermes Agent bez konfiguracji
16 kwietnia — MiniMax ogłasza pogłębione partnerstwo z NousResearch, aby zintegrować model M2.7 w harnessie Hermes Agent. Ogłoszenie wprowadza MaxHermes — zarządzaną wersję Hermes Agent w chmurze, dostępną bezpośrednio z poziomu @MiniMaxAgent, bez konfiguracji w terminalu ani instalacji lokalnej.
Współewolucja M2.7 × Hermes Agent celuje w agentów wyższej klasy: pętla samodoskonalenia (self-improving loop) Hermes czerpie maksimum z modelu M2.7 w zadaniach agentowych. Użytkownicy uruchamiający Hermes lokalnie mogą także połączyć swojego agenta z MaxHermes, aby korzystać z zarządzanej infrastruktury chmurowej.
Gemini Skills w Chrome — twoje prompty jednym kliknięciem
14 kwietnia — Google Chrome integruje nową funkcję o nazwie “Skills” dla Gemini w przeglądarce. Teraz możesz zapisywać swoje najbardziej przydatne prompty i uruchamiać je ponownie jednym kliknięciem, bez przepisywania. Dostępna jest również biblioteka gotowych promptów, aby szybko zacząć.
Funkcja została ogłoszona 14 kwietnia i potwierdzona jako dostępna 15 kwietnia 2026, a następnie ujęta w tygodniowym podsumowaniu @GoogleAI z 17 kwietnia.
🔗 Tweet @googlechrome (14 kwi.) 🔗 Tweet @googlechrome (15 kwi.)
Gemini API — przedpłata (Prepay Billing) w Google AI Studio
15 kwietnia — Google AI Studio wprowadza “Prepay Billing” dla API Gemini. Deweloperzy mogą teraz kupować kredyty z góry i zużywać je stopniowo, eliminując niespodzianki związane z fakturą na koniec miesiąca.
Automatyczne doładowanie jest dostępne, gdy saldo jest niskie. Funkcja jest zgodna z Spend Caps (uruchomionymi wcześniej) oraz Usage Tiers. Jest dostępna w Stanach Zjednoczonych dla nowych kont rozliczeniowych Google Cloud, a globalne wdrożenie nastąpi w kolejnych tygodniach. Ustanowione konta z wysokimi poziomami użycia będą mogły przejść na postpaid.
Kimi Prefill-as-a-Service — inferencja cross-datacenter
18 kwietnia — Moonshot AI (Kimi) publikuje techniczny postęp w infrastrukturze inferencji: Prefill-as-a-Service (PraaS). Architektura rozszerza desagregację Prefill/Decode (prefill/decode disaggregation) poza pojedynczy klaster, w stronę architektury cross-datacenter ze zróżnicowanym sprzętem.
Ogłoszone wyniki: 1,54× dodatkowego throughputu oraz -64% na P90 TTFT (czas do pierwszego tokenu). Kluczową technologią jest hybrydowy model Kimi Linear, który redukuje koszt transferu pamięci podręcznej KV (key-value cache) między centrami danych. To nie jest premiera dla szerokiej publiczności, lecz publikacja badawcza z zakresu rozproszonej infrastruktury inferencji, mająca bezpośredni wpływ na obniżenie kosztu na token dla Kimi.
🔗 Tweet @Kimi_Moonshot 🔗 Papier arXiv
Claude Code v2.1.114 i Runway Seedance 2.0 API
18 kwietnia — Claude Code v2.1.114 naprawia błąd powodujący awarię, gdy członek zespołu agentów prosił o dostęp do narzędzia przez okno dialogowe uprawnień.
16 kwietnia — Runway udostępnia Seedance 2.0 przez API Runway dla deweloperów. Po premierze webowej (9 kwietnia), renderingu 1080p (16 kwietnia) i aplikacji iOS (17 kwietnia), dostęp przez API dopełnia wielokanałowe wdrożenie modelu. Dokumentacja jest dostępna pod dev.runwayml.com.
🔗 CHANGELOG Claude Code 🔗 Tweet @runwayml — Seedance API
Co to oznacza
Jednoczesne uruchomienie API STT i TTS od Grok to najbardziej agresywny ruch cenowy tygodnia. Obniżając ceny 2 do 10 razy względem ElevenLabs, AssemblyAI i OpenAI TTS, xAI wyraźnie sygnalizuje, że audio AI staje się towarem — co przyspieszy adopcję wśród niezależnych deweloperów i startupów, ale ścisnie marże uznanych graczy. Połączenie jednego z najniższych na rynku wskaźników błędu rozpoznawania, okazyjnych cen i ekspresyjnych znaczników sprawia, że te APIs są natychmiast gotowe do użycia produkcyjnego.
Claude for Word i Gemini Skills w Chrome reprezentują dwie różne strategie: Anthropic integruje swój model z istniejącymi narzędziami produktywności biurowej, gdzie jego użytkownicy już spędzają dni; Google z kolei wzmacnia swoją przeglądarkę, aby uczynić Gemini nieodzownym na co dzień. Oba podejścia próbują zmniejszyć tarcie w dostępie do modelu.
Luma × Wonder Project × AWS ilustruje pojawienie się nowego modelu hollywoodzkiego studia: generatywna AI zintegrowana na każdym etapie produkcji, infrastruktura chmurowa AWS i ambicja “lokalizowania” w Los Angeles produkcji, które wcześniej przenoszono poza miasto. Ogłoszenie ma znaczenie zarówno symboliczne, jak i techniczne — potwierdza Realtime Hybrid Filmmaking jako pipeline, który można uprzemysłowić, a nie tylko jako koncepcję.
Źródła
- Ogłoszenie xAI — Grok STT i TTS APIs
- Tweet @xai — Grok STT i TTS
- Tweet @claudeai — Claude for Word
- claude.com/claude-for-word
- Ogłoszenie Luma AI — Innovative Dreams
- Tweet @LumaLabsAI — Innovative Dreams
- Tweet @MiniMax_AI — M2.7 × NousResearch
- Tweet @googlechrome — Gemini Skills (14 kwi.)
- Tweet @googlechrome — Gemini Skills (15 kwi.)
- Tweet @GoogleAIStudio — Prepay Billing
- Tweet @Kimi_Moonshot — PraaS
- Papier arXiv — Kimi PraaS
- CHANGELOG Claude Code — v2.1.114
- Tweet @runwayml — Seedance 2.0 API
Ten dokument został przetłumaczony z wersji fr na język pl przy użyciu modelu gpt-5.4-mini. Aby uzyskać więcej informacji o procesie tłumaczenia, zobacz https://github.com/jls42/ai-powered-markdown-translator