Grok STT și TTS APIs la preț de chilipir, Claude pentru Word, Midjourney V8.1

Pe 18 aprilie, xAI lansează două APIs audio — recunoaștere vocală (Speech to Text) și sinteză vocală (Text to Speech) — cu tarife care subcotează toți concurenții consacrați. Anthropic face Claude accesibil direct în Microsoft Word pentru abonații săi Pro, Max, Team și Enterprise. Midjourney lansează V8.1 cu randare 2K nativă, de trei ori mai rapidă și de trei ori mai ieftină decât V8. În paralel: Luma și Wonder Project deschid studioul Innovative Dreams susținut de AWS, MiniMax se asociază cu NousResearch pentru MaxHermes, Kimi publică o arhitectură de inferență cross-datacenter, iar Google îmbogățește Chrome cu Gemini Skills.

Grok STT și TTS — cele mai ieftine APIs audio de pe piață

17 aprilie — xAI lansează simultan două APIs audio standalone: o API de recunoaștere vocală (Speech to Text, STT) și o API de sinteză vocală (Text to Speech, TTS). Poziționarea tarifară este directă: cele două APIs afișează cele mai mici prețuri din segmentele lor respective.

API STT (recunoaștere vocală)

API-ul STT al Grok oferă două moduri: batch REST și streaming WebSocket. Tarifele sunt de $0,10/oră (batch) și $0,20/oră (streaming), față de $0,22 și $0,39 la ElevenLabs, $0,21 și $0,45 la AssemblyAI, $0,31 și $0,55 la Deepgram.

Concurent	Batch (REST)	Streaming (WebSocket)
Grok	$0,10/h	$0,20/h
ElevenLabs	$0,22/h	$0,39/h
AssemblyAI	$0,21/h	$0,45/h
Deepgram	$0,31/h	$0,55/h

La capitolul calitate, rata globală de eroare a cuvintelor (Word Error Rate) a Grok STT este de 6,9%, față de 9,0% pentru ElevenLabs, 11,0% pentru Deepgram și 12,9% pentru AssemblyAI. Grok STT acoperă 25+ limbi cu timestamps la nivel de cuvânt, diarizare multi-speaker (speaker diarization), suport multicanal și normalizare inversă a textului (convertirea cifrelor și a datelor din vorbire).

API TTS (sinteză vocală)

API-ul TTS al Grok este tarifat la $4,20 per milion de caractere, în timp ce OpenAI facturează $30, InWorld $40, Cartesia $46,70 și ElevenLabs $50. API-ul suportă REST și streaming WebSocket. El introduce etichete expressive: [laugh], [sigh], [whisper], <emphasis>, <slow>, <pause> — pentru controlul tonului și ritmului sintezei.

Concurent	Preț / milion de caractere
Grok	$4,20
OpenAI	$30,00
InWorld	$40,00
Cartesia	$46,70
ElevenLabs	$50,00

xAI announces the launch of Grok speech to text and text to speech APIs. Grok STT has the world’s lowest word error rate and price. Grok TTS has the world’s most expressive voice and lowest price.

🇷🇴 xAI anunță lansarea APIs de recunoaștere vocală și de sinteză vocală Grok. Grok STT afișează cea mai mică rată de eroare a cuvintelor și cel mai mic preț din lume. Grok TTS oferă cea mai expresivă voce și cel mai mic preț din lume. — @xai pe X

🔗 Anunț xAI 🔗 Tweet @xai

Claude for Word — extensia Microsoft în beta

17 aprilie — Anthropic lansează Claude for Word în versiune beta pentru abonații Pro, Max, Team și Enterprise. Extensia se integrează direct în interfața Microsoft Word — fără fereastră separată — și funcționează la nivel de document.

Funcționalitate	Descriere
Tracked changes native	Toate modificările făcute de Claude apar ca revizii Word ce pot fi acceptate/respinse
Gestionarea comentariilor	Claude citește comentariile, editează textul ancorat și răspunde în fir
Păstrarea formatării	Moștenește stilurile titlurilor, numerotările și termenii definiți
Cross-context	Partajează contextul cu add-in-urile Excel și PowerPoint într-o singură conversație
Securitate enterprise	Conectare prin cont Claude sau furnizor cloud existent

Formatele suportate sunt .docx și .docm. Extensia se instalează prin Microsoft Marketplace sub identificatorul WA200010453.

🔗 claude.com/claude-for-word 🔗 Tweet @claudeai

Midjourney V8.1 — randare 2K nativă, de 3× mai rapidă

14 aprilie — Midjourney a publicat online versiunea V8.1 a generatorului său de imagini. Această actualizare aduce randarea 2K HD nativă cu o viteză de generare de trei ori mai mare decât V8, pentru un cost de trei ori mai mic.

V8.1 reprezintă o rafinare semnificativă a motorului V8: rezoluția trece direct la 2K fără upscaling ulterior, ceea ce îmbunătățește fidelitatea detaliilor fine și reduce artefactele obișnuite ale etapelor de mărire. Combinația viteză/preț/rezoluție poziționează V8.1 ca cea mai accesibilă versiune din gama V8.

Luma × Wonder Project — studioul Innovative Dreams, susținut de AWS

16 aprilie — Luma AI și Wonder Project (studio de producție faith & values, partener Prime Video) anunță împreună lansarea Innovative Dreams — o nouă companie de producție cinematografică, laborator de R&D și firmă de VFX, susținută și finanțată de Amazon Web Services (AWS).

Innovative Dreams este prezentat ca primul studio care implementează la scară largă Realtime Hybrid Filmmaking — o abordare care combină capture de performanță, producție virtuală și IA generativă (în special Luma Agents) în toate etapele producției: concept, pre-vizualizare, filmare și post-producție.

Aspect	Detaliu
CEO	Jon Erwin (fondator Wonder Project)
CTO / Luma	Amit Jain (CEO Luma AI)
Infrastructură	AWS cloud + IA pentru R&D și instrumente de producție virtuală
Tehnologie	Luma Agents + Realtime Hybrid Filmmaking
Site	MBS Media Campus, Manhattan Beach, California
Primul proiect	”The Old Stories: Moses” (3 episoade) cu Ben Kingsley și O-T Fagbenle, pentru Prime Video

Abordarea “Realtime Hybrid Filmmaking” elimină întârzierile tradiționale dintre filmare, randare și montaj. Actorii pot reacționa în timp real la mediile digitale, ceea ce scurtează distanța dintre ideea creativă și pixelul final, păstrând în același timp performanța umană. Innovative Dreams își oferă, de asemenea, instrumentele și altor studiouri de la Hollywood.

🔗 Anunț Luma 🔗 Tweet @LumaLabsAI

MiniMax M2.7 × NousResearch — MaxHermes, Hermes Agent fără configurare

16 aprilie — MiniMax anunță un parteneriat aprofundat cu NousResearch pentru integrarea modelului M2.7 în harness-ul Hermes Agent. Anunțul introduce MaxHermes — o versiune cloud gestionată a Hermes Agent accesibilă direct din @MiniMaxAgent, fără configurare în terminal și fără instalare locală.

Co-evoluția M2.7 × Hermes Agent vizează agenți de clasă superioară: bucla de auto-îmbunătățire (self-improving loop) a Hermes scoate ce e mai bun din modelul M2.7 pentru sarcinile agentice. Utilizatorii care rulează Hermes local pot, de asemenea, să își conecteze agentul la MaxHermes pentru a beneficia de infrastructura cloud gestionată.

🔗 Tweet @MiniMax_AI

Gemini Skills în Chrome — prompturile voastre într-un clic

14 aprilie — Google Chrome integrează o nouă funcționalitate numită “Skills” pentru Gemini în browser. Acum puteți salva prompturile cele mai utile și le puteți relansa dintr-un singur clic, fără să le reintroduceți. O bibliotecă de prompturi predefinite este, de asemenea, disponibilă pentru a porni rapid.

Funcționalitatea a fost anunțată pe 14 aprilie și confirmată disponibilă pe 15 aprilie 2026, apoi reluată în rezumatul săptămânal @GoogleAI din 17 aprilie.

🔗 Tweet @googlechrome (14 apr.) 🔗 Tweet @googlechrome (15 apr.)

Gemini API — preplată (Prepay Billing) în Google AI Studio

15 aprilie — Google AI Studio introduce “Prepay Billing” pentru API-ul Gemini. Dezvoltatorii pot acum cumpăra credite în avans și le pot consuma pe măsură ce avansează, eliminând surprizele de facturare de la sfârșitul lunii.

Reîncărcarea automată este disponibilă când soldul este redus. Funcționalitatea este compatibilă cu Spend Caps (lansate anterior) și Usage Tiers. Ea este disponibilă în Statele Unite pentru noile conturi de facturare Google Cloud, cu o lansare globală în săptămânile următoare. Conturile deja stabilite cu niveluri ridicate de utilizare vor putea trece la postpaid.

🔗 Tweet @GoogleAIStudio

Kimi Prefill-as-a-Service — inferența cross-datacenter

18 aprilie — Moonshot AI (Kimi) publică un progres tehnic în infrastructura de inferență: Prefill-as-a-Service (PraaS). Arhitectura împinge dezagregarea Prefill/Decode (prefill/decode disaggregation) dincolo de un singur cluster, către o arhitectură cross-datacenter cu hardware eterogen.

Rezultatele anunțate: 1,54× debit (throughput) suplimentar și -64% la P90 TTFT (timpul până la primul token). Tehnologia-cheie este modelul hibrid Kimi Linear, care reduce costul de transfer al cache-ului KV (key-value cache) între datacentere. Nu este o lansare pentru publicul larg, ci o publicație de cercetare în infrastructura de inferență distribuită, cu impact direct asupra reducerii costului per token pentru Kimi.

🔗 Tweet @Kimi_Moonshot 🔗 Lucrare arXiv

Claude Code v2.1.114 și Runway Seedance 2.0 API

18 aprilie — Claude Code v2.1.114 corectează un crash care apărea atunci când un membru al unei echipe de agenți solicita accesul la un instrument prin dialogul de permisiuni.

16 aprilie — Runway face Seedance 2.0 accesibil prin API-ul Runway pentru dezvoltatori. După lansarea web (9 aprilie), randarea 1080p (16 aprilie) și aplicația iOS (17 aprilie), accesul API completează implementarea multi-canal a modelului. Documentația este disponibilă la dev.runwayml.com.

🔗 CHANGELOG Claude Code 🔗 Tweet @runwayml — Seedance API

Ce înseamnă asta

Lansarea simultană a APIs STT și TTS de la Grok este mișcarea tarifară cea mai agresivă a săptămânii. Prin tăierea prețurilor de 2 până la 10 ori față de ElevenLabs, AssemblyAI și OpenAI TTS, xAI transmite clar că audio IA devine o marfă de consum — ceea ce va accelera adoptarea pentru dezvoltatorii independenți și startup-uri, dar va comprima marjele jucătorilor consacrați. Combinația dintre una dintre cele mai mici rate de eroare de recunoaștere de pe piață, prețurile de dumping și etichetele expressive face aceste APIs imediat utilizabile în producție.

Claude for Word și Gemini Skills în Chrome ilustrează două strategii diferite: Anthropic își integrează modelul în instrumentele de productivitate de birou existente, acolo unde utilizatorii săi își petrec deja zilele; Google, la rândul său, își îmbogățește browserul pentru a face Gemini indispensabil în viața de zi cu zi. Cele două abordări urmăresc să reducă fricțiunea de acces la model.

Luma × Wonder Project × AWS ilustrează apariția unui nou model de studio hollywoodian: IA generativă integrată în fiecare etapă de producție, infrastructură cloud AWS și ambiția de a “localiza” la Los Angeles producțiile care plecau în relocare. Anunțul este simbolic la fel de mult ca tehnic — validează Realtime Hybrid Filmmaking ca un pipeline industrializabil, nu doar ca un concept.

Surse

Acest document a fost tradus din versiunea fr în limba ro folosind modelul gpt-5.4-mini. Pentru mai multe informații despre procesul de traducere, consultați https://github.com/jls42/ai-powered-markdown-translator