Căutare

Grok STT și TTS APIs la prețuri de dumping, Claude for Word, Midjourney V8.1

Grok STT și TTS APIs la prețuri de dumping, Claude for Word, Midjourney V8.1

Pe 18 aprilie, xAI lansează două APIs audio — recunoaștere vocală (Speech to Text) și sinteză vocală (Text to Speech) — cu tarife care subcotează toți concurenții consacrați. Anthropic face Claude accesibil direct în Microsoft Word pentru abonații săi Pro, Max, Team și Enterprise. Midjourney lansează V8.1 cu randare 2K nativă, de trei ori mai rapidă și de trei ori mai ieftină decât V8. În paralel: Luma și Wonder Project deschid studioul Innovative Dreams susținut de AWS, MiniMax se asociază cu NousResearch pentru MaxHermes, Kimi publică o arhitectură de inferență cross-datacenter, iar Google îmbogățește Chrome cu Gemini Skills.


Grok STT și TTS — cele mai ieftine APIs audio de pe piață

17 aprilie — xAI lansează simultan două APIs audio standalone: o API de recunoaștere vocală (Speech to Text, STT) și o API de sinteză vocală (Text to Speech, TTS). Poziționarea tarifară este directă: cele două APIs afișează cele mai mici prețuri din segmentul lor respectiv.

API STT (recunoaștere vocală)

API-ul STT de la Grok oferă două moduri: batch REST și streaming WebSocket. Tarifele sunt de $0,10/oră (batch) și $0,20/oră (streaming), față de $0,22 și $0,39 la ElevenLabs, $0,21 și $0,45 la AssemblyAI, $0,31 și $0,55 la Deepgram.

ConcurentBatch (REST)Streaming (WebSocket)
Grok$0,10/h$0,20/h
ElevenLabs$0,22/h$0,39/h
AssemblyAI$0,21/h$0,45/h
Deepgram$0,31/h$0,55/h

La capitolul calitate, rata globală de eroare a cuvintelor (Word Error Rate) pentru Grok STT este de 6,9%, față de 9,0% pentru ElevenLabs, 11,0% pentru Deepgram și 12,9% pentru AssemblyAI. Grok STT acoperă peste 25 de limbi cu timestamp-uri la nivel de cuvânt, diarizare multi-speaker (speaker diarization), suport multicanal și normalizare inversă a textului (convertirea numerelor și datelor din vorbire).

API TTS (sinteză vocală)

API-ul TTS de la Grok este tarifat la $4,20 per milion de caractere, în timp ce OpenAI facturează $30, InWorld $40, Cartesia $46,70 și ElevenLabs $50. API-ul suportă REST și streaming WebSocket. Introduce etichete expresive: [laugh], [sigh], [whisper], <emphasis>, <slow>, <pause> — pentru a controla tonul și ritmul sintezei.

ConcurentPreț / milion de caractere
Grok$4,20
OpenAI$30,00
InWorld$40,00
Cartesia$46,70
ElevenLabs$50,00

xAI anunță lansarea APIs de speech to text și text to speech pentru Grok. Grok STT are cea mai mică rată de eroare a cuvintelor și cel mai mic preț din lume. Grok TTS are cea mai expresivă voce din lume și cel mai mic preț.

🇷🇴 xAI anunță lansarea APIs de recunoaștere vocală și de sinteză vocală Grok. Grok STT are cea mai mică rată de eroare a cuvintelor și cel mai mic preț din lume. Grok TTS are cea mai expresivă voce din lume și cel mai mic preț din lume.@xai pe X

🔗 Anunț xAI 🔗 Tweet @xai


Claude for Word — extensia Microsoft în beta

17 aprilie — Anthropic lansează Claude for Word în versiune beta pentru abonații Pro, Max, Team și Enterprise. Extensia se integrează direct în interfața Microsoft Word — fără fereastră separată — și funcționează la nivel de document.

FuncționalitateDescriere
Tracked changes nativeToate modificările făcute de Claude apar ca revizuiri Word acceptabile/respingibile
Gestionarea comentariilorClaude citește comentariile, editează textul ancorat și răspunde în fir
Păstrarea formatăriiMoștenește stilurile de titluri, numerotările și termenii definiți
Cross-contextPartajează contextul cu add-ins Excel și PowerPoint într-o singură conversație
Securitate enterpriseConectare prin cont Claude sau furnizor cloud existent

Formatele suportate sunt .docx și .docm. Extensia se instalează prin Microsoft Marketplace sub identificatorul WA200010453.

🔗 claude.com/claude-for-word 🔗 Tweet @claudeai


Midjourney V8.1 — randare 2K nativă, 3× mai rapidă

14 aprilie — Midjourney a pus online versiunea V8.1 a generatorului său de imagini. Această actualizare aduce randare 2K HD nativă cu o viteză de generare de trei ori mai mare decât V8, pentru un cost de trei ori mai mic.

V8.1 reprezintă o rafinare semnificativă a motorului V8: rezoluția trece direct la 2K fără upscaling ulterior, ceea ce îmbunătățește fidelitatea detaliilor fine și reduce artefactele obișnuite ale etapelor de mărire. Combinația viteză/preț/rezoluție poziționează V8.1 ca cea mai accesibilă versiune din gama V8.


Luma × Wonder Project — studioul Innovative Dreams, susținut de AWS

16 aprilie — Luma AI și Wonder Project (studio de producție faith & values, partener Prime Video) anunță împreună lansarea Innovative Dreams — o nouă companie de producție cinematografică, laborator de R&D și companie de VFX, susținută și finanțată de Amazon Web Services (AWS).

Innovative Dreams este prezentat ca primul studio care implementează la scară largă Realtime Hybrid Filmmaking — o abordare care îmbină captarea performanței, producția virtuală și IA generativă (în special Luma Agents) în toate etapele producției: concept, pre-visualizare, filmare și post-producție.

AspectDetaliu
CEOJon Erwin (fondator Wonder Project)
CTO / LumaAmit Jain (CEO Luma AI)
InfrastructurăAWS cloud + IA pentru R&D și instrumente de producție virtuală
TehnologieLuma Agents + Realtime Hybrid Filmmaking
SiteMBS Media Campus, Manhattan Beach, California
Primul proiect”The Old Stories: Moses” (3 episoade) cu Ben Kingsley și O-T Fagbenle, pentru Prime Video

Abordarea “Realtime Hybrid Filmmaking” elimină întârzierile tradiționale dintre filmare, randare și montaj. Actorii pot reacționa la mediile digitale în timp real, ceea ce scurtează distanța dintre ideea creativă și pixelul final, păstrând în același timp performanța umană. Innovative Dreams oferă, de asemenea, instrumentele sale altor studiouri Hollywood.

🔗 Anunț Luma 🔗 Tweet @LumaLabsAI


MiniMax M2.7 × NousResearch — MaxHermes, Hermes Agent fără configurare

16 aprilie — MiniMax anunță un parteneriat aprofundat cu NousResearch pentru a integra modelul M2.7 în harness-ul Hermes Agent. Anunțul introduce MaxHermes — o versiune cloud administrată de Hermes Agent accesibilă direct din @MiniMaxAgent, fără configurare în terminal și fără instalare locală.

Co-evoluția M2.7 × Hermes Agent vizează agenți de clasă superioară: bucla de auto-îmbunătățire (self-improving loop) a Hermes extrage maximum din modelul M2.7 pentru sarcinile agentice. Utilizatorii care rulează Hermes local pot, de asemenea, să își conecteze agentul la MaxHermes pentru a beneficia de infrastructura cloud administrată.

🔗 Tweet @MiniMax_AI


Gemini Skills în Chrome — prompturile voastre într-un clic

14 aprilie — Google Chrome integrează o nouă funcționalitate numită “Skills” pentru Gemini în browser. Acum puteți salva prompturile cele mai utile și le puteți relansa cu un singur clic, fără să le reintroduceți. Este disponibilă și o bibliotecă de prompturi predefinite pentru a porni rapid.

Funcționalitatea a fost anunțată pe 14 aprilie și confirmată ca disponibilă pe 15 aprilie 2026, apoi reluată în rezumatul săptămânal @GoogleAI din 17 aprilie.

🔗 Tweet @googlechrome (14 apr.) 🔗 Tweet @googlechrome (15 apr.)


Gemini API — plată în avans (Prepay Billing) în Google AI Studio

15 aprilie — Google AI Studio introduce “Prepay Billing” pentru API-ul Gemini. Dezvoltatorii pot acum să cumpere credite în avans și să le consume treptat, eliminând surprizele de facturare de la finalul lunii.

Reîncărcarea automată este disponibilă când soldul este scăzut. Funcționalitatea este compatibilă cu Spend Caps (lansate anterior) și Usage Tiers. Este disponibilă în Statele Unite pentru noile conturi de facturare Google Cloud, cu o implementare globală în următoarele săptămâni. Conturile consacrate cu niveluri ridicate de utilizare vor putea trece la postpaid.

🔗 Tweet @GoogleAIStudio


Kimi Prefill-as-a-Service — inferența cross-datacenter

18 aprilie — Moonshot AI (Kimi) publică un progres tehnic în infrastructura de inferență: Prefill-as-a-Service (PraaS). Arhitectura împinge dezagregarea Prefill/Decode (prefill/decode disaggregation) dincolo de un singur cluster, către o arhitectură cross-datacenter cu hardware eterogen.

Rezultatele anunțate: 1,54× debit (throughput) suplimentar și -64% la P90 TTFT (timpul până la primul token). Tehnologia-cheie este modelul hibrid Kimi Linear, care reduce costul de transfer al cache-ului KV (key-value cache) între datacentere. Nu este o lansare pentru publicul larg, ci o publicație de cercetare în infrastructură de inferență distribuită, cu impact direct asupra reducerii costului per token pentru Kimi.

🔗 Tweet @Kimi_Moonshot 🔗 Lucrare arXiv


Claude Code v2.1.114 și Runway Seedance 2.0 API

18 aprilie — Claude Code v2.1.114 corectează un crash care apărea atunci când un membru al unei echipe de agenți solicita accesul la un tool prin caseta de dialog a permisiunilor.

16 aprilie — Runway face Seedance 2.0 accesibil prin API-ul Runway pentru dezvoltatori. După lansarea web (9 aprilie), randarea 1080p (16 aprilie) și aplicația iOS (17 aprilie), accesul API completează implementarea multi-canal a modelului. Documentația este disponibilă la dev.runwayml.com.

🔗 CHANGELOG Claude Code 🔗 Tweet @runwayml — Seedance API


Ce înseamnă asta

Lansarea simultană a APIs STT și TTS de la Grok este mișcarea tarifară cea mai agresivă a săptămânii. Prin tăierea prețurilor de 2 până la 10 ori față de ElevenLabs, AssemblyAI și OpenAI TTS, xAI semnalează clar că audio IA devine o marfă — ceea ce va accelera adoptarea de către dezvoltatorii independenți și startup-uri, dar va comprima marjele actorilor consacrați. Combinația dintre una dintre cele mai mici rate de eroare de recunoaștere de pe piață, prețuri de dumping și etichete expresive face aceste APIs imediat utilizabile în producție.

Claude for Word și Gemini Skills în Chrome traduc două strategii diferite: Anthropic integrează modelul său în instrumentele existente de productivitate de birou, acolo unde utilizatorii săi își petrec deja zilele; Google, la rândul său, își îmbogățește browserul pentru a face Gemini indispensabil în viața de zi cu zi. Ambele abordări caută să reducă fricțiunea de acces la model.

Luma × Wonder Project × AWS ilustrează apariția unui nou model de studio hollywoodian: IA generativă integrată în fiecare etapă de producție, infrastructură cloud AWS și ambiția de a “localiza” în Los Angeles producțiile care plecau în relocare. Anunțul este simbolic la fel de mult ca tehnic — validează Realtime Hybrid Filmmaking ca un pipeline industrializabil, nu doar ca un concept.


Surse

Acest document a fost tradus din versiunea fr în limba ro folosind modelul gpt-5.4-mini. Pentru mai multe informații despre procesul de traducere, consultați https://gitlab.com/jls42/ai-powered-markdown-translator