Grok STT और TTS APIs बेहद सस्ते, Word के लिए Claude, Midjourney V8.1

18 अप्रैल को, xAI दो ऑडियो APIs — वॉयस रिकग्निशन (Speech to Text) और वॉयस सिंथेसिस (Text to Speech) — लॉन्च करता है, ऐसी कीमतों के साथ जो सभी स्थापित प्रतिस्पर्धियों को पीछे छोड़ देती हैं। Anthropic अपने Pro, Max, Team और Enterprise ग्राहकों के लिए Claude को सीधे Microsoft Word में उपलब्ध कराता है। Midjourney V8.1 के साथ मूल 2K रेंडरिंग जारी करता है, जो V8 की तुलना में तीन गुना तेज़ और तीन गुना सस्ता है। साथ ही: Luma और Wonder Project AWS-समर्थित Innovative Dreams स्टूडियो खोलते हैं, MiniMax MaxHermes के लिए NousResearch के साथ साझेदारी करता है, Kimi cross-datacenter inference architecture प्रकाशित करता है, और Google Chrome को Gemini Skills से समृद्ध करता है।

Grok STT और TTS — बाज़ार की सबसे सस्ती ऑडियो APIs

17 अप्रैल — xAI एक साथ दो standalone ऑडियो APIs लॉन्च करता है: एक वॉयस रिकग्निशन API (Speech to Text, STT) और एक वॉयस सिंथेसिस API (Text to Speech, TTS)। मूल्य निर्धारण सीधा है: दोनों APIs अपने-अपने सेगमेंट में सबसे कम कीमतें दिखाती हैं।

API STT (वॉयस रिकग्निशन)

Grok की STT API दो मोड प्रदान करती है: batch REST और streaming WebSocket। कीमतें क्रमशः $0,10/घंटा (batch) और $0,20/घंटा (streaming) हैं, जबकि ElevenLabs पर $0,22 और $0,39, AssemblyAI पर $0,21 और $0,45, तथा Deepgram पर $0,31 और $0,55 हैं।

प्रतिस्पर्धी	Batch (REST)	Streaming (WebSocket)
Grok	$0,10/घंटा	$0,20/घंटा
ElevenLabs	$0,22/घंटा	$0,39/घंटा
AssemblyAI	$0,21/घंटा	$0,45/घंटा
Deepgram	$0,31/घंटा	$0,55/घंटा

गुणवत्ता के मामले में, Grok STT की समग्र शब्द त्रुटि दर (Word Error Rate) 6,9% है, जबकि ElevenLabs के लिए 9,0%, Deepgram के लिए 11,0% और AssemblyAI के लिए 12,9% है। Grok STT 25+ भाषाओं को शब्द-स्तरीय timestamps, बहु-बोलने वाले diarization (speaker diarization), मल्टीचैनल सपोर्ट और टेक्स्ट की inverse normalization (भाषण से संख्याओं और तिथियों का रूपांतरण) के साथ कवर करता है।

API TTS (वॉयस सिंथेसिस)

Grok की TTS API की कीमत $4,20 प्रति मिलियन अक्षर है, जबकि OpenAI $30, InWorld $40, Cartesia $46,70 और ElevenLabs $50 लेता है। API REST और streaming WebSocket को सपोर्ट करती है। यह expressive tags पेश करती है: [laugh], [sigh], [whisper], <emphasis>, <slow>, <pause> — ताकि सिंथेसिस के tone और rhythm को नियंत्रित किया जा सके।

प्रतिस्पर्धी	मूल्य / मिलियन अक्षर
Grok	$4,20
OpenAI	$30,00
InWorld	$40,00
Cartesia	$46,70
ElevenLabs	$50,00

xAI announces the launch of Grok speech to text and text to speech APIs. Grok STT has the world’s lowest word error rate and price. Grok TTS has the world’s most expressive voice and lowest price.

🇮🇳 xAI Grok speech to text और text to speech APIs के लॉन्च की घोषणा करता है। Grok STT में दुनिया की सबसे कम word error rate और सबसे कम कीमत है। Grok TTS में दुनिया की सबसे expressive voice और सबसे कम कीमत है। — @xai on X

🔗 xAI की घोषणा 🔗 @xai ट्वीट

Claude for Word — Microsoft extension बीटा में

17 अप्रैल — Anthropic Pro, Max, Team और Enterprise ग्राहकों के लिए Claude for Word को बीटा संस्करण में लॉन्च करता है। यह extension सीधे Microsoft Word के interface में एकीकृत होती है — बिना अलग window के — और document स्तर पर काम करती है।

सुविधा	विवरण
मूल tracked changes	Claude के सभी बदलाव स्वीकार/अस्वीकार योग्य Word revisions के रूप में दिखाई देते हैं
टिप्पणियों का प्रबंधन	Claude टिप्पणियाँ पढ़ता है, जुड़े हुए text को संपादित करता है, और thread में जवाब देता है
फ़ॉर्मेट सुरक्षा	शीर्षक styles, numbering और परिभाषित शब्दों को विरासत में लेता है
Cross-context	एक ही conversation में Excel और PowerPoint add-ins के साथ context साझा करता है
Enterprise security	Claude खाते या मौजूदा cloud provider के माध्यम से sign-in

समर्थित formats हैं .docx और .docm। यह extension Microsoft Marketplace में पहचानकर्ता WA200010453 के तहत install होती है।

🔗 claude.com/claude-for-word 🔗 @claudeai ट्वीट

Midjourney V8.1 — मूल 2K रेंडरिंग, 3× तेज़

14 अप्रैल — Midjourney ने अपने image generator का V8.1 संस्करण ऑनलाइन जारी किया। यह update मूल 2K HD रेंडरिंग लाता है, जिसकी generation speed V8 की तुलना में तीन गुना अधिक है, और लागत तीन गुना कम है।

V8.1, V8 engine का एक महत्वपूर्ण refinement है: resolution बिना post-upscaling के सीधे 2K पर चला जाता है, जिससे fine details की fidelity बेहतर होती है और enlargement steps की सामान्य artifacts कम होती हैं। speed/price/resolution का संयोजन V8.1 को V8 श्रृंखला का सबसे सुलभ संस्करण बनाता है।

Luma × Wonder Project — AWS-समर्थित Innovative Dreams स्टूडियो

16 अप्रैल — Luma AI और Wonder Project (faith & values production studio, Prime Video partner) संयुक्त रूप से Innovative Dreams के लॉन्च की घोषणा करते हैं — एक नई film production company, R&D laboratory और VFX enterprise, जिसे Amazon Web Services (AWS) का समर्थन और वित्तपोषण प्राप्त है।

Innovative Dreams को पहले ऐसे studio के रूप में प्रस्तुत किया गया है जो बड़े पैमाने पर Realtime Hybrid Filmmaking को अपनाता है — एक दृष्टिकोण जो performance capture, virtual production और generative IA (विशेष रूप से Luma Agents) को production के सभी चरणों में जोड़ता है: concept, pre-visualization, shooting और post-production।

पहलू	विवरण
CEO	Jon Erwin (Wonder Project के संस्थापक)
CTO / Luma	Amit Jain (Luma AI के CEO)
Infrastructure	AWS cloud + R&D और virtual production tools के लिए IA
Technology	Luma Agents + Realtime Hybrid Filmmaking
Site	MBS Media Campus, Manhattan Beach, California
पहला प्रोजेक्ट	”The Old Stories: Moses” (3 episodes) Ben Kingsley और O-T Fagbenle के साथ, Prime Video के लिए

“Realtime Hybrid Filmmaking” दृष्टिकोण shooting, rendering और editing के बीच पारंपरिक देरी को समाप्त करता है। actors वास्तविक समय में डिजिटल environments पर प्रतिक्रिया दे सकते हैं, जिससे रचनात्मक विचार और अंतिम pixel के बीच की दूरी कम होती है, जबकि मानवीय performance सुरक्षित रहती है। Innovative Dreams अपने tools अन्य Hollywood studios को भी प्रदान करता है।

🔗 Luma की घोषणा 🔗 @LumaLabsAI ट्वीट

MiniMax M2.7 × NousResearch — बिना configuration के MaxHermes, Hermes Agent

16 अप्रैल — MiniMax, मॉडल M2.7 को harness Hermes Agent में एकीकृत करने के लिए NousResearch के साथ एक गहरी साझेदारी की घोषणा करता है। यह घोषणा MaxHermes पेश करती है — Hermes Agent का एक managed cloud संस्करण, जो सीधे @MiniMaxAgent से उपलब्ध है, बिना terminal configuration या local installation के।

M2.7 × Hermes Agent का co-evolution उच्च-स्तरीय agents को लक्षित करता है: Hermes का self-improving loop (self-improving loop) agentic tasks के लिए M2.7 मॉडल का सर्वोत्तम उपयोग करता है। जो उपयोगकर्ता Hermes को local रूप से चलाते हैं, वे अपने agent को managed cloud infrastructure का लाभ लेने के लिए MaxHermes से भी जोड़ सकते हैं।

🔗 @MiniMax_AI ट्वीट

Chrome में Gemini Skills — आपके prompts एक क्लिक में

14 अप्रैल — Google Chrome ब्राउज़र में Gemini के लिए “Skills” नामक एक नई सुविधा एकीकृत करता है। अब आप अपने सबसे उपयोगी prompts को सहेज सकते हैं और उन्हें फिर से टाइप किए बिना सिर्फ एक क्लिक में दोबारा चला सकते हैं। जल्दी शुरू करने के लिए पूर्वनिर्धारित prompts की एक library भी उपलब्ध है।

इस सुविधा की घोषणा 14 अप्रैल को की गई थी और 15 अप्रैल 2026 को उपलब्ध होने की पुष्टि हुई, फिर 17 अप्रैल के साप्ताहिक @GoogleAI recap में इसे फिर से शामिल किया गया।

🔗 @googlechrome ट्वीट (14 अप्रैल) 🔗 @googlechrome ट्वीट (15 अप्रैल)

Gemini API — Google AI Studio में Prepay Billing

15 अप्रैल — Google AI Studio Gemini API के लिए “Prepay Billing” पेश करता है। डेवलपर अब पहले से credits खरीद सकते हैं और उन्हें आवश्यकतानुसार उपयोग कर सकते हैं, जिससे महीने के अंत में billing surprises समाप्त हो जाते हैं।

जब balance कम होता है, तब automatic reloading उपलब्ध है। यह सुविधा पहले लॉन्च किए गए Spend Caps और Usage Tiers के साथ संगत है। यह नए Google Cloud billing accounts के लिए संयुक्त राज्य अमेरिका में उपलब्ध है, और आने वाले हफ्तों में वैश्विक rollout होगा। उच्च usage levels वाले स्थापित accounts postpaid में स्विच कर सकते हैं।

🔗 @GoogleAIStudio ट्वीट

Kimi Prefill-as-a-Service — cross-datacenter inference

18 अप्रैल — Moonshot AI (Kimi) infrastructure inference में एक तकनीकी प्रगति प्रकाशित करता है: Prefill-as-a-Service (PraaS)। यह architecture Prefill/Decode (prefill/decode disaggregation) को एक ही cluster से आगे बढ़ाकर heterogeneous hardware के साथ cross-datacenter architecture तक ले जाता है।

घोषित परिणाम: अतिरिक्त 1,54× throughput और P90 TTFT में -64% (पहले token तक का समय)। प्रमुख तकनीक hybrid Kimi Linear मॉडल है, जो datacenters के बीच KV cache (key-value cache) transfer की लागत को कम करता है। यह सार्वजनिक लॉन्च नहीं बल्कि distributed inference infrastructure पर एक research publication है, जिसका Kimi के लिए प्रति token लागत कम करने पर सीधा प्रभाव पड़ता है।

🔗 @Kimi_Moonshot ट्वीट 🔗 Papier arXiv

Claude Code v2.1.114 और Runway Seedance 2.0 API

18 अप्रैल — Claude Code v2.1.114 एक crash को ठीक करता है जो तब होता था जब agents की टीम का कोई सदस्य permissions dialog के माध्यम से किसी tool तक पहुँच मांगता था।

16 अप्रैल — Runway डेवलपर्स के लिए Runway API के माध्यम से Seedance 2.0 उपलब्ध कराता है। web launch (9 अप्रैल), 1080p rendering (16 अप्रैल) और iOS application (17 अप्रैल) के बाद, API access model के multi-channel deployment को पूरा करती है। दस्तावेज़ dev.runwayml.com पर उपलब्ध है।

🔗 CHANGELOG Claude Code 🔗 @runwayml ट्वीट — Seedance API

इसका क्या मतलब है

Grok की STT और TTS APIs का एक साथ लॉन्च सप्ताह का सबसे आक्रामक मूल्य निर्धारण कदम है। ElevenLabs, AssemblyAI और OpenAI TTS की तुलना में कीमतों को 2 से 10 गुना तक नीचे लाकर, xAI स्पष्ट संकेत देता है कि IA audio एक commodity बन रहा है — जो स्वतंत्र डेवलपर्स और startups के लिए adoption को तेज़ करेगा, लेकिन स्थापित खिलाड़ियों के margins को संकुचित करेगा। बाज़ार में सबसे कम recognition error rate में से एक, कम कीमतों और expressive tags का संयोजन इन APIs को तुरंत production में उपयोगी बनाता है।

Claude for Word और Chrome में Gemini Skills दो अलग-अलग रणनीतियों को दर्शाते हैं: Anthropic अपने मॉडल को उन मौजूदा office productivity tools में एकीकृत करता है जहाँ उसके उपयोगकर्ता पहले से अपना दिन बिताते हैं; Google अपने browser को समृद्ध करता है ताकि Gemini दैनिक जीवन में अनिवार्य बन जाए। दोनों approaches model तक पहुँच की friction को कम करने की कोशिश करती हैं।

Luma × Wonder Project × AWS एक नए Hollywood studio model के उभरने को दर्शाता है: उत्पादन के हर चरण में एकीकृत generative IA, AWS cloud infrastructure, और Los Angeles में उन productions को “स्थानीय” बनाने की महत्वाकांक्षा जो पहले outsource होती थीं। यह घोषणा उतनी ही प्रतीकात्मक है जितनी तकनीकी — यह Realtime Hybrid Filmmaking को केवल एक concept नहीं, बल्कि एक industrializable pipeline के रूप में मान्य करती है।

स्रोत

यह दस्तावेज़ fr संस्करण से hi भाषा में gpt-5.4-mini मॉडल का उपयोग करके अनुवादित किया गया है। अनुवाद प्रक्रिया के बारे में अधिक जानकारी के लिए, https://gitlab.com/jls42/ai-powered-markdown-translator देखें