بحث

Grok STT وTTS APIs بأسعار منخفضة، Claude for Word، Midjourney V8.1

Grok STT وTTS APIs بأسعار منخفضة، Claude for Word، Midjourney V8.1

في 18 أبريل، تطلق xAI واجهتي برمجة تطبيقات صوتيتين — التعرف على الكلام (Speech to Text) والتوليد الصوتي (Text to Speech) — بأسعار تقوض جميع المنافسين الراسخين. تتيح Anthropic الوصول إلى Claude مباشرة داخل Microsoft Word لمشتركي Pro وMax وTeam وEnterprise. تنشر Midjourney الإصدار V8.1 بعرض 2K أصلي، وبسرعة أكبر بثلاث مرات وتكلفة أقل بثلاث مرات من V8. وبالتوازي: تفتتح Luma وWonder Project استوديو Innovative Dreams المدعوم من AWS، وتتعاون MiniMax مع NousResearch من أجل MaxHermes، وتنشر Kimi بنية استدلال cross-datacenter، وتثري Google Chrome بمهارات Gemini.


Grok STT وTTS — أرخص واجهات برمجة التطبيقات الصوتية في السوق

17 أبريل — تطلق xAI في الوقت نفسه واجهتي برمجة تطبيقات صوتيتين مستقلتين: واجهة للتعرف على الكلام (Speech to Text، STT) وواجهة للتوليد الصوتي (Text to Speech، TTS). التموضع التسعيري مباشر: تعرض الواجهتان أقل الأسعار في كل من قطاعيهما.

API STT (التعرف على الكلام)

توفر واجهة STT الخاصة بـ Grok وضعين: batch REST وstreaming WebSocket. الأسعار هي $0,10/الساعة (batch) و**$0,20/الساعة** (streaming)، مقابل $0,22 و$0,39 لدى ElevenLabs، و$0,21 و$0,45 لدى AssemblyAI، و$0,31 و$0,55 لدى Deepgram.

المنافسBatch (REST)Streaming (WebSocket)
Grok$0,10/h$0,20/h
ElevenLabs$0,22/h$0,39/h
AssemblyAI$0,21/h$0,45/h
Deepgram$0,31/h$0,55/h

على مستوى الجودة، يبلغ معدل خطأ الكلمات الإجمالي (Word Error Rate) لواجهة Grok STT 6,9%، مقابل 9,0% لدى ElevenLabs، و11,0% لدى Deepgram، و12,9% لدى AssemblyAI. تغطي Grok STT أكثر من 25 لغة مع طوابع زمنية على مستوى الكلمة، وتجزئة المتحدثين المتعددين (speaker diarization)، ودعم متعدد القنوات، والتطبيع العكسي للنص (تحويل الأرقام والتواريخ من الكلام).

API TTS (التوليد الصوتي)

تُسعَّر واجهة TTS الخاصة بـ Grok عند $4,20 لكل مليون حرف، بينما تفرض OpenAI مبلغ $30، وInWorld مبلغ $40، وCartesia مبلغ $46,70، وElevenLabs مبلغ $50. تدعم الواجهة REST وstreaming WebSocket. كما تقدم وسومًا تعبيرية: [laugh]، [sigh]، [whisper]، <emphasis>، <slow>، <pause> — للتحكم في نبرة التوليد وإيقاعه.

المنافسالسعر / مليون حرف
Grok$4,20
OpenAI$30,00
InWorld$40,00
Cartesia$46,70
ElevenLabs$50,00

xAI announces the launch of Grok speech to text and text to speech APIs. Grok STT has the world’s lowest word error rate and price. Grok TTS has the world’s most expressive voice and lowest price.

🇸🇦 تعلن xAI إطلاق واجهتي برمجة التطبيقات Grok للتعرف على الكلام والتوليد الصوتي. تعرض Grok STT أدنى معدل لخطأ الكلمات وأدنى سعر في العالم. وتقدم Grok TTS أكثر الأصوات تعبيرًا وأدنى سعر في العالم.@xai على X

🔗 إعلان xAI 🔗 تغريدة @xai


Claude for Word — الإضافة الخاصة بـ Microsoft في البيتا

17 أبريل — تطلق Anthropic Claude for Word في نسخة بيتا لمشتركي Pro وMax وTeam وEnterprise. تندمج الإضافة مباشرة في واجهة Microsoft Word — من دون نافذة منفصلة — وتعمل على مستوى المستند.

الميزةالوصف
Tracked changes الأصليةتظهر جميع تعديلات Claude كتنقيحات Word يمكن قبولها/رفضها
إدارة التعليقاتيقرأ Claude التعليقات، ويحرر النص المرتبط بها، ويرد داخل السلسلة
الحفاظ على التنسيقيرث أنماط العناوين والترقيم والمصطلحات المحددة
Cross-contextيشارك السياق مع إضافات Excel وPowerPoint ضمن المحادثة نفسها
أمان المؤسساتتسجيل الدخول عبر حساب Claude أو مزود سحابي موجود

الصيغ المدعومة هي .docx و.docm. تُثبَّت الإضافة عبر Microsoft Marketplace تحت المعرّف WA200010453.

🔗 claude.com/claude-for-word 🔗 تغريدة @claudeai


Midjourney V8.1 — عرض 2K أصلي، أسرع 3×

14 أبريل — أطلقت Midjourney الإصدار V8.1 من مولد الصور الخاص بها. يضيف هذا التحديث عرض 2K HD أصليًا مع سرعة توليد أعلى بثلاث مرات من V8، وبكلفة أقل بثلاث مرات.

تمثل V8.1 تنقيحًا مهمًا لمحرك V8: تنتقل الدقة مباشرة إلى 2K من دون upscaling لاحق، مما يحسن دقة التفاصيل الدقيقة ويقلل العيوب المعتادة لمراحل التكبير. ويضع مزيج السرعة/السعر/الدقة V8.1 كأكثر نسخة متاحة ضمن سلسلة V8.


Luma × Wonder Project — استوديو Innovative Dreams، بدعم من AWS

16 أبريل — تعلن Luma AI وWonder Project (استوديو إنتاج faith & values، وشريك Prime Video) معًا إطلاق Innovative Dreams — وهي شركة إنتاج سينمائي جديدة، ومختبر R&D، وشركة VFX، مدعومة وممولة من Amazon Web Services (AWS).

يُقدَّم Innovative Dreams باعتباره أول استوديو ينشر على نطاق واسع Realtime Hybrid Filmmaking — وهو نهج يمزج بين التقاط الأداء، والإنتاج الافتراضي، والذكاء الاصطناعي التوليدي (ولا سيما Luma Agents) في جميع مراحل الإنتاج: الفكرة، وما قبل التصور، والتصوير، وما بعد الإنتاج.

الجانبالتفاصيل
الرئيس التنفيذيJon Erwin (مؤسس Wonder Project)
CTO / LumaAmit Jain (الرئيس التنفيذي لـ Luma AI)
البنية التحتيةAWS cloud + ذكاء اصطناعي لأدوات R&D والإنتاج الافتراضي
التقنيةLuma Agents + Realtime Hybrid Filmmaking
الموقعMBS Media Campus, Manhattan Beach, California
أول مشروع”The Old Stories: Moses” (3 episodes) مع Ben Kingsley وO-T Fagbenle، لصالح Prime Video

يلغي نهج “Realtime Hybrid Filmmaking” التأخيرات التقليدية بين التصوير والعرض والمونتاج. ويمكن للممثلين التفاعل مع البيئات الرقمية في الوقت الحقيقي، مما يقصر المسافة بين الفكرة الإبداعية والبكسل النهائي مع الحفاظ على الأداء البشري. كما يقدّم Innovative Dreams أدواته إلى استوديوهات Hollywood الأخرى.

🔗 إعلان Luma 🔗 تغريدة @LumaLabsAI


MiniMax M2.7 × NousResearch — MaxHermes، Hermes Agent بلا إعداد

16 أبريل — تعلن MiniMax عن شراكة معمقة مع NousResearch لدمج النموذج M2.7 ضمن harness Hermes Agent. ويقدم الإعلان MaxHermes — وهي نسخة سحابية مُدارة من Hermes Agent يمكن الوصول إليها مباشرة من @MiniMaxAgent، من دون إعداد في الطرفية أو تثبيت محلي.

يستهدف التطور المشترك M2.7 × Hermes Agent الوكلاء من الفئة الأعلى: تستفيد حلقة التحسين الذاتي (self-improving loop) في Hermes من نموذج M2.7 على أفضل وجه للمهام الوكيلة. ويمكن للمستخدمين الذين يشغلون Hermes محليًا أيضًا ربط وكيلهم بـ MaxHermes للاستفادة من البنية التحتية السحابية المُدارة.

🔗 تغريدة @MiniMax_AI


Gemini Skills في Chrome — أوامرك بنقرة واحدة

14 أبريل — يدمج Google Chrome ميزة جديدة تسمى “Skills” لـ Gemini داخل المتصفح. يمكنك الآن حفظ أوامرك الأكثر فائدة وإعادة تشغيلها بنقرة واحدة من دون إعادة كتابتها. كما تتوفر مكتبة من الأوامر المسبقة الإعداد للانطلاق بسرعة.

أُعلن عن الميزة في 14 أبريل وتم تأكيد توفرها في 15 أبريل 2026، ثم أُدرجت مجددًا في الملخص الأسبوعي @GoogleAI بتاريخ 17 أبريل.

🔗 تغريدة @googlechrome (14 أبريل) 🔗 تغريدة @googlechrome (15 أبريل)


Gemini API — الدفع المسبق (Prepay Billing) في Google AI Studio

15 أبريل — يقدم Google AI Studio “Prepay Billing” لواجهة Gemini API. يمكن للمطورين الآن شراء أرصدة مسبقًا واستهلاكها تدريجيًا، مما يلغي مفاجآت الفوترة في نهاية الشهر.

يتوفر الشحن التلقائي عندما يكون الرصيد منخفضًا. الميزة متوافقة مع Spend Caps (المطلقة سابقًا) وUsage Tiers. وهي متاحة في الولايات المتحدة للحسابات الجديدة لفوترة Google Cloud، مع طرح عالمي خلال الأسابيع المقبلة. أما الحسابات القائمة ذات مستويات الاستخدام المرتفعة فستتمكن من الانتقال إلى postpaid.

🔗 تغريدة @GoogleAIStudio


Kimi Prefill-as-a-Service — الاستدلال عبر مراكز بيانات متعددة

18 أبريل — تنشر Moonshot AI (Kimi) تقدمًا تقنيًا في بنية الاستدلال: Prefill-as-a-Service (PraaS). تدفع البنية فصل Prefill/Decode (prefill/decode disaggregation) إلى ما بعد عنقود واحد، نحو بنية cross-datacenter مع عتاد غير متجانس.

النتائج المعلنة: 1,54× من throughput إضافي و**-64% على P90 TTFT** (الوقت حتى أول token). التقنية الأساسية هي النموذج الهجين Kimi Linear، الذي يقلل تكلفة نقل ذاكرة KV cache (key-value cache) بين مراكز البيانات. هذا ليس إطلاقًا جماهيريًا بل ورقة بحثية في بنية الاستدلال الموزعة، مع أثر مباشر على خفض التكلفة لكل token لدى Kimi.

🔗 تغريدة @Kimi_Moonshot 🔗 ورقة arXiv


Claude Code v2.1.114 وRunway Seedance 2.0 API

18 أبريل — يصلح Claude Code v2.1.114 تعطلًا كان يحدث عندما يطلب أحد أعضاء فريق وكلاء الوصول إلى أداة عبر مربع حوار الأذونات.

16 أبريل — تتيح Runway الوصول إلى Seedance 2.0 عبر API Runway للمطورين. بعد الإطلاق على الويب (9 أبريل)، وعرض 1080p (16 أبريل)، وتطبيق iOS (17 أبريل)، يكتمل طرح النموذج متعدد القنوات عبر وصول API. الوثائق متاحة على dev.runwayml.com.

🔗 CHANGELOG Claude Code 🔗 تغريدة @runwayml — Seedance API


ماذا يعني ذلك

يمثل الإطلاق المتزامن لواجهتي STT وTTS من Grok أكثر تحركات التسعير عدوانية هذا الأسبوع. ومن خلال خفض الأسعار بما يتراوح بين 2 و10 مرات مقارنةً بـ ElevenLabs وAssemblyAI وOpenAI TTS، تشير xAI بوضوح إلى أن الصوت بالذكاء الاصطناعي يتحول إلى سلعة — وهو ما سيسرع التبني لدى المطورين المستقلين والشركات الناشئة، لكنه سيضغط هوامش ربح اللاعبين الراسخين. إن الجمع بين معدل خطأ من بين الأدنى في السوق، وأسعار منخفضة جدًا، ووسوم تعبيرية يجعل هذه الواجهات قابلة للاستخدام في الإنتاج فورًا.

تترجم Claude for Word وGemini Skills في Chrome استراتيجيتين مختلفتين: تدمج Anthropic نموذجها داخل أدوات الإنتاجية المكتبية القائمة، حيث يقضي مستخدموها أيامهم بالفعل؛ أما Google فتعزز متصفحها لتجعل Gemini حاضرًا يوميًا ولا غنى عنه. يسعى النهجان إلى تقليل الاحتكاك في الوصول إلى النموذج.

توضح Luma × Wonder Project × AWS بروز نموذج جديد لاستوديو هوليوودي: ذكاء اصطناعي توليدي مدمج في كل مرحلة من مراحل الإنتاج، وبنية سحابية AWS، وطموح “توطين” الإنتاجات في لوس أنجلوس بدلًا من نقلها إلى الخارج. الإعلان رمزي بقدر ما هو تقني — فهو يثبت أن Realtime Hybrid Filmmaking أصبح خط إنتاج يمكن تصنيعه صناعيًا، لا مجرد مفهوم.


المصادر

تمت ترجمة هذا المستند من الإصدار fr إلى اللغة ar باستخدام النموذج gpt-5.4-mini. لمزيد من المعلومات حول عملية الترجمة، راجع https://github.com/jls42/ai-powered-markdown-translator