في 18 أبريل، تطلق xAI واجهتي برمجة تطبيقات صوتيتين — التعرف على الكلام (Speech to Text) والتوليد الصوتي (Text to Speech) — بأسعار تقوض جميع المنافسين الراسخين. تتيح Anthropic الوصول إلى Claude مباشرة داخل Microsoft Word لمشتركي Pro وMax وTeam وEnterprise. تنشر Midjourney الإصدار V8.1 بعرض 2K أصلي، وبسرعة أكبر بثلاث مرات وتكلفة أقل بثلاث مرات من V8. وبالتوازي: تفتتح Luma وWonder Project استوديو Innovative Dreams المدعوم من AWS، وتتعاون MiniMax مع NousResearch من أجل MaxHermes، وتنشر Kimi بنية استدلال cross-datacenter، وتثري Google Chrome بمهارات Gemini.
Grok STT وTTS — أرخص واجهات برمجة التطبيقات الصوتية في السوق
17 أبريل — تطلق xAI في الوقت نفسه واجهتي برمجة تطبيقات صوتيتين مستقلتين: واجهة للتعرف على الكلام (Speech to Text، STT) وواجهة للتوليد الصوتي (Text to Speech، TTS). التموضع التسعيري مباشر: تعرض الواجهتان أقل الأسعار في كل من قطاعيهما.
API STT (التعرف على الكلام)
توفر واجهة STT الخاصة بـ Grok وضعين: batch REST وstreaming WebSocket. الأسعار هي $0,10/الساعة (batch) و**$0,20/الساعة** (streaming)، مقابل $0,22 و$0,39 لدى ElevenLabs، و$0,21 و$0,45 لدى AssemblyAI، و$0,31 و$0,55 لدى Deepgram.
| المنافس | Batch (REST) | Streaming (WebSocket) |
|---|---|---|
| Grok | $0,10/h | $0,20/h |
| ElevenLabs | $0,22/h | $0,39/h |
| AssemblyAI | $0,21/h | $0,45/h |
| Deepgram | $0,31/h | $0,55/h |
على مستوى الجودة، يبلغ معدل خطأ الكلمات الإجمالي (Word Error Rate) لواجهة Grok STT 6,9%، مقابل 9,0% لدى ElevenLabs، و11,0% لدى Deepgram، و12,9% لدى AssemblyAI. تغطي Grok STT أكثر من 25 لغة مع طوابع زمنية على مستوى الكلمة، وتجزئة المتحدثين المتعددين (speaker diarization)، ودعم متعدد القنوات، والتطبيع العكسي للنص (تحويل الأرقام والتواريخ من الكلام).
API TTS (التوليد الصوتي)
تُسعَّر واجهة TTS الخاصة بـ Grok عند $4,20 لكل مليون حرف، بينما تفرض OpenAI مبلغ $30، وInWorld مبلغ $40، وCartesia مبلغ $46,70، وElevenLabs مبلغ $50. تدعم الواجهة REST وstreaming WebSocket. كما تقدم وسومًا تعبيرية: [laugh]، [sigh]، [whisper]، <emphasis>، <slow>، <pause> — للتحكم في نبرة التوليد وإيقاعه.
| المنافس | السعر / مليون حرف |
|---|---|
| Grok | $4,20 |
| OpenAI | $30,00 |
| InWorld | $40,00 |
| Cartesia | $46,70 |
| ElevenLabs | $50,00 |
xAI announces the launch of Grok speech to text and text to speech APIs. Grok STT has the world’s lowest word error rate and price. Grok TTS has the world’s most expressive voice and lowest price.
🇸🇦 تعلن xAI إطلاق واجهتي برمجة التطبيقات Grok للتعرف على الكلام والتوليد الصوتي. تعرض Grok STT أدنى معدل لخطأ الكلمات وأدنى سعر في العالم. وتقدم Grok TTS أكثر الأصوات تعبيرًا وأدنى سعر في العالم. — @xai على X
🔗 إعلان xAI 🔗 تغريدة @xai
Claude for Word — الإضافة الخاصة بـ Microsoft في البيتا
17 أبريل — تطلق Anthropic Claude for Word في نسخة بيتا لمشتركي Pro وMax وTeam وEnterprise. تندمج الإضافة مباشرة في واجهة Microsoft Word — من دون نافذة منفصلة — وتعمل على مستوى المستند.
| الميزة | الوصف |
|---|---|
| Tracked changes الأصلية | تظهر جميع تعديلات Claude كتنقيحات Word يمكن قبولها/رفضها |
| إدارة التعليقات | يقرأ Claude التعليقات، ويحرر النص المرتبط بها، ويرد داخل السلسلة |
| الحفاظ على التنسيق | يرث أنماط العناوين والترقيم والمصطلحات المحددة |
| Cross-context | يشارك السياق مع إضافات Excel وPowerPoint ضمن المحادثة نفسها |
| أمان المؤسسات | تسجيل الدخول عبر حساب Claude أو مزود سحابي موجود |
الصيغ المدعومة هي .docx و.docm. تُثبَّت الإضافة عبر Microsoft Marketplace تحت المعرّف WA200010453.
🔗 claude.com/claude-for-word 🔗 تغريدة @claudeai
Midjourney V8.1 — عرض 2K أصلي، أسرع 3×
14 أبريل — أطلقت Midjourney الإصدار V8.1 من مولد الصور الخاص بها. يضيف هذا التحديث عرض 2K HD أصليًا مع سرعة توليد أعلى بثلاث مرات من V8، وبكلفة أقل بثلاث مرات.
تمثل V8.1 تنقيحًا مهمًا لمحرك V8: تنتقل الدقة مباشرة إلى 2K من دون upscaling لاحق، مما يحسن دقة التفاصيل الدقيقة ويقلل العيوب المعتادة لمراحل التكبير. ويضع مزيج السرعة/السعر/الدقة V8.1 كأكثر نسخة متاحة ضمن سلسلة V8.
Luma × Wonder Project — استوديو Innovative Dreams، بدعم من AWS
16 أبريل — تعلن Luma AI وWonder Project (استوديو إنتاج faith & values، وشريك Prime Video) معًا إطلاق Innovative Dreams — وهي شركة إنتاج سينمائي جديدة، ومختبر R&D، وشركة VFX، مدعومة وممولة من Amazon Web Services (AWS).
يُقدَّم Innovative Dreams باعتباره أول استوديو ينشر على نطاق واسع Realtime Hybrid Filmmaking — وهو نهج يمزج بين التقاط الأداء، والإنتاج الافتراضي، والذكاء الاصطناعي التوليدي (ولا سيما Luma Agents) في جميع مراحل الإنتاج: الفكرة، وما قبل التصور، والتصوير، وما بعد الإنتاج.
| الجانب | التفاصيل |
|---|---|
| الرئيس التنفيذي | Jon Erwin (مؤسس Wonder Project) |
| CTO / Luma | Amit Jain (الرئيس التنفيذي لـ Luma AI) |
| البنية التحتية | AWS cloud + ذكاء اصطناعي لأدوات R&D والإنتاج الافتراضي |
| التقنية | Luma Agents + Realtime Hybrid Filmmaking |
| الموقع | MBS Media Campus, Manhattan Beach, California |
| أول مشروع | ”The Old Stories: Moses” (3 episodes) مع Ben Kingsley وO-T Fagbenle، لصالح Prime Video |
يلغي نهج “Realtime Hybrid Filmmaking” التأخيرات التقليدية بين التصوير والعرض والمونتاج. ويمكن للممثلين التفاعل مع البيئات الرقمية في الوقت الحقيقي، مما يقصر المسافة بين الفكرة الإبداعية والبكسل النهائي مع الحفاظ على الأداء البشري. كما يقدّم Innovative Dreams أدواته إلى استوديوهات Hollywood الأخرى.
🔗 إعلان Luma 🔗 تغريدة @LumaLabsAI
MiniMax M2.7 × NousResearch — MaxHermes، Hermes Agent بلا إعداد
16 أبريل — تعلن MiniMax عن شراكة معمقة مع NousResearch لدمج النموذج M2.7 ضمن harness Hermes Agent. ويقدم الإعلان MaxHermes — وهي نسخة سحابية مُدارة من Hermes Agent يمكن الوصول إليها مباشرة من @MiniMaxAgent، من دون إعداد في الطرفية أو تثبيت محلي.
يستهدف التطور المشترك M2.7 × Hermes Agent الوكلاء من الفئة الأعلى: تستفيد حلقة التحسين الذاتي (self-improving loop) في Hermes من نموذج M2.7 على أفضل وجه للمهام الوكيلة. ويمكن للمستخدمين الذين يشغلون Hermes محليًا أيضًا ربط وكيلهم بـ MaxHermes للاستفادة من البنية التحتية السحابية المُدارة.
Gemini Skills في Chrome — أوامرك بنقرة واحدة
14 أبريل — يدمج Google Chrome ميزة جديدة تسمى “Skills” لـ Gemini داخل المتصفح. يمكنك الآن حفظ أوامرك الأكثر فائدة وإعادة تشغيلها بنقرة واحدة من دون إعادة كتابتها. كما تتوفر مكتبة من الأوامر المسبقة الإعداد للانطلاق بسرعة.
أُعلن عن الميزة في 14 أبريل وتم تأكيد توفرها في 15 أبريل 2026، ثم أُدرجت مجددًا في الملخص الأسبوعي @GoogleAI بتاريخ 17 أبريل.
🔗 تغريدة @googlechrome (14 أبريل) 🔗 تغريدة @googlechrome (15 أبريل)
Gemini API — الدفع المسبق (Prepay Billing) في Google AI Studio
15 أبريل — يقدم Google AI Studio “Prepay Billing” لواجهة Gemini API. يمكن للمطورين الآن شراء أرصدة مسبقًا واستهلاكها تدريجيًا، مما يلغي مفاجآت الفوترة في نهاية الشهر.
يتوفر الشحن التلقائي عندما يكون الرصيد منخفضًا. الميزة متوافقة مع Spend Caps (المطلقة سابقًا) وUsage Tiers. وهي متاحة في الولايات المتحدة للحسابات الجديدة لفوترة Google Cloud، مع طرح عالمي خلال الأسابيع المقبلة. أما الحسابات القائمة ذات مستويات الاستخدام المرتفعة فستتمكن من الانتقال إلى postpaid.
Kimi Prefill-as-a-Service — الاستدلال عبر مراكز بيانات متعددة
18 أبريل — تنشر Moonshot AI (Kimi) تقدمًا تقنيًا في بنية الاستدلال: Prefill-as-a-Service (PraaS). تدفع البنية فصل Prefill/Decode (prefill/decode disaggregation) إلى ما بعد عنقود واحد، نحو بنية cross-datacenter مع عتاد غير متجانس.
النتائج المعلنة: 1,54× من throughput إضافي و**-64% على P90 TTFT** (الوقت حتى أول token). التقنية الأساسية هي النموذج الهجين Kimi Linear، الذي يقلل تكلفة نقل ذاكرة KV cache (key-value cache) بين مراكز البيانات. هذا ليس إطلاقًا جماهيريًا بل ورقة بحثية في بنية الاستدلال الموزعة، مع أثر مباشر على خفض التكلفة لكل token لدى Kimi.
🔗 تغريدة @Kimi_Moonshot 🔗 ورقة arXiv
Claude Code v2.1.114 وRunway Seedance 2.0 API
18 أبريل — يصلح Claude Code v2.1.114 تعطلًا كان يحدث عندما يطلب أحد أعضاء فريق وكلاء الوصول إلى أداة عبر مربع حوار الأذونات.
16 أبريل — تتيح Runway الوصول إلى Seedance 2.0 عبر API Runway للمطورين. بعد الإطلاق على الويب (9 أبريل)، وعرض 1080p (16 أبريل)، وتطبيق iOS (17 أبريل)، يكتمل طرح النموذج متعدد القنوات عبر وصول API. الوثائق متاحة على dev.runwayml.com.
🔗 CHANGELOG Claude Code 🔗 تغريدة @runwayml — Seedance API
ماذا يعني ذلك
يمثل الإطلاق المتزامن لواجهتي STT وTTS من Grok أكثر تحركات التسعير عدوانية هذا الأسبوع. ومن خلال خفض الأسعار بما يتراوح بين 2 و10 مرات مقارنةً بـ ElevenLabs وAssemblyAI وOpenAI TTS، تشير xAI بوضوح إلى أن الصوت بالذكاء الاصطناعي يتحول إلى سلعة — وهو ما سيسرع التبني لدى المطورين المستقلين والشركات الناشئة، لكنه سيضغط هوامش ربح اللاعبين الراسخين. إن الجمع بين معدل خطأ من بين الأدنى في السوق، وأسعار منخفضة جدًا، ووسوم تعبيرية يجعل هذه الواجهات قابلة للاستخدام في الإنتاج فورًا.
تترجم Claude for Word وGemini Skills في Chrome استراتيجيتين مختلفتين: تدمج Anthropic نموذجها داخل أدوات الإنتاجية المكتبية القائمة، حيث يقضي مستخدموها أيامهم بالفعل؛ أما Google فتعزز متصفحها لتجعل Gemini حاضرًا يوميًا ولا غنى عنه. يسعى النهجان إلى تقليل الاحتكاك في الوصول إلى النموذج.
توضح Luma × Wonder Project × AWS بروز نموذج جديد لاستوديو هوليوودي: ذكاء اصطناعي توليدي مدمج في كل مرحلة من مراحل الإنتاج، وبنية سحابية AWS، وطموح “توطين” الإنتاجات في لوس أنجلوس بدلًا من نقلها إلى الخارج. الإعلان رمزي بقدر ما هو تقني — فهو يثبت أن Realtime Hybrid Filmmaking أصبح خط إنتاج يمكن تصنيعه صناعيًا، لا مجرد مفهوم.
المصادر
- إعلان xAI — Grok STT وTTS APIs
- تغريدة @xai — Grok STT وTTS
- تغريدة @claudeai — Claude for Word
- claude.com/claude-for-word
- إعلان Luma AI — Innovative Dreams
- تغريدة @LumaLabsAI — Innovative Dreams
- تغريدة @MiniMax_AI — M2.7 × NousResearch
- تغريدة @googlechrome — Gemini Skills (14 أبريل)
- تغريدة @googlechrome — Gemini Skills (15 أبريل)
- تغريدة @GoogleAIStudio — Prepay Billing
- تغريدة @Kimi_Moonshot — PraaS
- ورقة arXiv — Kimi PraaS
- CHANGELOG Claude Code — v2.1.114
- تغريدة @runwayml — Seedance 2.0 API
تمت ترجمة هذا المستند من الإصدار fr إلى اللغة ar باستخدام النموذج gpt-5.4-mini. لمزيد من المعلومات حول عملية الترجمة، راجع https://github.com/jls42/ai-powered-markdown-translator