بحث

GLM-5 مفتوح المصدر، تقرير مخاطر التخريب ASL-4، OpenAI تطلق بدائيات الوكلاء

GLM-5 مفتوح المصدر، تقرير مخاطر التخريب ASL-4، OpenAI تطلق بدائيات الوكلاء

تطلق Z.ai نموذج GLM-5، نموذجها الرائد الجديد مفتوح المصدر بمعلمات تبلغ 744 ملياراً تحت رخصة MIT، والذي يصعد إلى المرتبة الأولى بين النماذج مفتوحة المصدر في مهام البرمجة والوكلاء. تنشر Anthropic تقريراً عن مخاطر التخريب ASL-4 لنموذج Opus 4.6، وتثري OpenAI واجهة برمجة التطبيقات الخاصة بها ببدائيات الوكلاء، وتكشف Kimi عن نظام مكون من 100 وكيل فرعي متوازٍ. على جانب النظام البيئي، تجمع Runway مبلغ 315 مليون دولار وتطلق ElevenLabs وضعاً تعبيرياً لوكلائها الصوتيين.


Z.ai تطلق GLM-5: معلمات 744B، مفتوح المصدر تحت رخصة MIT

11 فبراير — تطلق Z.ai (Zhipu AI) نموذج GLM-5، نموذجها الحدودي الجديد المصمم لهندسة الأنظمة المعقدة ومهام الوكلاء طويلة الأمد. مقارنةً بنموذج GLM-4.5، ينمو النموذج من 355 مليار معلمة (32 مليار نشطة) إلى 744 مليار معلمة (40 مليار نشطة)، مع زيادة بيانات التدريب المسبق من 23 تريليون إلى 28.5 تريليون رمز مميز (token).

يدمج GLM-5 تقنية DeepSeek Sparse Attention (DSA) لتقليل تكاليف النشر مع الحفاظ على قدرة السياق الطويل، ويقدم “slime”، وهي بنية تحتية للتعلم المعزز غير المتزامن تعمل على تحسين الإنتاجية بعد التدريب.

المعيارGLM-5GLM-4.7Kimi K2.5Claude Opus 4.5Gemini 3 Pro
SWE-bench Verified77.8%73.8%76.8%80.9%76.2%
HLE (text)30.524.831.528.437.2
HLE w/ Tools50.442.851.843.445.8
Terminal-Bench 2.056.241.050.859.354.2
Vending Bench 2$4,432$2,377$1,198$4,967$5,478

يضع GLM-5 نفسه كأفضل نموذج مفتوح المصدر في الاستدلال والبرمجة ومهام الوكلاء، مما يسد الفجوة مع النماذج الحدودية الاحتكارية. في Vending Bench 2، وهو معيار يحاكي إدارة آلة بيع لمدة عام، ينهي GLM-5 برصيد 4,432 دولاراً، مقترباً من Claude Opus 4.5 (4,967 دولاراً).

بجانب الكود، يمكن لـ GLM-5 توليد ملفات .docx و .pdf و .xlsx مباشرة — مقترحات، تقارير مالية، جداول بيانات — يتم تسليمها جاهزة للاستخدام. تنشر Z.ai وضع الوكيل بمهارات مدمجة لإنشاء المستندات، مما يدعم التعاون متعدد الأدوار.

يتم نشر أوزان النموذج على Hugging Face تحت رخصة MIT. يتوافق GLM-5 مع Claude Code و OpenClaw، ومتاح على OpenRouter. النشر تدريجي، بدءاً من مشتركي Coding Plan Max.

🔗 مدونة GLM-5 التقنية 🔗 الإعلان على X


Anthropic تنشر أول تقرير عن مخاطر التخريب ASL-4

11 فبراير — تنشر Anthropic تقريراً عن مخاطر التخريب لنموذج Claude Opus 4.6، تحسباً لعتبة الأمان ASL-4 (AI Safety Level 4) للبحث والتطوير المستقل في مجال الذكاء الاصطناعي.

عند إصدار Claude Opus 4.5، التزمت Anthropic بكتابة تقارير عن مخاطر التخريب لكل نموذج حدودي جديد. بدلاً من التنقل في عتبات غامضة، اختارت الشركة احترام معيار الأمان ASL-4 الأعلى بشكل استباقي.

العنصرالتفاصيل
النموذج الذي تم تقييمهClaude Opus 4.6
عتبة الأمانASL-4 (AI Safety Level 4)
المجالالبحث والتطوير المستقل في الذكاء الاصطناعي
التنسيقتقرير PDF عام
سابقةالتزام تم التعهد به أثناء إطلاق Opus 4.5

هذه خطوة مهمة في شفافية أمان الذكاء الاصطناعي: Anthropic هي واحدة من أوائل المختبرات التي تنشر تقرير تخريب كهذا لنموذج قيد الإنتاج.

When we released Claude Opus 4.5, we knew future models would be close to our AI Safety Level 4 threshold for autonomous AI R&D. We therefore committed to writing sabotage risk reports for future frontier models. Today we’re delivering on that commitment for Claude Opus 4.6.

🇸🇦 عندما أطلقنا Claude Opus 4.5، كنا نعلم أن النماذج المستقبلية ستكون قريبة من عتبة AI Safety Level 4 الخاصة بنا للبحث والتطوير المستقل في الذكاء الاصطناعي. لذلك التزمنا بكتابة تقارير مخاطر التخريب للنماذج الحدودية المستقبلية. اليوم نفي بهذا الالتزام لنموذج Claude Opus 4.6.@AnthropicAI على X

🔗 שרשור Anthropic


OpenAI: بدائيات وكلاء جديدة في واجهة برمجة تطبيقات Responses

10 فبراير — تقدم OpenAI ثلاث بدائيات جديدة في واجهة برمجة تطبيقات Responses لعمل الوكلاء طويل الأمد.

الضغط من جانب الخادم

يسمح بجلسات وكلاء لعدة ساعات دون الوصول إلى حدود السياق. تتم إدارة الضغط من جانب الخادم. تفيد Triple Whale، وهي مُختبر وصول مبكر، بأنها حققت 150 استدعاء أداة و 5 ملايين رمز مميز في جلسة واحدة دون فقدان الدقة.

حاويات مع شبكات

يمكن للحاويات التي تستضيفها OpenAI الآن الوصول إلى الإنترنت بطريقة خاضعة للرقابة. يحدد المسؤولون قائمة بيضاء للنطاقات في لوحة القيادة، ويجب أن تحدد الطلبات صراحة network_policy، ويمكن حقن أسرار النطاق دون كشف القيم الخام للنموذج.

المهارات في واجهة برمجة التطبيقات

دعم أصلي لمعيار مهارات الوكيل (Agent Skills) مع أول مهارة مبنية مسبقاً (جداول البيانات). المهارات عبارة عن حزم قابلة لإعادة الاستخدام ولها إصدارات يمكن تثبيتها في بيئات Shell المستضافة، وتقرر النماذج في وقت التشغيل ما إذا كانت ستستدعيها.

البدائيةالوصفالحالة
الضغط من جانب الخادمجلسات لعدة ساعات دون حدود السياقمتاح
حاويات مع شبكاتوصول خاضع للرقابة للإنترنت للحاويات المستضافةمتاح
المهارات في واجهة برمجة التطبيقاتحزم قابلة لإعادة الاستخدام (أول مهارة: جداول البيانات)متاح

🔗 שרשור OpenAIDevs


Kimi Agent Swarm: تنسيق 100 وكيل فرعي

10 فبراير — تكشف Kimi (Moonshot AI) عن Agent Swarm، وهي قدرة تنسيق متعددة الوكلاء تسمح بموازاة المهام المعقدة مع ما يصل إلى 100 وكيل فرعي متخصص.

يمكن للنظام تنفيذ أكثر من 1500 استدعاء أداة ويصل إلى سرعة أعلى بـ 4.5 مرة من عمليات التنفيذ المتسلسلة. تغطي حالات الاستخدام التوليد المتزامن لملفات متعددة (Word، Excel، PDF)، والتحليل المتوازي للمحتوى، والتوليد الإبداعي بأساليب متعددة بشكل متوازٍ. يحل Agent Swarm حداً هيكلياً لنماذج اللغة الكبيرة: تدهور الاستدلال أثناء المهام الطويلة التي تملأ السياق.

🔗 إعلان Kimi


OpenAI Harness Engineering: صفر سطر من الكود اليدوي مع Codex

11 فبراير — تنشر OpenAI تجربة حول بناء منتج برمجيات داخلي بصفر سطر من الكود المكتوب يدوياً. لمدة 5 أشهر، استخدم فريق من 3 إلى 7 مهندسين Codex حصرياً لتوليد جميع الأكواد.

المقياسالقيمة
أسطر الكود المولدة~1 مليون
طلبات السحب (PRs)~1,500
PR لكل مهندس يومياً3.5 في المتوسط
المستخدمون الداخليونعدة مئات
الوقت المقدر1/10 من الوقت اللازم يدوياً
جلسات Codexتصل إلى 6+ ساعات

يعيد نهج “Harness Engineering” تعريف دور المهندس: تصميم البيئات، وتحديد النية، وبناء حلقات ردود الفعل للوكلاء، بدلاً من كتابة الكود. تعمل الوثائق المهيكلة في المستودع كدليل (AGENTS.md كجدول محتويات)، والهندسة صارمة مع أدوات فحص واختبارات هيكلية يولدها Codex، وتقوم المهام المتكررة بمسح الانحرافات وفتح طلبات سحب لإعادة الهيكلة تلقائياً.

🔗 مدونة Harness Engineering


Runway تجمع 315 مليون دولار في الفئة E

10 فبراير — تعلن Runway عن جمع تبرعات بقيمة 315 مليون دولار في الفئة E، مما يرفع تقييمها إلى 5.3 مليار دولار. تقود الجولة General Atlantic، بمشاركة NVIDIA و Adobe Ventures و AMD Ventures و Fidelity و AllianceBernstein وغيرهم.

التفاصيلالقيمة
المبلغ315 مليون دولار
الفئةE
التقييم5.3 مليار دولار (مقابل 3.3 مليار دولار في الفئة D)
المستثمر الرئيسيGeneral Atlantic
الإجمالي الذي تم جمعه منذ 2018860 مليون دولار

ستُستخدم الأموال لتدريب الجيل القادم من “نماذج العالم” مسبقاً — وهي نماذج قادرة على محاكاة العالم المادي — ونشرها في منتجات وصناعات جديدة. يأتي هذا الإعلان بعد إطلاق Gen-4.5، أحدث نموذج لتوليد الفيديو من Runway.

🔗 الإعلان الرسمي 🔗 منشور Runway على X


Cowork متاح على Windows

10 فبراير — تطبيق سطح المكتب Claude Cowork للمهام متعددة الخطوات متاح الآن على Windows في معاينة بحثية مع تكافؤ كامل في الميزات مقارنة بنظام macOS.

الميزةالوصف
الوصول إلى الملفاتقراءة وكتابة الملفات المحلية
الإضافاتدعم لإضافات Cowork
موصلات MCPالتكامل مع خوادم MCP
تعليمات لكل مجلدنمط Claude.md — تعليمات باللغة الطبيعية لكل مشروع

يتوفر Cowork على Windows لجميع خطط Claude المدفوعة عبر claude.com/cowork.

🔗 إعلان Cowork Windows


ميزات مجانية في خطة Claude المجانية

11 فبراير — توسع Anthropic الميزات المتاحة في خطة Claude المجانية. أصبح إنشاء الملفات والموصلات والمهارات والضغط متاحاً الآن بدون اشتراك. يسمح الضغط لـ Claude بتلخيص السياق السابق تلقائياً بحيث يمكن للمحادثات الطويلة الاستمرار دون إعادة التشغيل.

🔗 إعلان الخطة المجانية


وضع خطة Claude Code في Slack

11 فبراير — يحصل تكامل Claude Code في Slack على وضع الخطة (Plan Mode). عندما تعطي Claude مهمة كود في Slack، يمكنه الآن وضع خطة قبل التنفيذ، مما يسمح بالتحقق من النهج قبل التنفيذ.

الميزةالوصف
وضع الخطةوضع خطة قبل التنفيذ
الكشف التلقائيالتوجيه الذكي بين الكود والدردشة
إنشاء PRزر “Create PR” مباشرة من Slack
المتطلبات المسبقةخطة Pro أو Max أو Team أو Enterprise + اتصال GitHub

🔗 שרשור Boris Cherny


ElevenLabs تطلق الوضع التعبيري لوكلائها الصوتيين

10 فبراير — تكشف ElevenLabs عن الوضع التعبيري (Expressive Mode) لـ ElevenAgents، وهو تطور يجعل وكلاء الصوت بالذكاء الاصطناعي قادرين على تكييف نبرتهم وعاطفتهم وتأكيدهم في الوقت الفعلي.

يعتمد الوضع على Eleven v3 Conversational، وهو نموذج تخليق صوتي محسن للحوار في الوقت الفعلي، مقترناً بنظام جديد لتبادل الأدوار يقلل من الانقطاعات. يبقى السعر عند 0.08 دولار للدقيقة. بالتوازي، تعيد ElevenLabs هيكلة منصتها إلى ثلاث عائلات من المنتجات: ElevenAgents (وكلاء الصوت)، و ElevenCreative (أدوات إبداعية)، و ElevenAPI (منصة المطورين).

🔗 مدونة Expressive Mode


دمج Kimi K2.5 على Qoder

9 فبراير — تنشر Qoder (منصة ذكاء اصطناعي للمطورين) Kimi K2.5 كنموذج رئيسي لسوقها، مع درجة SWE-bench Verified تبلغ 76.8% وسعر مفضل (0.3x رصيد في فئة Efficient). سير العمل الموصى به: استخدام النماذج الثقيلة للتصميم والهندسة، ثم K2.5 للتنفيذ.

🔗 إعلان Qoder


ماذا يعني هذا

تستمر البرمجيات مفتوحة المصدر في التقدم بسرعة نحو النماذج الحدودية. يقلل GLM-5 من Z.ai الفجوة مع Claude Opus 4.5 و GPT-5.2 في معايير البرمجة ومهام الوكلاء، بينما يتوفر تحت رخصة MIT. يؤسس نشر تقرير التخريب ASL-4 من قبل Anthropic سابقة لشفافية الأمان والتي من المرجح أن تضطر المختبرات الأخرى لاتباعها.

على جانب المطورين، ترسم بدائيات الوكلاء من OpenAI (ضغط الخادم، حاويات الشبكة، مهارات API) ونهج “Harness Engineering” مستقبلاً يدير فيه الوكلاء المستقلون جلسات لعدة ساعات. يدفع Kimi Agent Swarm هذا المنطق إلى أبعد من ذلك مع تنسيق مئات الوكلاء الفرعيين بالتوازي.


المصادر