تضرب Anthropic بقوة مع Claude Sonnet 4.6، وهو نموذج ينافس Opus في العديد من المهام بسعر Sonnet. بالتوازي، تنشر Qwen أول نموذج لها Qwen3.5 بوزن مفتوح (open-weight) مع 397 مليار معلمة، وتدمج Google نموذج Lyria 3 — نموذجها لتوليد الموسيقى — مباشرة في Gemini.
Claude Sonnet 4.6: أداء Opus بسعر Sonnet
17 فبراير — أطلقت Anthropic نموذج Claude Sonnet 4.6، والذي وُصف بأنه أكثر نماذج Sonnet قدرة حتى الآن. يمثل النموذج ترقية شاملة في البرمجة، واستخدام الكمبيوتر (computer use)، والاستنتاج ذي السياق الطويل، وتخطيط الوكلاء، والعمل الفكري، والتصميم. يتضمن نافذة سياق تبلغ 1 مليون token في الإصدار التجريبي.
الموقع واضح: الأداء الذي كان يتطلب نموذج Opus أصبح الآن متاحًا بتعرفة Sonnet، أي 3 دولارات / 15 دولارًا لكل مليون token (دون تغيير مقارنة بـ Sonnet 4.5). يصبح Sonnet 4.6 النموذج الافتراضي في الخطط المجانية (Free) والمحترفة (Pro) في claude.ai و Claude Cowork.
المعايير (Benchmarks) وتعليقات المستخدمين
في Claude Code، فضل المختبرون Sonnet 4.6 على Sonnet 4.5 في حوالي 70% من الوقت، مشيرين إلى قراءة أفضل للسياق قبل تعديل الكود ودمج المنطق المشترك بدلاً من تكراره. والأكثر ملاحظة: فضل المستخدمون Sonnet 4.6 على Opus 4.5 (النموذج الرائد لشهر نوفمبر 2025) في 59% من الوقت، مشيرين إلى هندسة مفرطة أقل، و”كسل” أقل، واتباع أفضل للتعليمات.
| Benchmark | Score |
|---|---|
| SWE-bench Verified | 80.2% (مع تعديل الـ prompt) |
| OSWorld (computer use) | تقدم كبير خلال 16 شهرًا |
| OfficeQA | يعادل Opus 4.6 |
| Vending-Bench Arena | استراتيجية ناشئة للاستثمار/التحول |
يتقدم استخدام الكمبيوتر (computer use) بشكل ملحوظ: يحسن Sonnet 4.6 أيضًا مقاومة حقن الأوامر (prompt injections) مقارنة بـ Sonnet 4.5، ليصل إلى مستوى مشابه لـ Opus 4.6.
تحديثات المنتج ذات الصلة
يرافق الإعلان انتقال العديد من الميزات إلى التوفر العام (GA) على Claude API: تنفيذ الكود، والذاكرة، واستدعاء الأدوات برمجياً، والبحث عن الأدوات، وأمثلة استخدام الأدوات. يدمج البحث في الويب وأدوات الجلب (fetch) الآن تصفية ديناميكية — يكتب Claude وينفذ تلقائيًا كودًا لتصفية نتائج البحث، مع الاحتفاظ فقط بالمحتوى ذي الصلة في السياق.
🔗 بحث ويب محسن مع تصفية ديناميكية
بالنسبة لمستخدمي Claude in Excel، تدعم الإضافة الآن موصلات MCP (S&P Global و LSEG و Daloopa و PitchBook و Moody’s و FactSet)، وهي متاحة في خطط Pro و Max و Team و Enterprise.
تقيس Anthropic استقلالية وكلاء الذكاء الاصطناعي في الظروف الواقعية
18 فبراير — نشرت Anthropic دراسة تحلل ملايين التفاعلات بين الإنسان والوكيل عبر Claude Code وواجهة برمجة التطبيقات (API) العامة، بهدف فهم كيفية إدارة البشر لاستقلالية الوكيل في الممارسة العملية.
النتائج الرئيسية
| المقياس | القيمة |
|---|---|
| المدة القصوى للاستقلالية (المئين 99.9) | ~45 دقيقة (تضاعفت في 3 أشهر) |
| الموافقة التلقائية (المستخدمون الخبراء) | 40%+ (مقابل 20% للجدد) |
| حصة هندسة البرمجيات في حركة API | ~50% |
| إجراءات مع حواجز حماية | 80% |
| إجراءات مع إنسان في الحلقة (Human-in-the-loop) | 73% |
| إجراءات لا رجعة فيها | 0.8% |
ملاحظة غير بديهية: يقوم المستخدمون الخبراء بزيادة معدل الموافقة التلقائية ومعدل المقاطعة في وقت واحد. ينتقلون من الإشراف إجراءً بإجراء إلى المراقبة النشطة مع التدخل المستهدف. علاوة على ذلك، يتوقف Claude لطلب توضيحات بشكل متكرر أكثر مما يقاطعه البشر، خاصة في المهام المعقدة.
تخلص الدراسة إلى وجود فجوة كبيرة بين القدرة والاستخدام: الاستقلالية التي تستطيع النماذج إدارتها تتجاوز بكثير تلك الممنوحة لها في الممارسة العملية — وهي ظاهرة يصفها الباحثون بأنها “فائض من الاستقلالية غير المنشورة” (surplus of undeployed autonomy).
Anthropic: شراكات مع رواندا و Infosys
17 فبراير — بالتزامن مع إطلاق Sonnet 4.6، وقعت Anthropic مذكرة تفاهم مع حكومة رواندا لنشر Claude في قطاعات الصحة والتعليم والإدارة العامة. تشمل الشراكة، التي تقودها وزارة تكنولوجيا المعلومات والاتصالات والابتكار، تدريب موظفي الخدمة المدنية ونشر رفيق تعليمي بالذكاء الاصطناعي في ثماني دول أفريقية.
أعلنت Anthropic أيضًا عن تعاون مع Infosys لبناء وكلاء ذكاء اصطناعي للاتصالات والصناعات الخاضعة للتنظيم الأخرى.
Qwen3.5-397B-A17B: أول وزن مفتوح من سلسلة 3.5
16 فبراير — نشرت Alibaba Qwen نموذج Qwen3.5-397B-A17B، وهو أول نموذج بوزن مفتوح (open-weight) من سلسلة Qwen3.5. يمثل هذا تقدمًا كبيرًا بفضل بنية هجينة تجمع بين الانتباه الخطي (linear attention) ومزيج الخبراء المتناثر (Mixture-of-Experts - MoE).
| الميزة | التفاصيل |
|---|---|
| إجمالي المعلمات | 397B (بنية MoE هجينة) |
| البنية | انتباه خطي هجين + MoE متناثر |
| الإنتاجية (Throughput) | 8.6x إلى 19.0x أعلى من Qwen3-Max |
| اللغات | 201 لغة ولهجة |
| الترخيص | Apache 2.0 |
| التدريب | تعلم معزز واسع النطاق |
| التخصص | متعدد الوسائط أصلي (Native Multimodal)، وكلاء حقيقيون |
النموذج متاح فورًا على Hugging Face و ModelScope و Alibaba Cloud Model Studio وعبر Qwen Code. مع دعم 201 لغة وترخيص Apache 2.0، يعد أحد أكثر نماذج الوزن المفتوح طموحًا حاليًا من حيث التغطية اللغوية وإنتاجية الاستنتاج.
Google Lyria 3: توليد الموسيقى يصل إلى Gemini
18 فبراير — قدمت Google و DeepMind نموذج Lyria 3، وهو نموذج لتوليد الموسيقى بالذكاء الاصطناعي مدمج مباشرة في تطبيق Gemini. يمكن للمستخدمين إنشاء مقاطع موسيقية مدتها 30 ثانية من نصوص أو صور أو مقاطع فيديو، مع توليد كلمات مخصصة.
| الميزة | التفاصيل |
|---|---|
| المدخلات | نص، صور، فيديو |
| المخرجات | مقاطع صوتية مدتها 30 ثانية |
| التخصيص | أنماط موسيقية متنوعة، كلمات مولدة |
| التوفر | إصدار تجريبي في Gemini (+18) |
يُظهر Lyria 3 مرونة ملحوظة في مجموعات الآلات والأنواع، مما يسمح بإبداعات تتراوح من النغمات القصيرة (jingle) إلى مؤلفات الـ lo-fi. يتم النشر العالمي تدريجياً.
OpenAI EVMbench: معيار أمان للعقود الذكية
18 فبراير — أطلقت OpenAI و Paradigm معيار EVMbench، وهو benchmark يقيم قدرة وكلاء الذكاء الاصطناعي على اكتشاف وتصحيح واستغلال الثغرات الأمنية في العقود الذكية لـ Ethereum. يعتمد المعيار على 120 ثغرة أمنية منسقة من 40 عملية تدقيق (بشكل رئيسي مسابقات Code4rena).
| الوضع | الوصف | GPT-5.3-Codex | GPT-5 (قبل 6 أشهر) |
|---|---|---|---|
| Exploit | تنفيذ هجمات الاستنزاف | 72.2% | 31.9% |
| Detect | تدقيق واكتشاف الثغرات | < تغطية كاملة | - |
| Patch | التصحيح مع الحفاظ على الوظيفة | < تغطية كاملة | - |
ملاحظة مثيرة للاهتمام: ينجح وكلاء الذكاء الاصطناعي بشكل أفضل في الاستغلال (هدف صريح) مقارنة بالكشف والتصحيح، حيث غالبًا ما يستسلمون بعد العثور على أول ثغرة. تعيد OpenAI تأكيد التزامها بتقديم 10 ملايين دولار في أرصدة API للأمن السيبراني الدفاعي.
تقرير GLM-5 الفني: Z.ai توثق نموذجها
18 فبراير — نشرت Z.ai التقرير الفني الكامل لـ GLM-5، مفصلة الابتكارات المعمارية للنموذج الذي تم إطلاقه في 11 فبراير (744 مليار معلمة، 40 مليار نشطة، ترخيص MIT).
ثلاثة ابتكارات رئيسية موثقة: الانتباه المتناثر الديناميكي (DSA) لتقليل تكاليف التدريب والاستنتاج، وبنية تحتية غير متزامنة للتعلم المعزز (RL) تفصل التوليد عن التدريب، وخوارزميات RL للوكلاء تسمح بتفاعلات معقدة وطويلة الأفق. التقرير متاح على arXiv.
🔗 تغريدة @Zai_org · 🔗 arXiv
Cohere Labs Tiny Aya: ذكاء اصطناعي متعدد اللغات مدمج للغاية
17 فبراير — قدمت Cohere Labs عائلة Tiny Aya، وهي عائلة من نماذج اللغة الصغيرة تدعم أكثر من 70 لغة بـ 3.35 مليار معلمة فقط. الهدف: جعل الذكاء الاصطناعي متعدد اللغات متاحًا في كل مكان، بما في ذلك الهواتف والعمل دون اتصال بالإنترنت (offline).
يستهدف Tiny Aya ثلاثة جماهير: الباحثين الذين يعملون بلغات غير الإنجليزية، والمطورين الذين يبنون للمجتمعات التي تفتقر إلى الخدمات الرقمية، والتطبيقات المدمجة التي تتطلب ترجمة موثوقة دون الاعتماد على السحابة. يتضمن النموذج قدرة ترجمة دون اتصال بالإنترنت، مما يحسن الخصوصية ويقلل الكمون.
توفر Runway Gen-4.5 عبر API + مهارة Claude Code
17 فبراير — فتحت Runway الوصول إلى Gen-4.5 عبر واجهة برمجة التطبيقات (API) الخاصة بها، مما يسمح للمطورين بدمج توليد الصور والفيديو والصوت مباشرة في مشاريعهم. يرافق الإعلان مهارة Claude Code مخصصة، متاحة على GitHub، والتي تسمح بتوليد محتوى Runway متعدد الوسائط دون مغادرة بيئة التطوير.
🔗 تغريدة @runwayml · 🔗 GitHub Skills
وكلاء Manus: وكيل شخصي بذاكرة طويلة الأمد
16 فبراير — أطلقت Manus قدرة Manus Agents، مما يسمح لكل مستخدم بامتلاك وكيل شخصي مباشرة في محادثات الدردشة. يجمع الوكيل بين الذاكرة طويلة الأمد (الاحتفاظ بالأسلوب والنبرة والتفضيلات)، وقدرات الإنشاء الكاملة (فيديو، شرائح، مواقع، صور)، والتكامل المباشر مع Gmail و Calendar و Notion.
ElevenAgents للدعم
17 فبراير — أطلقت ElevenLabs وكلاء ElevenAgents for Support، وهم وكلاء محادثة بالذكاء الاصطناعي لدعم العملاء. يعمل هؤلاء الوكلاء بالصوت والقنوات الرقمية بأكثر من 70 لغة، ويعتمدون على منصة الوكلاء الخاصة بـ ElevenLabs وأكثر من 4 ملايين عملية نشر في الإنتاج.
NotebookLM x Zillow: مفكرة عقارية
18 فبراير — أطلقت NotebookLM بالشراكة مع Zillow مفكرة مميزة (Featured Notebook) مجانية لمشتري المنازل، حيث تجمع نصائح الخبراء حول التحضير المالي وتقييم السوق وإجراءات الشراء.
ماذا يعني ذلك
يوضح هذا الأسبوع اتجاهين رئيسيين. الأول هو إضفاء الطابع الديمقراطي على الأداء الرائد: يجلب Sonnet 4.6 قدرات Opus بخمس السعر، بينما تجعل Qwen3.5 نموذجًا بـ 397 مليار معلمة متاحًا بموجب ترخيص Apache 2.0. الثاني هو توسع وكلاء الذكاء الاصطناعي في مجالات جديدة — تظهر دراسة Anthropic أن الجلسات المستقلة الأطول تضاعفت في ثلاثة أشهر، وتقوم جهات فاعلة مثل Manus و ElevenLabs و Runway ببناء وكلاء متخصصين (دردشة شخصية، دعم عملاء، إنشاء وسائط متعددة).
يظهر وصول توليد الموسيقى في Gemini مع Lyria 3 ومعيار EVMbench لأمان البلوكشين أيضًا أن الذكاء الاصطناعي التوليدي والذكاء الاصطناعي للأمان يواصلان تشكيل نفسيهما كمجالات قائمة بذاتها.
المصادر
- Introducing Claude Sonnet 4.6 — Anthropic
- Measuring AI agent autonomy in practice — Anthropic
- Anthropic + Rwanda MOU
- Qwen3.5-397B-A17B — @Alibaba_Qwen
- Lyria 3 — @GoogleAI
- EVMbench — OpenAI
- GLM-5 Technical Report — @Zai_org
- Tiny Aya — @cohere
- Runway Gen-4.5 API — @runwayml
- Manus Agents — @ManusAI
- ElevenAgents for Support — ElevenLabs
- NotebookLM x Zillow — @NotebookLM
- Recherche web améliorée avec filtrage dynamique — Claude Blog
- Claude API improvements — @claudeai