بحث

أنثروبيك تكشف هجمات التقطير الصناعي من قبل مختبرات صينية، OpenAI تتخلى عن SWE-bench Verified، gpt-realtime-1.5

أنثروبيك تكشف هجمات التقطير الصناعي من قبل مختبرات صينية، OpenAI تتخلى عن SWE-bench Verified، gpt-realtime-1.5

تنشر Anthropic اليوم تقريرًا يوضح حملات تقطير صناعي نفذتها ثلاثة مختبرات صينية — DeepSeek وMoonshot AI وMiniMax — التي جمعت أكثر من 16 مليون تفاعل مع Claude عبر 24,000 حساب احتيالي. من جهتها أعلنت OpenAI أنها تتخلى عن SWE-bench Verified كمرجع لنماذجها المتقدمة، بعد إثبات أن 59.4% من اختبارات المعيار معطوبة وأن عدة نماذج متقدمة حفظت تصحيحات المراجع أثناء التدريب. على صعيد الأدوات، يحسن gpt-realtime-1.5 واجهة Realtime API الصوتية، وتدعم Responses API الآن WebSockets للوكيلات طويلة المدى، ويطلق Gemini قوالب Veo 3.1 جديدة لصناعة الفيديو.


Anthropic: هجمات تقطير صناعي نفذتها ثلاثة مختبرات صينية

23 فبراير — تنشر Anthropic تقريرًا يكشف أن DeepSeek وMoonshot AI (Kimi) وMiniMax نفذوا حملات تقطير غير مشروعة على نطاق واسع ضد نماذج Claude.

ما الذي حدث

أنشأت المختبرات الثلاث نحو 24,000 حساب احتيالي لتوليد أكثر من 16 مليون تفاعل مع Claude عبر API، مخالفين شروط استخدام Anthropic وقيود الوصول الإقليمية — فالصين لا تملك وصولًا تجاريًا إلى Claude.

التقنية المستخدمة، وهي تقطير النموذج، تقوم على تدريب نموذج أقل قدرة على مخارج نموذج أكثر كفاءة. يكون ذلك مشروعًا عند استخدامه داخليًا، لكنه يصبح غير قانوني عندما يستخرج المنافسون قدرات مختبر آخر دون إذن.

حجم التبادلات حسب المختبر

المختبرحجم التبادلاتالأهداف الرئيسية
DeepSeek+150,000 تفاعلالاستدلال، تصحيح الدرجات وفق معيار rubric، بدائل آمنة للرقابة
Moonshot AI (Kimi)+3.4 مليون تفاعلالاستدلال الوكالاتي، الترميز، استخدام الحاسوب، الرؤية
MiniMax+13 مليون تفاعلالترميز الوكالاتي، استخدام الأدوات، التنسيق

تقنيات ملحوظة

تميزت حملة DeepSeek بالمطالبات التي تطلب من Claude تفصيل تفكيره الداخلي خطوة بخطوة — مولدة بذلك بيانات تدريب من نوع chain-of-thought على نطاق واسع. كما رصدت Anthropic مهامًا تهدف إلى تدريب DeepSeek على اقتراح بدائل لأسئلة سياسية حساسة.

اكتشفت Anthropic حملة MiniMax بينما كانت لا تزال نشطة. عندما أصدرت Anthropic نموذجًا جديدًا، أعادت MiniMax توجيه ما يقرب من نصف ترافيكها خلال 24 ساعة إلى النظام الجديد — ما يدل على مراقبة آلية لمخرجات Anthropic.

بُنيت البُنية التحتية المستخدمة على معماريات “hydra cluster”: شبكات من الحسابات الاحتيالية توزع الترافيك على API ومنصات سحابة طرف ثالث. كان هناك بروكسي واحد يدير أكثر من 20,000 حساب متزامنًا.

رد Anthropic

تطبّق Anthropic عدة تدابير مضادة: مصنفات وأنظمة بصمة سلوكية لاكتشاف أنماط التقطير، مشاركة بيانات تقنية مع مختبرات أخرى ومزودي سحابة والسلطات، تشديد التحقق من الحسابات التعليمية والبحثية، وتطوير تدابير مضادة على مستوى المنتج والـ API والنموذج.

“These labs created over 24,000 fraudulent accounts and generated over 16 million exchanges with Claude, extracting its capabilities to train and improve their own models.”

🇸🇦 أنشأت هذه المختبرات أكثر من 24,000 حساب احتيالي وولدت أكثر من 16 مليون تفاعل مع Claude، مستخرِجةً قدراته لتدريب وتحسين نماذجها الخاصة.@AnthropicAI على X

🔗 تقرير Anthropic 🔗 إعلان @AnthropicAI


OpenAI تتخلى عن SWE-bench Verified: 59.4% من الاختبارات معطوبة

23 فبراير — تنشر OpenAI تحليلًا يشرح لماذا لن تعيد الشركة نشر درجات SWE-bench Verified وتوصي الصناعة أن تفعل المثل.

السياق

منذ إنشائه في أغسطس 2024، أصبح SWE-bench Verified معيارًا مرجعيًا لقياس تقدم النماذج في مهام تطوير البرمجيات الذاتية. بعد تقدم سريع — من 0% إلى 75% في سنة — استقرت الدرجات بين 74.9% و80.9% خلال الأشهر الستة الماضية. أجرت OpenAI تدقيقًا معمقًا لفهم إن كان هذا السقف يعكس حدود النماذج أم عيوبًا في المعيار نفسه.

نتائج التدقيق: مشكلتان رئيسيتان

في عينة فرعية مكوّنة من 138 مشكلة تم تدقيقها (27.6% من مجموعة البيانات)، على الأقل 59.4% تحتوي اختبارات ترفض حلولًا صحيحة وظيفيًا. توزيع العيوب:

نوع العيبنسبة الحالات المعطوبة
اختبارات متشددة جدًا بشأن تفاصيل التنفيذ35.5%
اختبارات لميزات غير محددة في الوصف18.8%
عيوب أخرى (اختبارات متقلبة، مواصفات غامضة)5.1%

المشكلة الثانية هي تلوث بيانات التدريب: مسائل SWE-bench مأخوذة من مستودعات مفتوحة المصدر مستخدمة على نطاق واسع في التدريب. عبر سير عمل red-teaming آلي، أثبتت OpenAI أن GPT-5.2 وClaude Opus 4.5 وGemini 3 Flash Preview كلها قادرة على إعادة تصحيحات المرجع حرفيًا (gold patches) لبعض المسائل — ما يدل على أن هذه الأمثلة ظهرت أثناء التدريب.

التوصيات

أوقفت OpenAI نشر درجات SWE-bench Verified وتوصي باستخدام SWE-bench Pro بدلًا منه — فالجزء العام فيه يظهر تلوثًا أقل بشكل ملحوظ. وتدعو الشركة المجتمع الأكاديمي إلى الاستثمار في معايير خاصة غير ملوثة، مثل GDPVal (مهام صاغها خبراء بالمجال مع تقييم شامل).

🔗 مقالة OpenAI


OpenAI: gpt-realtime-1.5 وWebSockets في Responses API

gpt-realtime-1.5 في Realtime API

23 فبراير — تعلن OpenAI عن توفر gpt-realtime-1.5 في Realtime API. هذا النموذج الصوتي الجديد يحل محل النسخة السابقة ويجلب تحسينات لتطبيقات المحادثة في الوقت الحقيقي.

gpt-realtime-1.5 يقدم متابعة أفضل للتعليمات، استخدامًا أكثر موثوقية للأدوات، ودقة محسّنة متعددة اللغات. قياس شركاء مثل Genspark خلال مرحلة الألفا أظهر نتائج ملموسة: ارتفاع نسبة الاتصال البشري من 43.7% إلى 66%، ومعدل دقة 97.9% في المحادثات المقيمة. النموذج متاح مباشرة في Realtime API الحالية دون تغيير في البنية التحتية.

🔗 تغريدة @OpenAIDevs

WebSockets في Responses API

23 فبراير — تقدم OpenAI دعم WebSockets في Responses API، مصممًا للوكالات التي تعمل لمدة طويلة وتحتاج استدعاءات مكثفة للأدوات.

اتصال WebSocket مستمر يتيح إرسال المدخلات الجديدة فقط في كل دورة، دون إعادة إرسال كامل السياق في كل طلب. يُحتفظ بالحالة في الذاكرة بين التفاعلات، مما يجنّب الحسابات المتكررة غير الضرورية. بحسب OpenAI، هذه المقاربة تسرع تشغيلات الوكالات التي تتضمن 20 استدعاء أداة أو أكثر بنسبة 20 إلى 40%.

🔗 تغريدة @OpenAIDevs — إعلان


Anthropic: مؤشر الطلاقة في استخدام الذكاء الاصطناعي

23 فبراير — تنشر Anthropic “The AI Fluency Index”، تقريرًا بحثيًا يقيس إتقان المستخدمين لـ Claude عبر تحليل سلوكياتهم الفعلية.

تابع البحث 11 سلوكًا مميزًا عبر آلاف المحادثات على Claude.ai — على سبيل المثال، عدد المرات التي يكرر فيها المستخدمون ويصقلون عملهم مع Claude — لقياس كيف يطوّر الناس مهارة فعّالة في استخدام الذكاء الاصطناعي بالممارسة. يندرج التقرير في إطار التعليم وفهم تبنّي الذكاء الاصطناعي، بعيدًا عن مقاييس الاستخدام البسيطة.

“We tracked 11 behaviors across thousands of Claude.ai conversations—for example, how often people iterate and refine their work with Claude—to measure how people actually develop AI skill in practice.”

🇸🇦 تتبعنا 11 سلوكًا عبر آلاف محادثات على Claude.ai — على سبيل المثال، مدى تكرار الأشخاص وصقلهم لعملهم مع Claude — لقياس كيف يطوّر الناس فعليًا مهارة في استخدام الذكاء الاصطناعي بالممارسة.@AnthropicAI على X

🔗 مؤشر الطلاقة في الذكاء الاصطناعي


Gemini: قوالب Veo 3.1 جديدة لصنع الفيديو

23 فبراير — تطلق Google قوالب جديدة لـ Veo 3.1 في تطبيق Gemini، مما يبسط صناعة الفيديو بالذكاء الاصطناعي لجميع المستخدمين.

للوصول إليها: افتح gemini.google أو التطبيق المحمول، ثم اختر “Create videos” في قائمة الأدوات. ستظهر معرض القوالب، ويمكن تخصيص كل قالب بصورة مرجعية و/أو وصف نصي.

يأتي هذا الإعلان ضمن أسبوع حافل لمنظومة Gemini: في 19 فبراير أصدرت Google Gemini 3.1 Pro مع درجة 77.1% على ARC-AGI-2، وفي 18 فبراير قدمت Lyria 3 إنتاج الموسيقى داخل التطبيق مباشرة. تكمل قوالب Veo 3.1 هذا التوسع نحو الإبداع متعدد الوسائط داخل تطبيق واحد.

🔗 إعلان @GeminiApp


Pika AI Selves: سلسلة وثائقية أخرجتها وكلّتها وكلّتها وكلّتها وكلّتها وكلّتها آليًا بواسطة وكلاء الذكاء الاصطناعي

23 فبراير — تعلن Pika أن “AI Selves” — امتدادات ذكاء اصطناعي للشخصية والمهارات لمُبدع — قامت بإخراج وتحرير سلسلة وثائقية بشكل مستقل عن البشر، حول تعاونها مع البشر في Pika.

مفهوم “AI Self” من Pika يختلف عن الوكلاء التقلييين: بدل أن يكون أداة تنفذ مهامًا، يكون “AI Self” امتدادًا يجسّد مهارات وشخصية وذوق جمالي لمُبدع محدد. تأتي الديمو على شكل سلسلة وثائقية أُنتجت بالكامل بواسطة هذه الكيانات الذكية دون تدخل بشري في المونتاج والإخراج.

🔗 إعلان @pika_labs


ماذا يعني هذا

قضية التقطير التي كشفت عنها Anthropic تتجاوز مجرد انتهاك لشروط الاستخدام: فهي توثق لأول مرة وعلى نطاق واسع كيف يستخرج المختبرات المنافسة قدرات نموذج frontier بشكل ممنهج. تعقيد عملية MiniMax — إعادة توجيه الترافيك خلال 24 ساعة إلى نموذج جديد، بنية “hydra” التي تدير 20,000 حساب — يوحي بمراقبة مستمرة وآلية. نداؤ Anthropic لتنسيق استجابة الصناعة وصناع القرار، مع ضوابط تصدير على الشرائح، يرسم جبهة جديدة في المنافسة بين مختبرات الذكاء الاصطناعي.

قرار OpenAI بالتخلي عن SWE-bench Verified يشكل إشارة هيكلية لصناعة بأكملها: معايير الترميز العامة باتت الآن ملوثة ببيانات تدريب من أقوى النماذج. التوصية بالانتقال إلى SWE-bench Pro ومعايير خاصة مثل GDPVal تعني إعادة تشكيل لمعايير التقييم — ما يجعل المقارنات العامة بين النماذج أكثر صعوبة في التفسير.

على صعيد الأدوات، الإعلانان من OpenAI (gpt-realtime-1.5 وWebSockets) يوجهان حالات استخدام عملية: الوكلاء الصوتيون في الإنتاج وتشغيلات الوكلاء الطويلة التي تتضمن استدعاءات أدوات عديدة. تحسّن 20–40% باستخدام WebSockets ليس هامشيًا لعمليات تتضمن 50 أو 100 استدعاء أداة في الجلسة.


المصادر

تمت ترجمة هذا المستند من النسخة الفرنسية إلى اللغة العربية باستخدام نموذج gpt-5-mini. لمزيد من المعلومات حول عملية الترجمة، راجع https://gitlab.com/jls42/ai-powered-markdown-translator