Anthropic ने आज एक रिपोर्ट प्रकाशित की है जिसमें तीन चीनी लैब — DeepSeek, Moonshot AI और MiniMax — द्वारा बड़े पैमाने पर की गई औद्योगिक डिस्टिलेशन अभियानों का विवरण दिया गया है। इन लैबों ने Claude के साथ 24,000 धोखाधड़ी वाले खातों के माध्यम से 16 मिलियन से अधिक इंटरैक्शन एकत्र किए। दूसरी ओर OpenAI ने अपने फ़्रंटियर मॉडलों के लिए संदर्भ के रूप में SWE-bench Verified को छोड़ने की घोषणा की, यह साबित होने के बाद कि बेंचमार्क के 59.4% परीक्षण दोषपूर्ण हैं और कई शीर्ष मॉडलों ने प्रशिक्षण के दौरान संदर्भ सुधारों को मेमोराइज़ कर लिया है। टूल्स की ओर, gpt-realtime-1.5 Realtime API वॉयस के लिए सुधार लाता है, Responses API में WebSockets आते हैं ताकि लॉन्ग-रन एजेंट्स बेहतर काम कर सकें, और Gemini वीडियो क्रिएशन के लिए नए Veo 3.1 टेम्पलेट जारी कर रहा है।
Anthropic : तीन चीनी लैब द्वारा औद्योगिक डिस्टिलेशन हमले
23 फ़रवरी — Anthropic ने एक रिपोर्ट प्रकाशित की जिसमें बताया गया कि DeepSeek, Moonshot AI (Kimi) और MiniMax ने Claude के खिलाफ अवैध बड़े पैमाने पर डिस्टिलेशन अभियानों का संचालन किया।
क्या हुआ
इन तीनों लैबों ने Claude के साथ API के माध्यम से 16 मिलियन से अधिक इंटरैक्शन उत्पन्न करने के लिए लगभग 24,000 धोखाधड़ी वाले खाते बनाए, जो Anthropic की उपयोग की शर्तों और क्षेत्रीय एक्सेस प्रतिबंधों का उल्लंघन है — चीन को वाणिज्यिक रूप से Claude का एक्सेस नहीं है।
उपयोग की गई तकनीक, मॉडल डिस्टिलेशन, वह प्रक्रिया है जिसमें एक कम-सक्षम मॉडल को अधिक सक्षम मॉडल के आउटपुट पर प्रशिक्षित किया जाता है। आंतरिक रूप से उपयोग करने पर यह वैध है, लेकिन प्रतिस्पर्धियों द्वारा बिना अनुमति किसी दूसरे लैब की क्षमताओं को निकालने पर यह अवैध बन जाता है।
प्रति लैब वॉल्यूम
| Lab | Volume d’échanges | Cibles principales |
|---|---|---|
| DeepSeek | +150 000 échanges | Raisonnement, grading de rubrique, alternatives censorship-safe |
| Moonshot AI (Kimi) | +3,4 millions d’échanges | Raisonnement agentique, coding, computer use, vision |
| MiniMax | +13 millions d’échanges | Coding agentique, tool use, orchestration |
उल्लेखनीय तकनीकें
DeepSeek अभियान अपने prompts के लिए अलग है जो Claude से उसका आंतरिक तर्क चरण-दर-चरण बताने के लिए कहते थे — इस तरह बड़े पैमाने पर chain-of-thought प्रकार के प्रशिक्षण डेटा उत्पन्न होते थे। Anthropic ने ऐसे काम भी पाए जिनका उद्देश्य DeepSeek को राजनीतिक रूप से संवेदनशील प्रश्नों के लिए विकल्प सुझाने के लिए प्रशिक्षित करना था।
Anthropic ने MiniMax अभियान को सक्रिय अवस्था में पकड़ लिया। जब Anthropic ने एक नया मॉडल जारी किया, MiniMax ने 24 घंटों के भीतर अपने ट्रैफिक का लगभग आधा भाग नए सिस्टम की ओर मोड़ दिया — यह Anthropic के आउटपुट की स्वचालित निगरानी को दर्शाता है।
उपयुक्त इंफ्रास्ट्रक्चर “hydra cluster” आर्किटेक्चर पर टिका था: API पर ट्रैफिक वितरित करने वाले धोखाधड़ी वाले खातों के नेटवर्क और तृतीय-पक्ष क्लाउड प्लेटफ़ॉर्म। एक ही प्रॉक्सी नेटवर्क एक समय में 20,000 से अधिक खातों को संभाल रहा था।
Anthropic की प्रतिक्रिया
Anthropic कई मुकाबला-उपाय लागू कर रहा है: डिस्टिलेशन पैटर्न का पता लगाने के लिए क्लासिफायर्स और व्यवहारिक फिंगरप्रिंटिंग सिस्टम; तकनीकी डेटा का अन्य लैबों, क्लाउड प्रोवाइडरों और अधिकारियों के साथ साझा करना; शैक्षिक और रिसर्च अकाउंट्स के लिए सत्यापन सख्त करना; और उत्पाद, API और मॉडल स्तर पर काउंटर-मीज़र विकसित करना।
“These labs created over 24,000 fraudulent accounts and generated over 16 million exchanges with Claude, extracting its capabilities to train and improve their own models.”
🇮🇳 इन लैबों ने 24,000 से अधिक धोखाधड़ी वाले खाते बनाए और Claude के साथ 16 मिलियन से अधिक इंटरैक्शन उत्पन्न किए, उसकी क्षमताओं को निकालकर अपने स्वयं के मॉडलों को प्रशिक्षित और बेहतर करने के लिए। — @AnthropicAI X पर
🔗 Anthropic रिपोर्ट 🔗 घोषणा @AnthropicAI
OpenAI SWE-bench Verified छोड़ता है: 59.4% दोषपूर्ण परीक्षण
23 फ़रवरी — OpenAI ने एक विश्लेषण प्रकाशित किया जिसमें कंपनी ने बताया कि वह अब SWE-bench Verified स्कोर रिपोर्ट नहीं करेगी और उद्योग से भी ऐसा करने के लिए कहती है।
प्रसंग
अगस्त 2024 में इसके निर्माण के बाद से, SWE-bench Verified सॉफ्टवेयर विकास स्वायत्तता पर मॉडल प्रगति मापने का मानक बन गया था। एक साल में 0% से 75% तक तेजी के बाद, पिछले छह महीनों में स्कोर 74.9% और 80.9% के बीच अटका रहे। OpenAI ने यह समझने के लिए गहन ऑडिट किया कि क्या यह थकावट मॉडलों की सीमा दर्शाती है या स्वयं बेंचमार्क की खामियाँ हैं।
ऑडिट के परिणाम: दो मुख्य समस्याएँ
138 समस्याओं के एक उपसमूह (डेटासेट का 27.6%) पर किए गए ऑडिट में, कम से कम 59.4% में ऐसे टेस्ट पाए गए जो कार्यात्मक रूप से सही सॉल्यूशंस को अस्वीकार करते हैं। दोषों का विभाजन:
| प्रकार की त्रुटि | दोषपूर्ण मामलों का हिस्सा |
|---|---|
| इम्प्लीमेंटेशन के विवरण पर बहुत कड़े परीक्षण | 35.5 % |
| कथन में निर्दिष्ट न की गई कार्यक्षमताओं के परीक्षण | 18.8 % |
| अन्य त्रुटियाँ (flaky tests, अस्पष्ट specs) | 5.1 % |
दूसरी समस्या है ट्रेनिंग डेटा का संदूषण: SWE-bench की समस्याएँ व्यापक रूप से उपयोग किए जाने वाले ओपन सोर्स रिपॉज़िटरी से आती हैं। एक स्वचालित रेड-टीमिंग पाइपलाइन के माध्यम से, OpenAI ने प्रदर्शित किया कि GPT-5.2, Claude Opus 4.5 और Gemini 3 Flash Preview कुछ समस्याओं के लिए संदर्भ सुधारों (gold patches) को शब्द-ब-शब्द पुनरुत्पन्न कर सकते हैं — यह साबित करता है कि ये उदाहरण प्रशिक्षण के दौरान देखे गए थे।
सिफ़ारिशें
OpenAI ने SWE-bench Verified स्कोर रिपोर्ट करना बंद कर दिया है और इसके स्थान पर SWE-bench Pro का उपयोग करने की सिफारिश कर रहा है — इसका public split संदूषण काफी कम दिखाता है। कंपनी अकादमिक समुदाय से निवेदन करती है कि वे संदूषण-मुक्त निजी बेंचमार्कों में निवेश करें, जैसे GDPVal (डोमेन विशेषज्ञों द्वारा लिखित कार्य और होलिस्टिक अंकन)।
OpenAI : gpt-realtime-1.5 और Responses API में WebSockets
gpt-realtime-1.5 Realtime API में
23 फ़रवरी — OpenAI ने Realtime API में gpt-realtime-1.5 की उपलब्धता की घोषणा की। यह नया वॉयस मॉडल पिछले संस्करण को बदलता है और रीयल-टाइम वॉइस संवाद वाले एप्लिकेशनों के लिए सुधार लाता है।
gpt-realtime-1.5 बेहतर निर्देश-अनुसरण, टूल-उपयोग में अधिक विश्वसनीयता, और बहुभाषी सटीकता में सुधार देता है। Genspark जैसे भागीदारों ने अल्फा चरण में ठोस परिणाम दर्ज किए: मानव कनेक्शन दर 43.7% से बढ़कर 66% हुई, और मूल्यांकित वार्तालापों पर सटीकता दर 97.9% रही। मॉडल मौजूदा Realtime API में सीधे उपलब्ध है बिना किसी इंफ्रास्ट्रक्चर बदलाव के।
Responses API में WebSockets
23 फ़रवरी — OpenAI ने Responses API में WebSockets का समर्थन जोड़ा, जिसे लंबे समय तक चलने वाले एजेंट्स के लिए और तीव्र टूल कॉल्स वाले उपयोग-मामलों के लिए सोचा गया है।
एक स्थायी WebSocket कनेक्शन प्रत्येक टूर पर केवल नए इनपुट भेजने की अनुमति देता है, बिना प्रत्येक अनुरोध पर संपूर्ण संदर्भ को पुनःप्रेषित किए। इंटरैक्शनों के बीच राज्य मेमोरी में रखा जाता है, जिससे अनावश्यक पुन: गणनाएँ बचती हैं। OpenAI के अनुसार, यह दृष्टिकोण 20 या अधिक टूल कॉल्स वाले एजेंटिक रन पर 20 से 40% तक की तेज़ी लाता है।
Anthropic : The AI Fluency Index
23 फ़रवरी — Anthropic ने “The AI Fluency Index” नामक एक शोध रिपोर्ट प्रकाशित की, जो Claude उपयोगकर्ताओं के वास्तविक व्यवहारों का विश्लेषण करके AI में उनकी निपुणता को मापती है।
अध्ययन ने Claude.ai पर हजारों वार्तालापों में 11 अलग-अलग व्यवहारों का पालन किया — उदाहरण के लिए, उपयोगकर्ता कितनी बार अपना काम Claude के साथ पुनरावृत्ति और परिष्कृत करते हैं — ताकि यह नापा जा सके कि लोग व्यावहारिक रूप से AI के साथ वास्तव में कैसे दक्षता विकसित करते हैं। रिपोर्ट शिक्षा और AI अपनाने की समझ बढ़ाने के प्रयास का हिस्सा है, केवल उपयोग मीट्रिक से परे।
“We tracked 11 behaviors across thousands of Claude.ai conversations—for example, how often people iterate and refine their work with Claude—to measure how people actually develop AI skill in practice.”
🇮🇳 हमने Claude.ai पर हजारों बातचीत में 11 व्यवहारों का पालन किया — उदाहरण के लिए, लोग कितनी बार अपना काम Claude के साथ पुनरावृत्ति और परिष्कृत करते हैं — ताकि यह मापा जा सके कि लोग अभ्यास में वास्तव में एआई में कैसे कौशल विकसित करते हैं। — @AnthropicAI X पर
Gemini : Veo 3.1 के नए टेम्पलेट्स वीडियो निर्माण के लिए
23 फ़रवरी — Google ने Gemini ऐप में Veo 3.1 के नए टेम्पलेट्स जारी किए, जो AI के माध्यम से वीडियो निर्माण को सभी उपयोगकर्ताओं के लिए सरल बनाते हैं।
पहुँचने के लिए: gemini.google खोलें या मोबाइल ऐप में जाएँ, फिर टूल मेनू में “वीडियो बनाएं” चुनें। टेम्पलेट्स की गैलरी दिखाई देगी, और प्रत्येक टेम्पलेट को एक संदर्भ फ़ोटो और/या टेक्स्ट विवरण के साथ व्यक्तिगत बनाया जा सकता है।
यह घोषणा Gemini इकोसिस्टम के लिए एक व्यस्त सप्ताह का हिस्सा है: 19 फ़रवरी को Google ने Gemini 3.1 Pro लॉन्च किया था जिसका ARC-AGI-2 पर स्कोर 77.1% था, और 18 फ़रवरी को Lyria 3 ने ऐप में सीधे म्यूजिक जनरेशन पेश किया था। Veo 3.1 के टेम्पलेट्स मल्टीमॉडल क्रिएशन की इस विस्तारित दिशा को एक ही ऐप में जोड़ते हैं।
Pika AI Selves : एजेंट AI द्वारा स्वायत्त रूप से निर्मित डॉक्यूमेंट्री सीरीज़
23 फ़रवरी — Pika ने घोषणा की कि उसके “AI Selves” — एक क्रिएटर की व्यक्तित्व और कौशल के AI एक्सटेंशन — ने अपने सहयोग पर आधारित एक डॉक्यूमेंट्री सीरीज़ को स्वायत्त रूप से निर्देशित और संपादित किया है।
Pika का “AI Self” कॉन्सेप्ट पारंपरिक एजेंट AI से अलग है: एक टूल चलाने के बजाय, एक “AI Self” एक क्रिएटर की क्षमताओं, व्यक्तित्व और सौंदर्यतत्ता को समाहित करने वाला एक्सटेंशन माना जाता है। प्रदर्शन के रूप में ये AI संस्थाएँ पूरी तरह से स्वायत्त डॉक्यूमेंट्री सीरीज़ बनाती हैं, जिसमें संपादन और निर्देश दोनों में मानव हस्तक्षेप नहीं हुआ।
इसका क्या मतलब है
Anthropic द्वारा उजागर डिस्टिलेशन मामला केवल उपयोग की शर्तों के उल्लंघन से आगे जाता है: यह पहली बार बड़े पैमाने पर दस्तावेज़ करता है कि प्रतिस्पर्धी लैबें कैसे सिस्टमेटिक रूप से एक फ़्रंटियर मॉडल की क्षमताओं को निकाल रही हैं। MiniMax ऑपरेशन की परिष्क्रति — 24 घंटों में ट्रैफिक रीडायरेक्शन, 20,000 खातों वाला “hydra” इंफ्रास्ट्रक्चर — सतत और स्वचालित निगरानी का संकेत देती है। Anthropic की उद्योग और नीति-निर्माताओं से समन्वित प्रतिक्रिया की माँग, चिप्स पर एक्सपोर्ट नियंत्रणों के साथ मिलकर, AI लैबों के बीच प्रतिस्पर्धा का एक नया मोर्चा रेखांकित करती है।
OpenAI का SWE-bench Verified को छोड़ने का निर्णय उद्योग के लिए एक संरचनात्मक संकेत है: सार्वजनिक कोडिंग बेंचमार्क अब शीर्ष मॉडलों के प्रशिक्षण डेटा से संदूषित हो गए हैं। SWE-bench Pro और GDPVal जैसे निजी बेंचमार्क की ओर सिफारिश मूल्यांकन मानकों की पुनर्रचना की ओर इशारा करती है — जिससे सार्वजनिक रूप से मॉडलों की तुलना और भी कठिन हो जाएगी।
टूल्स की ओर, OpenAI की दोनों घोषणाएँ (gpt-realtime-1.5 और WebSockets) व्यावहारिक उपयोग-मामलों को लक्षित करती हैं: प्रोडक्शन-वॉइस एजेंट्स और कई टूल कॉल्स वाले लंबे एजेंटिक रन। Responses API में WebSockets के 20–40% तक के लाभ उन वर्कफ़्लो के लिए महत्वपूर्ण हैं जो प्रति सत्र 50 या 100 कॉल्स भी करते हैं।
स्रोत
- Anthropic रिपोर्ट — Detecting and Preventing Distillation Attacks
- घोषणा @AnthropicAI — distillation
- OpenAI — Why We No Longer Evaluate SWE-bench Verified
- घोषणा @OpenAIDevs — gpt-realtime-1.5
- घोषणा @OpenAIDevs — WebSockets Responses API
- Anthropic — The AI Fluency Index
- घोषणा @AnthropicAI — AI Fluency Index
- घोषणा @GeminiApp — templates Veo 3.1
- घोषणा @pika_labs — AI Selves
यह दस्तावेज़ fr संस्करण से hi भाषा में gpt-5-mini मॉडल का उपयोग करके अनुवादित किया गया है। अनुवाद प्रक्रिया के बारे में अधिक जानकारी के लिए, देखें https://gitlab.com/jls42/ai-powered-markdown-translator