खोजें

Anthropic ने औद्योगिक डिस्टिलेशन हमलों का खुलासा किया, OpenAI ने SWE-bench Verified छोड़ दिया, gpt-realtime-1.5

Anthropic ने औद्योगिक डिस्टिलेशन हमलों का खुलासा किया, OpenAI ने SWE-bench Verified छोड़ दिया, gpt-realtime-1.5

Anthropic ने आज एक रिपोर्ट प्रकाशित की है जिसमें तीन चीनी लैब — DeepSeek, Moonshot AI और MiniMax — द्वारा बड़े पैमाने पर की गई औद्योगिक डिस्टिलेशन अभियानों का विवरण दिया गया है। इन लैबों ने Claude के साथ 24,000 धोखाधड़ी वाले खातों के माध्यम से 16 मिलियन से अधिक इंटरैक्शन एकत्र किए। दूसरी ओर OpenAI ने अपने फ़्रंटियर मॉडलों के लिए संदर्भ के रूप में SWE-bench Verified को छोड़ने की घोषणा की, यह साबित होने के बाद कि बेंचमार्क के 59.4% परीक्षण दोषपूर्ण हैं और कई शीर्ष मॉडलों ने प्रशिक्षण के दौरान संदर्भ सुधारों को मेमोराइज़ कर लिया है। टूल्स की ओर, gpt-realtime-1.5 Realtime API वॉयस के लिए सुधार लाता है, Responses API में WebSockets आते हैं ताकि लॉन्ग-रन एजेंट्स बेहतर काम कर सकें, और Gemini वीडियो क्रिएशन के लिए नए Veo 3.1 टेम्पलेट जारी कर रहा है।


Anthropic : तीन चीनी लैब द्वारा औद्योगिक डिस्टिलेशन हमले

23 फ़रवरी — Anthropic ने एक रिपोर्ट प्रकाशित की जिसमें बताया गया कि DeepSeek, Moonshot AI (Kimi) और MiniMax ने Claude के खिलाफ अवैध बड़े पैमाने पर डिस्टिलेशन अभियानों का संचालन किया।

क्या हुआ

इन तीनों लैबों ने Claude के साथ API के माध्यम से 16 मिलियन से अधिक इंटरैक्शन उत्पन्न करने के लिए लगभग 24,000 धोखाधड़ी वाले खाते बनाए, जो Anthropic की उपयोग की शर्तों और क्षेत्रीय एक्सेस प्रतिबंधों का उल्लंघन है — चीन को वाणिज्यिक रूप से Claude का एक्सेस नहीं है।

उपयोग की गई तकनीक, मॉडल डिस्टिलेशन, वह प्रक्रिया है जिसमें एक कम-सक्षम मॉडल को अधिक सक्षम मॉडल के आउटपुट पर प्रशिक्षित किया जाता है। आंतरिक रूप से उपयोग करने पर यह वैध है, लेकिन प्रतिस्पर्धियों द्वारा बिना अनुमति किसी दूसरे लैब की क्षमताओं को निकालने पर यह अवैध बन जाता है।

प्रति लैब वॉल्यूम

LabVolume d’échangesCibles principales
DeepSeek+150 000 échangesRaisonnement, grading de rubrique, alternatives censorship-safe
Moonshot AI (Kimi)+3,4 millions d’échangesRaisonnement agentique, coding, computer use, vision
MiniMax+13 millions d’échangesCoding agentique, tool use, orchestration

उल्लेखनीय तकनीकें

DeepSeek अभियान अपने prompts के लिए अलग है जो Claude से उसका आंतरिक तर्क चरण-दर-चरण बताने के लिए कहते थे — इस तरह बड़े पैमाने पर chain-of-thought प्रकार के प्रशिक्षण डेटा उत्पन्न होते थे। Anthropic ने ऐसे काम भी पाए जिनका उद्देश्य DeepSeek को राजनीतिक रूप से संवेदनशील प्रश्नों के लिए विकल्प सुझाने के लिए प्रशिक्षित करना था।

Anthropic ने MiniMax अभियान को सक्रिय अवस्था में पकड़ लिया। जब Anthropic ने एक नया मॉडल जारी किया, MiniMax ने 24 घंटों के भीतर अपने ट्रैफिक का लगभग आधा भाग नए सिस्टम की ओर मोड़ दिया — यह Anthropic के आउटपुट की स्वचालित निगरानी को दर्शाता है।

उपयुक्त इंफ्रास्ट्रक्चर “hydra cluster” आर्किटेक्चर पर टिका था: API पर ट्रैफिक वितरित करने वाले धोखाधड़ी वाले खातों के नेटवर्क और तृतीय-पक्ष क्लाउड प्लेटफ़ॉर्म। एक ही प्रॉक्सी नेटवर्क एक समय में 20,000 से अधिक खातों को संभाल रहा था।

Anthropic की प्रतिक्रिया

Anthropic कई मुकाबला-उपाय लागू कर रहा है: डिस्टिलेशन पैटर्न का पता लगाने के लिए क्लासिफायर्स और व्यवहारिक फिंगरप्रिंटिंग सिस्टम; तकनीकी डेटा का अन्य लैबों, क्लाउड प्रोवाइडरों और अधिकारियों के साथ साझा करना; शैक्षिक और रिसर्च अकाउंट्स के लिए सत्यापन सख्त करना; और उत्पाद, API और मॉडल स्तर पर काउंटर-मीज़र विकसित करना।

“These labs created over 24,000 fraudulent accounts and generated over 16 million exchanges with Claude, extracting its capabilities to train and improve their own models.”

🇮🇳 इन लैबों ने 24,000 से अधिक धोखाधड़ी वाले खाते बनाए और Claude के साथ 16 मिलियन से अधिक इंटरैक्शन उत्पन्न किए, उसकी क्षमताओं को निकालकर अपने स्वयं के मॉडलों को प्रशिक्षित और बेहतर करने के लिए।@AnthropicAI X पर

🔗 Anthropic रिपोर्ट 🔗 घोषणा @AnthropicAI


OpenAI SWE-bench Verified छोड़ता है: 59.4% दोषपूर्ण परीक्षण

23 फ़रवरी — OpenAI ने एक विश्लेषण प्रकाशित किया जिसमें कंपनी ने बताया कि वह अब SWE-bench Verified स्कोर रिपोर्ट नहीं करेगी और उद्योग से भी ऐसा करने के लिए कहती है।

प्रसंग

अगस्त 2024 में इसके निर्माण के बाद से, SWE-bench Verified सॉफ्टवेयर विकास स्वायत्तता पर मॉडल प्रगति मापने का मानक बन गया था। एक साल में 0% से 75% तक तेजी के बाद, पिछले छह महीनों में स्कोर 74.9% और 80.9% के बीच अटका रहे। OpenAI ने यह समझने के लिए गहन ऑडिट किया कि क्या यह थकावट मॉडलों की सीमा दर्शाती है या स्वयं बेंचमार्क की खामियाँ हैं।

ऑडिट के परिणाम: दो मुख्य समस्याएँ

138 समस्याओं के एक उपसमूह (डेटासेट का 27.6%) पर किए गए ऑडिट में, कम से कम 59.4% में ऐसे टेस्ट पाए गए जो कार्यात्मक रूप से सही सॉल्यूशंस को अस्वीकार करते हैं। दोषों का विभाजन:

प्रकार की त्रुटिदोषपूर्ण मामलों का हिस्सा
इम्प्लीमेंटेशन के विवरण पर बहुत कड़े परीक्षण35.5 %
कथन में निर्दिष्ट न की गई कार्यक्षमताओं के परीक्षण18.8 %
अन्य त्रुटियाँ (flaky tests, अस्पष्ट specs)5.1 %

दूसरी समस्या है ट्रेनिंग डेटा का संदूषण: SWE-bench की समस्याएँ व्यापक रूप से उपयोग किए जाने वाले ओपन सोर्स रिपॉज़िटरी से आती हैं। एक स्वचालित रेड-टीमिंग पाइपलाइन के माध्यम से, OpenAI ने प्रदर्शित किया कि GPT-5.2, Claude Opus 4.5 और Gemini 3 Flash Preview कुछ समस्याओं के लिए संदर्भ सुधारों (gold patches) को शब्द-ब-शब्द पुनरुत्पन्न कर सकते हैं — यह साबित करता है कि ये उदाहरण प्रशिक्षण के दौरान देखे गए थे।

सिफ़ारिशें

OpenAI ने SWE-bench Verified स्कोर रिपोर्ट करना बंद कर दिया है और इसके स्थान पर SWE-bench Pro का उपयोग करने की सिफारिश कर रहा है — इसका public split संदूषण काफी कम दिखाता है। कंपनी अकादमिक समुदाय से निवेदन करती है कि वे संदूषण-मुक्त निजी बेंचमार्कों में निवेश करें, जैसे GDPVal (डोमेन विशेषज्ञों द्वारा लिखित कार्य और होलिस्टिक अंकन)।

🔗 OpenAI लेख


OpenAI : gpt-realtime-1.5 और Responses API में WebSockets

gpt-realtime-1.5 Realtime API में

23 फ़रवरी — OpenAI ने Realtime API में gpt-realtime-1.5 की उपलब्धता की घोषणा की। यह नया वॉयस मॉडल पिछले संस्करण को बदलता है और रीयल-टाइम वॉइस संवाद वाले एप्लिकेशनों के लिए सुधार लाता है।

gpt-realtime-1.5 बेहतर निर्देश-अनुसरण, टूल-उपयोग में अधिक विश्वसनीयता, और बहुभाषी सटीकता में सुधार देता है। Genspark जैसे भागीदारों ने अल्फा चरण में ठोस परिणाम दर्ज किए: मानव कनेक्शन दर 43.7% से बढ़कर 66% हुई, और मूल्यांकित वार्तालापों पर सटीकता दर 97.9% रही। मॉडल मौजूदा Realtime API में सीधे उपलब्ध है बिना किसी इंफ्रास्ट्रक्चर बदलाव के।

🔗 ट्वीट @OpenAIDevs

Responses API में WebSockets

23 फ़रवरी — OpenAI ने Responses API में WebSockets का समर्थन जोड़ा, जिसे लंबे समय तक चलने वाले एजेंट्स के लिए और तीव्र टूल कॉल्स वाले उपयोग-मामलों के लिए सोचा गया है।

एक स्थायी WebSocket कनेक्शन प्रत्येक टूर पर केवल नए इनपुट भेजने की अनुमति देता है, बिना प्रत्येक अनुरोध पर संपूर्ण संदर्भ को पुनःप्रेषित किए। इंटरैक्शनों के बीच राज्य मेमोरी में रखा जाता है, जिससे अनावश्यक पुन: गणनाएँ बचती हैं। OpenAI के अनुसार, यह दृष्टिकोण 20 या अधिक टूल कॉल्स वाले एजेंटिक रन पर 20 से 40% तक की तेज़ी लाता है।

🔗 ट्वीट @OpenAIDevs — घोषणा


Anthropic : The AI Fluency Index

23 फ़रवरी — Anthropic ने “The AI Fluency Index” नामक एक शोध रिपोर्ट प्रकाशित की, जो Claude उपयोगकर्ताओं के वास्तविक व्यवहारों का विश्लेषण करके AI में उनकी निपुणता को मापती है।

अध्ययन ने Claude.ai पर हजारों वार्तालापों में 11 अलग-अलग व्यवहारों का पालन किया — उदाहरण के लिए, उपयोगकर्ता कितनी बार अपना काम Claude के साथ पुनरावृत्ति और परिष्कृत करते हैं — ताकि यह नापा जा सके कि लोग व्यावहारिक रूप से AI के साथ वास्तव में कैसे दक्षता विकसित करते हैं। रिपोर्ट शिक्षा और AI अपनाने की समझ बढ़ाने के प्रयास का हिस्सा है, केवल उपयोग मीट्रिक से परे।

“We tracked 11 behaviors across thousands of Claude.ai conversations—for example, how often people iterate and refine their work with Claude—to measure how people actually develop AI skill in practice.”

🇮🇳 हमने Claude.ai पर हजारों बातचीत में 11 व्यवहारों का पालन किया — उदाहरण के लिए, लोग कितनी बार अपना काम Claude के साथ पुनरावृत्ति और परिष्कृत करते हैं — ताकि यह मापा जा सके कि लोग अभ्यास में वास्तव में एआई में कैसे कौशल विकसित करते हैं।@AnthropicAI X पर

🔗 AI Fluency Index


Gemini : Veo 3.1 के नए टेम्पलेट्स वीडियो निर्माण के लिए

23 फ़रवरी — Google ने Gemini ऐप में Veo 3.1 के नए टेम्पलेट्स जारी किए, जो AI के माध्यम से वीडियो निर्माण को सभी उपयोगकर्ताओं के लिए सरल बनाते हैं।

पहुँचने के लिए: gemini.google खोलें या मोबाइल ऐप में जाएँ, फिर टूल मेनू में “वीडियो बनाएं” चुनें। टेम्पलेट्स की गैलरी दिखाई देगी, और प्रत्येक टेम्पलेट को एक संदर्भ फ़ोटो और/या टेक्स्ट विवरण के साथ व्यक्तिगत बनाया जा सकता है।

यह घोषणा Gemini इकोसिस्टम के लिए एक व्यस्त सप्ताह का हिस्सा है: 19 फ़रवरी को Google ने Gemini 3.1 Pro लॉन्च किया था जिसका ARC-AGI-2 पर स्कोर 77.1% था, और 18 फ़रवरी को Lyria 3 ने ऐप में सीधे म्यूजिक जनरेशन पेश किया था। Veo 3.1 के टेम्पलेट्स मल्टीमॉडल क्रिएशन की इस विस्तारित दिशा को एक ही ऐप में जोड़ते हैं।

🔗 घोषणा @GeminiApp


Pika AI Selves : एजेंट AI द्वारा स्वायत्त रूप से निर्मित डॉक्यूमेंट्री सीरीज़

23 फ़रवरी — Pika ने घोषणा की कि उसके “AI Selves” — एक क्रिएटर की व्यक्तित्व और कौशल के AI एक्सटेंशन — ने अपने सहयोग पर आधारित एक डॉक्यूमेंट्री सीरीज़ को स्वायत्त रूप से निर्देशित और संपादित किया है।

Pika का “AI Self” कॉन्सेप्ट पारंपरिक एजेंट AI से अलग है: एक टूल चलाने के बजाय, एक “AI Self” एक क्रिएटर की क्षमताओं, व्यक्तित्व और सौंदर्यतत्ता को समाहित करने वाला एक्सटेंशन माना जाता है। प्रदर्शन के रूप में ये AI संस्थाएँ पूरी तरह से स्वायत्त डॉक्यूमेंट्री सीरीज़ बनाती हैं, जिसमें संपादन और निर्देश दोनों में मानव हस्तक्षेप नहीं हुआ।

🔗 घोषणा @pika_labs


इसका क्या मतलब है

Anthropic द्वारा उजागर डिस्टिलेशन मामला केवल उपयोग की शर्तों के उल्लंघन से आगे जाता है: यह पहली बार बड़े पैमाने पर दस्तावेज़ करता है कि प्रतिस्पर्धी लैबें कैसे सिस्टमेटिक रूप से एक फ़्रंटियर मॉडल की क्षमताओं को निकाल रही हैं। MiniMax ऑपरेशन की परिष्क्रति — 24 घंटों में ट्रैफिक रीडायरेक्शन, 20,000 खातों वाला “hydra” इंफ्रास्ट्रक्चर — सतत और स्वचालित निगरानी का संकेत देती है। Anthropic की उद्योग और नीति-निर्माताओं से समन्वित प्रतिक्रिया की माँग, चिप्स पर एक्सपोर्ट नियंत्रणों के साथ मिलकर, AI लैबों के बीच प्रतिस्पर्धा का एक नया मोर्चा रेखांकित करती है।

OpenAI का SWE-bench Verified को छोड़ने का निर्णय उद्योग के लिए एक संरचनात्मक संकेत है: सार्वजनिक कोडिंग बेंचमार्क अब शीर्ष मॉडलों के प्रशिक्षण डेटा से संदूषित हो गए हैं। SWE-bench Pro और GDPVal जैसे निजी बेंचमार्क की ओर सिफारिश मूल्यांकन मानकों की पुनर्रचना की ओर इशारा करती है — जिससे सार्वजनिक रूप से मॉडलों की तुलना और भी कठिन हो जाएगी।

टूल्स की ओर, OpenAI की दोनों घोषणाएँ (gpt-realtime-1.5 और WebSockets) व्यावहारिक उपयोग-मामलों को लक्षित करती हैं: प्रोडक्शन-वॉइस एजेंट्स और कई टूल कॉल्स वाले लंबे एजेंटिक रन। Responses API में WebSockets के 20–40% तक के लाभ उन वर्कफ़्लो के लिए महत्वपूर्ण हैं जो प्रति सत्र 50 या 100 कॉल्स भी करते हैं।


स्रोत

यह दस्तावेज़ fr संस्करण से hi भाषा में gpt-5-mini मॉडल का उपयोग करके अनुवादित किया गया है। अनुवाद प्रक्रिया के बारे में अधिक जानकारी के लिए, देखें https://gitlab.com/jls42/ai-powered-markdown-translator