Claude Sonnet 4.6, ओपन-वेट Qwen3.5-397B, Google ने Lyria 3 लॉन्च किया

Anthropic ने Claude Sonnet 4.6 के साथ एक बड़ा कदम उठाया है, जो एक ऐसा मॉडल है जो कई कार्यों में Sonnet की कीमत पर Opus को टक्कर देता है। इसके साथ ही, Qwen ने 397 बिलियन मापदंडों (parameters) के साथ अपना पहला Qwen3.5 मॉडल ओपन-वेट (open-weight) में प्रकाशित किया है, और Google ने अपने संगीत निर्माण मॉडल Lyria 3 को सीधे Gemini में एकीकृत किया है।

Claude Sonnet 4.6: Sonnet की कीमत पर Opus का प्रदर्शन

17 फरवरी — Anthropic ने Claude Sonnet 4.6 लॉन्च किया, जिसे अब तक का सबसे सक्षम Sonnet बताया गया है। यह मॉडल कोडिंग, कंप्यूटर उपयोग (computer use), लंबी-संदर्भ (long-context) तार्किकता, एजेंट प्लानिंग, बौद्धिक कार्य और डिजाइन में पूरी तरह से अपग्रेड का प्रतिनिधित्व करता है। इसमें बीटा में 1 मिलियन token की संदर्भ विंडो (context window) शामिल है।

इसकी स्थिति स्पष्ट है: वह प्रदर्शन जिसके लिए पहले Opus मॉडल की आवश्यकता होती थी, अब Sonnet टैरिफ पर उपलब्ध है, यानी $3 /$ 15 प्रति मिलियन token (Sonnet 4.5 की तुलना में अपरिवर्तित)। Sonnet 4.6 claude.ai और Claude Cowork में Free और Pro प्लान्स पर डिफ़ॉल्ट मॉडल बन गया है।

Benchmark और उपयोगकर्ता प्रतिक्रिया

Claude Code में, परीक्षकों ने लगभग 70% समय Sonnet 4.5 की तुलना में Sonnet 4.6 को प्राथमिकता दी, जिसमें कोड संशोधन से पहले बेहतर संदर्भ पढ़ने और तर्क को डुप्लिकेट करने के बजाय साझा तर्क को समेकित करने का हवाला दिया गया। इससे भी अधिक उल्लेखनीय: उपयोगकर्ताओं ने 59% समय Opus 4.5 (नवंबर 2025 का फ्रंटियर मॉडल) की तुलना में Sonnet 4.6 को प्राथमिकता दी, जिसमें कम ओवर-इंजीनियरिंग, कम “आलस्य” और निर्देशों का बेहतर पालन बताया गया।

Benchmark	Score
SWE-bench Verified	80.2% (संशोधित prompt के साथ)
OSWorld (computer use)	16 महीनों में बड़ी प्रगति
OfficeQA	Opus 4.6 के बराबर
Vending-Bench Arena	निवेश/पिवट की उभरती रणनीति

Computer use में भी काफी प्रगति हुई है: Sonnet 4.6, Sonnet 4.5 की तुलना में prompt injections के प्रति प्रतिरोध में भी सुधार करता है, और Opus 4.6 के तुलनीय स्तर तक पहुँचता है।

Anthropic वास्तविक परिस्थितियों में AI एजेंट स्वायत्तता को मापता है

18 फरवरी — Anthropic ने Claude Code और सार्वजनिक API के माध्यम से लाखों मानव-एजेंट इंटरैक्शन का विश्लेषण करते हुए एक अध्ययन प्रकाशित किया, जिसका उद्देश्य यह समझना है कि मनुष्य व्यवहार में एजेंट स्वायत्तता (autonomy) को कैसे प्रबंधित करते हैं।

मुख्य परिणाम

मीट्रिक	मूल्य
अधिकतम स्वायत्त अवधि (99.9वां प्रतिशतक)	~45 मिनट (3 महीने में दोगुना)
ऑटो-अप्रूव (अनुभवी उपयोगकर्ता)	40%+ (नए उपयोगकर्ताओं के लिए 20%)
API ट्रैफ़िक में सॉफ़्टवेयर इंजीनियरिंग का हिस्सा	~50%
गार्डरािल्स के साथ क्रियाएँ	80%
मानव-इन-द-लूप (Human-in-the-loop) क्रियाएँ	73%
अपरिवर्तनीय क्रियाएँ	0.8%

एक विरोधाभासी खोज: अनुभवी उपयोगकर्ता ऑटो-अप्रूव दर और इंटरप्शन (रुकावट) दर दोनों को बढ़ाते हैं। वे कार्रवाई-दर-कार्रवाई पर्यवेक्षण से लक्षित हस्तक्षेप के साथ सक्रिय निगरानी की ओर बढ़ते हैं। इसके अलावा, Claude स्पष्टीकरण मांगने के लिए अधिक बार रुकता है जितना कि मनुष्य उसे बाधित करते हैं, विशेष रूप से जटिल कार्यों पर।

अध्ययन का निष्कर्ष है कि क्षमता और उपयोग के बीच एक महत्वपूर्ण अंतर है: मॉडल जिस स्वायत्तता को प्रबंधित करने में सक्षम हैं, वह व्यवहार में उन्हें दी गई स्वायत्तता से काफी अधिक है — एक घटना जिसे शोधकर्ता “अतैनात स्वायत्तता का अधिशेष (surplus of undeployed autonomy)” कहते हैं।

🔗 पूर्ण अध्ययन

Anthropic: रवांडा और Infosys साझेदारी

17 फरवरी — Sonnet 4.6 के लॉन्च के साथ, Anthropic ने स्वास्थ्य, शिक्षा और सार्वजनिक प्रशासन क्षेत्रों में Claude को तैनात करने के लिए रवांडा सरकार के साथ समझौता ज्ञापन (MOU) पर हस्ताक्षर किए। आईसीटी और नवाचार मंत्रालय के नेतृत्व में इस साझेदारी में सिविल सेवकों का प्रशिक्षण और आठ अफ्रीकी देशों में AI लर्निंग साथी की तैनाती शामिल है।

Anthropic ने दूरसंचार और अन्य विनियमित उद्योगों के लिए AI एजेंट बनाने के लिए Infosys के साथ सहयोग की भी घोषणा की।

🔗 रवांडा साझेदारी

Qwen3.5-397B-A17B: 3.5 श्रृंखला का पहला ओपन-वेट

16 फरवरी — Alibaba Qwen ने Qwen3.5-397B-A17B प्रकाशित किया, जो Qwen3.5 श्रृंखला का पहला ओपन-वेट मॉडल है। यह लीनियर अटेंशन (linear attention) और स्पार्स मिक्चर-ऑफ-एक्सपर्ट्स (Mixture-of-Experts - MoE) के संयोजन वाले हाइब्रिड आर्किटेक्चर के साथ एक महत्वपूर्ण प्रगति है।

विशेषता	विवरण
कुल पैरामीटर	397B (हाइब्रिड MoE आर्किटेक्चर)
आर्किटेक्चर	हाइब्रिड लीनियर अटेंशन + स्पार्स MoE
थ्रूपुट	Qwen3-Max से 8.6x से 19.0x अधिक
भाषाएँ	201 भाषाएँ और बोलियाँ
लाइसेंस	Apache 2.0
प्रशिक्षण	बड़े पैमाने पर रिइंफोर्समेंट लर्निंग
विशेषता	नेटिव मल्टीमॉडल, वास्तविक एजेंट

मॉडल Hugging Face, ModelScope, Alibaba Cloud Model Studio और Qwen Code के माध्यम से तुरंत उपलब्ध है। 201 भाषाओं के समर्थन और Apache 2.0 लाइसेंस के साथ, यह भाषा कवरेज और अनुमान थ्रूपुट के मामले में वर्तमान में सबसे महत्वाकांक्षी ओपन-वेट मॉडल में से एक है।

🔗 ट्वीट @Alibaba_Qwen

Google Lyria 3: Gemini में संगीत निर्माण आया

18 फरवरी — Google और DeepMind ने Lyria 3 पेश किया, जो सीधे Gemini ऐप में एकीकृत एक AI संगीत निर्माण मॉडल है। उपयोगकर्ता टेक्स्ट प्रॉम्प्ट (prompts), फोटो या वीडियो से 30-सेकंड के संगीत ट्रैक बना सकते हैं, साथ ही कस्टम गीत भी बना सकते हैं।

कार्यक्षमता	विवरण
इनपुट	टेक्स्ट, चित्र, वीडियो
आउटपुट	30 सेकंड के ऑडियो ट्रैक
निजीकरण	विविध संगीत शैलियाँ, जनरेट किए गए गीत
उपलब्धता	Gemini में बीटा (18+)

Lyria 3 उपकरणों और शैलियों के संयोजन में उल्लेखनीय लचीलापन प्रदर्शित करता है, जिससे जिंगल से लेकर लो-फाई (lo-fi) रचनाओं तक की रचनाएँ संभव होती हैं। वैश्विक तैनाती प्रगतिशील है।

🔗 ट्वीट @GoogleAI

OpenAI EVMbench: स्मार्ट कॉन्ट्रैक्ट्स के लिए सुरक्षा benchmark

18 फरवरी — OpenAI और Paradigm ने EVMbench लॉन्च किया, एक benchmark जो Ethereum स्मार्ट कॉन्ट्रैक्ट्स में कमजोरियों का पता लगाने, उन्हें ठीक करने और उनका फायदा उठाने की AI एजेंटों की क्षमता का मूल्यांकन करता है। यह benchmark 40 ऑडिट (मुख्य रूप से Code4rena प्रतियोगिताओं) से क्यूरेट की गई 120 कमजोरियों पर आधारित है।

मोड	विवरण	GPT-5.3-Codex	GPT-5 (6 महीने पहले)
Exploit	ड्रेन हमलों को निष्पादित करना	72.2%	31.9%
Detect	कमजोरियों का ऑडिट और पता लगाना	< पूर्ण कवरेज	-
Patch	कार्यक्षमता को बनाए रखते हुए ठीक करना	< पूर्ण कवरेज	-

एक दिलचस्प खोज: AI एजेंट पता लगाने और ठीक करने (जहाँ वे अक्सर पहली कमजोरी मिलने के बाद छोड़ देते हैं) की तुलना में शोषण (स्पष्ट लक्ष्य) में बेहतर प्रदर्शन करते हैं। OpenAI ने रक्षात्मक साइबर सुरक्षा के लिए API क्रेडिट में $10M की अपनी प्रतिबद्धता की पुष्टि की।

🔗 EVMbench घोषणा

GLM-5 तकनीकी रिपोर्ट: Z.ai ने अपने मॉडल का दस्तावेजीकरण किया

18 फरवरी — Z.ai ने GLM-5 की पूर्ण तकनीकी रिपोर्ट प्रकाशित की, जिसमें 11 फरवरी को लॉन्च किए गए मॉडल (744B पैरामीटर, 40B सक्रिय, MIT लाइसेंस) के वास्तुशिल्प नवाचारों का विवरण दिया गया है।

तीन प्रमुख नवाचार प्रलेखित हैं: प्रशिक्षण और अनुमान लागत को कम करने के लिए डायनामिक स्पार्स अटेंशन (DSA), पीढ़ी और प्रशिक्षण को अलग करने वाला एक अतुल्यकालिक RL बुनियादी ढांचा, और जटिल और दीर्घकालिक क्षितिज इंटरैक्शन की अनुमति देने वाले एजेंटों के लिए RL एल्गोरिदम। रिपोर्ट arXiv पर उपलब्ध है।

🔗 ट्वीट @Zai_org · 🔗 arXiv

Cohere Labs Tiny Aya: अल्ट्रा-कॉम्पैक्ट बहुभाषी AI

17 फरवरी — Cohere Labs ने Tiny Aya पेश किया, जो केवल 3.35 बिलियन मापदंडों के साथ 70+ भाषाओं का समर्थन करने वाले छोटे भाषा मॉडल का एक परिवार है। लक्ष्य: फोन और ऑफ़लाइन सहित हर जगह बहुभाषी AI को सुलभ बनाना।

Tiny Aya तीन दर्शकों को लक्षित करता है: गैर-अंग्रेजी भाषाओं में काम करने वाले शोधकर्ता, डिजिटल रूप से कम सेवा वाले समुदायों के लिए निर्माण करने वाले डेवलपर्स, और क्लाउड पर निर्भरता के बिना विश्वसनीय अनुवाद की आवश्यकता वाले एम्बेडेड एप्लिकेशन। मॉडल में ऑफ़लाइन अनुवाद क्षमता शामिल है, जो गोपनीयता में सुधार करती है और विलंबता को कम करती है।

🔗 ट्वीट @cohere

Runway Gen-4.5 API + Claude Code Skill उपलब्ध

17 फरवरी — Runway ने अपने API के माध्यम से Gen-4.5 तक पहुंच खोल दी, जिससे डेवलपर्स को सीधे अपने प्रोजेक्ट्स में इमेज, वीडियो और ऑडियो जेनरेशन को एकीकृत करने की अनुमति मिली। घोषणा के साथ GitHub पर उपलब्ध एक समर्पित Claude Code Skill भी है, जो विकास के माहौल को छोड़े बिना Runway मल्टीमीडिया सामग्री उत्पन्न करने की अनुमति देता है।

🔗 ट्वीट @runwayml · 🔗 GitHub Skills

Manus Agents: लंबी अवधि की मेमोरी वाला व्यक्तिगत एजेंट

16 फरवरी — Manus ने Manus Agents लॉन्च किया, एक क्षमता जो प्रत्येक उपयोगकर्ता को चैट वार्तालाप में सीधे व्यक्तिगत एजेंट रखने की अनुमति देती है। एजेंट लंबी अवधि की मेमोरी (शैली, टोन और वरीयताओं को बनाए रखना), पूर्ण निर्माण क्षमता (वीडियो, स्लाइड, साइट, चित्र), और Gmail, Calendar और Notion के साथ सीधे एकीकरण को जोड़ता है।

🔗 ट्वीट @ManusAI

ElevenAgents for Support

17 फरवरी — ElevenLabs ने ग्राहक सहायता के लिए AI संवादात्मक एजेंट ElevenAgents for Support लॉन्च किया। 70 से अधिक भाषाओं में वॉयस और डिजिटल चैनलों में काम करते हुए, ये एजेंट ElevenLabs के एजेंटिक प्लेटफॉर्म और उत्पादन में इसके 4M+ डिप्लॉयमेंट पर भरोसा करते हैं।

🔗 ElevenLabs Agents

NotebookLM x Zillow: रियल एस्टेट नोटबुक

18 फरवरी — NotebookLM ने Zillow के साथ साझेदारी में घर खरीदारों के लिए एक मुफ्त Featured Notebook लॉन्च किया, जो वित्तीय तैयारी, बाजार मूल्यांकन और खरीद प्रक्रियाओं पर विशेषज्ञ सलाह को केंद्रित करता है।

🔗 ट्वीट @NotebookLM

इसका क्या अर्थ है

यह सप्ताह दो प्रमुख रुझानों को दर्शाता है। पहला फ्रंटियर प्रदर्शन का लोकतंत्रीकरण है: Sonnet 4.6, Opus क्षमताओं को पांचवें हिस्से की कीमत पर लाता है, जबकि Qwen3.5, 397B पैरामीटर मॉडल को Apache 2.0 के तहत सुलभ बनाता है। दूसरा नए क्षेत्रों में AI एजेंटों का विस्तार है — Anthropic का अध्ययन दिखाता है कि सबसे लंबे स्वायत्त सत्र तीन महीनों में दोगुने हो गए हैं, और Manus, ElevenLabs और Runway जैसे खिलाड़ी विशेष एजेंट (व्यक्तिगत चैट, ग्राहक सहायता, मल्टीमीडिया निर्माण) बना रहे हैं।

Lyria 3 के साथ Gemini में संगीत निर्माण का आगमन और ब्लॉकचेन सुरक्षा के लिए EVMbench भी दिखाते हैं कि जेनरेटिव AI और सुरक्षा AI अपने आप में पूर्ण डोमेन के रूप में खुद को संरचित करना जारी रखते हैं।