खोजें

Claude Sonnet 4.6, ओपन-वेट Qwen3.5-397B, Google ने Lyria 3 लॉन्च किया

Claude Sonnet 4.6, ओपन-वेट Qwen3.5-397B, Google ने Lyria 3 लॉन्च किया

Anthropic ने Claude Sonnet 4.6 के साथ एक बड़ा कदम उठाया है, जो एक ऐसा मॉडल है जो कई कार्यों में Sonnet की कीमत पर Opus को टक्कर देता है। इसके साथ ही, Qwen ने 397 बिलियन मापदंडों (parameters) के साथ अपना पहला Qwen3.5 मॉडल ओपन-वेट (open-weight) में प्रकाशित किया है, और Google ने अपने संगीत निर्माण मॉडल Lyria 3 को सीधे Gemini में एकीकृत किया है।


Claude Sonnet 4.6: Sonnet की कीमत पर Opus का प्रदर्शन

17 फरवरी — Anthropic ने Claude Sonnet 4.6 लॉन्च किया, जिसे अब तक का सबसे सक्षम Sonnet बताया गया है। यह मॉडल कोडिंग, कंप्यूटर उपयोग (computer use), लंबी-संदर्भ (long-context) तार्किकता, एजेंट प्लानिंग, बौद्धिक कार्य और डिजाइन में पूरी तरह से अपग्रेड का प्रतिनिधित्व करता है। इसमें बीटा में 1 मिलियन token की संदर्भ विंडो (context window) शामिल है।

इसकी स्थिति स्पष्ट है: वह प्रदर्शन जिसके लिए पहले Opus मॉडल की आवश्यकता होती थी, अब Sonnet टैरिफ पर उपलब्ध है, यानी 3/3 / 15 प्रति मिलियन token (Sonnet 4.5 की तुलना में अपरिवर्तित)। Sonnet 4.6 claude.ai और Claude Cowork में Free और Pro प्लान्स पर डिफ़ॉल्ट मॉडल बन गया है।

Benchmark और उपयोगकर्ता प्रतिक्रिया

Claude Code में, परीक्षकों ने लगभग 70% समय Sonnet 4.5 की तुलना में Sonnet 4.6 को प्राथमिकता दी, जिसमें कोड संशोधन से पहले बेहतर संदर्भ पढ़ने और तर्क को डुप्लिकेट करने के बजाय साझा तर्क को समेकित करने का हवाला दिया गया। इससे भी अधिक उल्लेखनीय: उपयोगकर्ताओं ने 59% समय Opus 4.5 (नवंबर 2025 का फ्रंटियर मॉडल) की तुलना में Sonnet 4.6 को प्राथमिकता दी, जिसमें कम ओवर-इंजीनियरिंग, कम “आलस्य” और निर्देशों का बेहतर पालन बताया गया।

BenchmarkScore
SWE-bench Verified80.2% (संशोधित prompt के साथ)
OSWorld (computer use)16 महीनों में बड़ी प्रगति
OfficeQAOpus 4.6 के बराबर
Vending-Bench Arenaनिवेश/पिवट की उभरती रणनीति

Computer use में भी काफी प्रगति हुई है: Sonnet 4.6, Sonnet 4.5 की तुलना में prompt injections के प्रति प्रतिरोध में भी सुधार करता है, और Opus 4.6 के तुलनीय स्तर तक पहुँचता है।

संबंधित उत्पाद अपडेट

इस घोषणा के साथ Claude API पर कई सुविधाएँ सामान्य उपलब्धता (GA) में आ गई हैं: कोड निष्पादन, मेमोरी, प्रोग्रामेटिक टूल कॉलिंग, टूल सर्च और टूल उपयोग के उदाहरण। वेब सर्च और fetch टूल्स अब डायनामिक फ़िल्टरिंग को एकीकृत करते हैं — Claude स्वचालित रूप से खोज परिणामों को फ़िल्टर करने के लिए कोड लिखता है और निष्पादित करता है, संदर्भ में केवल प्रासंगिक सामग्री रखता है।

🔗 डायनामिक फ़िल्टरिंग के साथ बेहतर वेब सर्च

Claude in Excel उपयोगकर्ताओं के लिए, ऐड-इन अब MCP कनेक्टर्स (S&P Global, LSEG, Daloopa, PitchBook, Moody’s, FactSet) का समर्थन करता है, जो Pro, Max, Team और Enterprise प्लान्स पर उपलब्ध है।

🔗 आधिकारिक घोषणा


Anthropic वास्तविक परिस्थितियों में AI एजेंट स्वायत्तता को मापता है

18 फरवरी — Anthropic ने Claude Code और सार्वजनिक API के माध्यम से लाखों मानव-एजेंट इंटरैक्शन का विश्लेषण करते हुए एक अध्ययन प्रकाशित किया, जिसका उद्देश्य यह समझना है कि मनुष्य व्यवहार में एजेंट स्वायत्तता (autonomy) को कैसे प्रबंधित करते हैं।

मुख्य परिणाम

मीट्रिकमूल्य
अधिकतम स्वायत्त अवधि (99.9वां प्रतिशतक)~45 मिनट (3 महीने में दोगुना)
ऑटो-अप्रूव (अनुभवी उपयोगकर्ता)40%+ (नए उपयोगकर्ताओं के लिए 20%)
API ट्रैफ़िक में सॉफ़्टवेयर इंजीनियरिंग का हिस्सा~50%
गार्डरािल्स के साथ क्रियाएँ80%
मानव-इन-द-लूप (Human-in-the-loop) क्रियाएँ73%
अपरिवर्तनीय क्रियाएँ0.8%

एक विरोधाभासी खोज: अनुभवी उपयोगकर्ता ऑटो-अप्रूव दर और इंटरप्शन (रुकावट) दर दोनों को बढ़ाते हैं। वे कार्रवाई-दर-कार्रवाई पर्यवेक्षण से लक्षित हस्तक्षेप के साथ सक्रिय निगरानी की ओर बढ़ते हैं। इसके अलावा, Claude स्पष्टीकरण मांगने के लिए अधिक बार रुकता है जितना कि मनुष्य उसे बाधित करते हैं, विशेष रूप से जटिल कार्यों पर।

अध्ययन का निष्कर्ष है कि क्षमता और उपयोग के बीच एक महत्वपूर्ण अंतर है: मॉडल जिस स्वायत्तता को प्रबंधित करने में सक्षम हैं, वह व्यवहार में उन्हें दी गई स्वायत्तता से काफी अधिक है — एक घटना जिसे शोधकर्ता “अतैनात स्वायत्तता का अधिशेष (surplus of undeployed autonomy)” कहते हैं।

🔗 पूर्ण अध्ययन


Anthropic: रवांडा और Infosys साझेदारी

17 फरवरी — Sonnet 4.6 के लॉन्च के साथ, Anthropic ने स्वास्थ्य, शिक्षा और सार्वजनिक प्रशासन क्षेत्रों में Claude को तैनात करने के लिए रवांडा सरकार के साथ समझौता ज्ञापन (MOU) पर हस्ताक्षर किए। आईसीटी और नवाचार मंत्रालय के नेतृत्व में इस साझेदारी में सिविल सेवकों का प्रशिक्षण और आठ अफ्रीकी देशों में AI लर्निंग साथी की तैनाती शामिल है।

Anthropic ने दूरसंचार और अन्य विनियमित उद्योगों के लिए AI एजेंट बनाने के लिए Infosys के साथ सहयोग की भी घोषणा की।

🔗 रवांडा साझेदारी


Qwen3.5-397B-A17B: 3.5 श्रृंखला का पहला ओपन-वेट

16 फरवरी — Alibaba Qwen ने Qwen3.5-397B-A17B प्रकाशित किया, जो Qwen3.5 श्रृंखला का पहला ओपन-वेट मॉडल है। यह लीनियर अटेंशन (linear attention) और स्पार्स मिक्चर-ऑफ-एक्सपर्ट्स (Mixture-of-Experts - MoE) के संयोजन वाले हाइब्रिड आर्किटेक्चर के साथ एक महत्वपूर्ण प्रगति है।

विशेषताविवरण
कुल पैरामीटर397B (हाइब्रिड MoE आर्किटेक्चर)
आर्किटेक्चरहाइब्रिड लीनियर अटेंशन + स्पार्स MoE
थ्रूपुटQwen3-Max से 8.6x से 19.0x अधिक
भाषाएँ201 भाषाएँ और बोलियाँ
लाइसेंसApache 2.0
प्रशिक्षणबड़े पैमाने पर रिइंफोर्समेंट लर्निंग
विशेषतानेटिव मल्टीमॉडल, वास्तविक एजेंट

मॉडल Hugging Face, ModelScope, Alibaba Cloud Model Studio और Qwen Code के माध्यम से तुरंत उपलब्ध है। 201 भाषाओं के समर्थन और Apache 2.0 लाइसेंस के साथ, यह भाषा कवरेज और अनुमान थ्रूपुट के मामले में वर्तमान में सबसे महत्वाकांक्षी ओपन-वेट मॉडल में से एक है।

🔗 ट्वीट @Alibaba_Qwen


Google Lyria 3: Gemini में संगीत निर्माण आया

18 फरवरी — Google और DeepMind ने Lyria 3 पेश किया, जो सीधे Gemini ऐप में एकीकृत एक AI संगीत निर्माण मॉडल है। उपयोगकर्ता टेक्स्ट प्रॉम्प्ट (prompts), फोटो या वीडियो से 30-सेकंड के संगीत ट्रैक बना सकते हैं, साथ ही कस्टम गीत भी बना सकते हैं।

कार्यक्षमताविवरण
इनपुटटेक्स्ट, चित्र, वीडियो
आउटपुट30 सेकंड के ऑडियो ट्रैक
निजीकरणविविध संगीत शैलियाँ, जनरेट किए गए गीत
उपलब्धताGemini में बीटा (18+)

Lyria 3 उपकरणों और शैलियों के संयोजन में उल्लेखनीय लचीलापन प्रदर्शित करता है, जिससे जिंगल से लेकर लो-फाई (lo-fi) रचनाओं तक की रचनाएँ संभव होती हैं। वैश्विक तैनाती प्रगतिशील है।

🔗 ट्वीट @GoogleAI


OpenAI EVMbench: स्मार्ट कॉन्ट्रैक्ट्स के लिए सुरक्षा benchmark

18 फरवरी — OpenAI और Paradigm ने EVMbench लॉन्च किया, एक benchmark जो Ethereum स्मार्ट कॉन्ट्रैक्ट्स में कमजोरियों का पता लगाने, उन्हें ठीक करने और उनका फायदा उठाने की AI एजेंटों की क्षमता का मूल्यांकन करता है। यह benchmark 40 ऑडिट (मुख्य रूप से Code4rena प्रतियोगिताओं) से क्यूरेट की गई 120 कमजोरियों पर आधारित है।

मोडविवरणGPT-5.3-CodexGPT-5 (6 महीने पहले)
Exploitड्रेन हमलों को निष्पादित करना72.2%31.9%
Detectकमजोरियों का ऑडिट और पता लगाना< पूर्ण कवरेज-
Patchकार्यक्षमता को बनाए रखते हुए ठीक करना< पूर्ण कवरेज-

एक दिलचस्प खोज: AI एजेंट पता लगाने और ठीक करने (जहाँ वे अक्सर पहली कमजोरी मिलने के बाद छोड़ देते हैं) की तुलना में शोषण (स्पष्ट लक्ष्य) में बेहतर प्रदर्शन करते हैं। OpenAI ने रक्षात्मक साइबर सुरक्षा के लिए API क्रेडिट में $10M की अपनी प्रतिबद्धता की पुष्टि की।

🔗 EVMbench घोषणा


GLM-5 तकनीकी रिपोर्ट: Z.ai ने अपने मॉडल का दस्तावेजीकरण किया

18 फरवरी — Z.ai ने GLM-5 की पूर्ण तकनीकी रिपोर्ट प्रकाशित की, जिसमें 11 फरवरी को लॉन्च किए गए मॉडल (744B पैरामीटर, 40B सक्रिय, MIT लाइसेंस) के वास्तुशिल्प नवाचारों का विवरण दिया गया है।

तीन प्रमुख नवाचार प्रलेखित हैं: प्रशिक्षण और अनुमान लागत को कम करने के लिए डायनामिक स्पार्स अटेंशन (DSA), पीढ़ी और प्रशिक्षण को अलग करने वाला एक अतुल्यकालिक RL बुनियादी ढांचा, और जटिल और दीर्घकालिक क्षितिज इंटरैक्शन की अनुमति देने वाले एजेंटों के लिए RL एल्गोरिदम। रिपोर्ट arXiv पर उपलब्ध है।

🔗 ट्वीट @Zai_org · 🔗 arXiv


Cohere Labs Tiny Aya: अल्ट्रा-कॉम्पैक्ट बहुभाषी AI

17 फरवरी — Cohere Labs ने Tiny Aya पेश किया, जो केवल 3.35 बिलियन मापदंडों के साथ 70+ भाषाओं का समर्थन करने वाले छोटे भाषा मॉडल का एक परिवार है। लक्ष्य: फोन और ऑफ़लाइन सहित हर जगह बहुभाषी AI को सुलभ बनाना।

Tiny Aya तीन दर्शकों को लक्षित करता है: गैर-अंग्रेजी भाषाओं में काम करने वाले शोधकर्ता, डिजिटल रूप से कम सेवा वाले समुदायों के लिए निर्माण करने वाले डेवलपर्स, और क्लाउड पर निर्भरता के बिना विश्वसनीय अनुवाद की आवश्यकता वाले एम्बेडेड एप्लिकेशन। मॉडल में ऑफ़लाइन अनुवाद क्षमता शामिल है, जो गोपनीयता में सुधार करती है और विलंबता को कम करती है।

🔗 ट्वीट @cohere


Runway Gen-4.5 API + Claude Code Skill उपलब्ध

17 फरवरी — Runway ने अपने API के माध्यम से Gen-4.5 तक पहुंच खोल दी, जिससे डेवलपर्स को सीधे अपने प्रोजेक्ट्स में इमेज, वीडियो और ऑडियो जेनरेशन को एकीकृत करने की अनुमति मिली। घोषणा के साथ GitHub पर उपलब्ध एक समर्पित Claude Code Skill भी है, जो विकास के माहौल को छोड़े बिना Runway मल्टीमीडिया सामग्री उत्पन्न करने की अनुमति देता है।

🔗 ट्वीट @runwayml · 🔗 GitHub Skills


Manus Agents: लंबी अवधि की मेमोरी वाला व्यक्तिगत एजेंट

16 फरवरी — Manus ने Manus Agents लॉन्च किया, एक क्षमता जो प्रत्येक उपयोगकर्ता को चैट वार्तालाप में सीधे व्यक्तिगत एजेंट रखने की अनुमति देती है। एजेंट लंबी अवधि की मेमोरी (शैली, टोन और वरीयताओं को बनाए रखना), पूर्ण निर्माण क्षमता (वीडियो, स्लाइड, साइट, चित्र), और Gmail, Calendar और Notion के साथ सीधे एकीकरण को जोड़ता है।

🔗 ट्वीट @ManusAI


ElevenAgents for Support

17 फरवरी — ElevenLabs ने ग्राहक सहायता के लिए AI संवादात्मक एजेंट ElevenAgents for Support लॉन्च किया। 70 से अधिक भाषाओं में वॉयस और डिजिटल चैनलों में काम करते हुए, ये एजेंट ElevenLabs के एजेंटिक प्लेटफॉर्म और उत्पादन में इसके 4M+ डिप्लॉयमेंट पर भरोसा करते हैं।

🔗 ElevenLabs Agents


NotebookLM x Zillow: रियल एस्टेट नोटबुक

18 फरवरी — NotebookLM ने Zillow के साथ साझेदारी में घर खरीदारों के लिए एक मुफ्त Featured Notebook लॉन्च किया, जो वित्तीय तैयारी, बाजार मूल्यांकन और खरीद प्रक्रियाओं पर विशेषज्ञ सलाह को केंद्रित करता है।

🔗 ट्वीट @NotebookLM


इसका क्या अर्थ है

यह सप्ताह दो प्रमुख रुझानों को दर्शाता है। पहला फ्रंटियर प्रदर्शन का लोकतंत्रीकरण है: Sonnet 4.6, Opus क्षमताओं को पांचवें हिस्से की कीमत पर लाता है, जबकि Qwen3.5, 397B पैरामीटर मॉडल को Apache 2.0 के तहत सुलभ बनाता है। दूसरा नए क्षेत्रों में AI एजेंटों का विस्तार है — Anthropic का अध्ययन दिखाता है कि सबसे लंबे स्वायत्त सत्र तीन महीनों में दोगुने हो गए हैं, और Manus, ElevenLabs और Runway जैसे खिलाड़ी विशेष एजेंट (व्यक्तिगत चैट, ग्राहक सहायता, मल्टीमीडिया निर्माण) बना रहे हैं।

Lyria 3 के साथ Gemini में संगीत निर्माण का आगमन और ब्लॉकचेन सुरक्षा के लिए EVMbench भी दिखाते हैं कि जेनरेटिव AI और सुरक्षा AI अपने आप में पूर्ण डोमेन के रूप में खुद को संरचित करना जारी रखते हैं।


स्रोत