Anthropic ने Claude Sonnet 4.6 के साथ एक बड़ा कदम उठाया है, जो एक ऐसा मॉडल है जो कई कार्यों में Sonnet की कीमत पर Opus को टक्कर देता है। इसके साथ ही, Qwen ने 397 बिलियन मापदंडों (parameters) के साथ अपना पहला Qwen3.5 मॉडल ओपन-वेट (open-weight) में प्रकाशित किया है, और Google ने अपने संगीत निर्माण मॉडल Lyria 3 को सीधे Gemini में एकीकृत किया है।
Claude Sonnet 4.6: Sonnet की कीमत पर Opus का प्रदर्शन
17 फरवरी — Anthropic ने Claude Sonnet 4.6 लॉन्च किया, जिसे अब तक का सबसे सक्षम Sonnet बताया गया है। यह मॉडल कोडिंग, कंप्यूटर उपयोग (computer use), लंबी-संदर्भ (long-context) तार्किकता, एजेंट प्लानिंग, बौद्धिक कार्य और डिजाइन में पूरी तरह से अपग्रेड का प्रतिनिधित्व करता है। इसमें बीटा में 1 मिलियन token की संदर्भ विंडो (context window) शामिल है।
इसकी स्थिति स्पष्ट है: वह प्रदर्शन जिसके लिए पहले Opus मॉडल की आवश्यकता होती थी, अब Sonnet टैरिफ पर उपलब्ध है, यानी 15 प्रति मिलियन token (Sonnet 4.5 की तुलना में अपरिवर्तित)। Sonnet 4.6 claude.ai और Claude Cowork में Free और Pro प्लान्स पर डिफ़ॉल्ट मॉडल बन गया है।
Benchmark और उपयोगकर्ता प्रतिक्रिया
Claude Code में, परीक्षकों ने लगभग 70% समय Sonnet 4.5 की तुलना में Sonnet 4.6 को प्राथमिकता दी, जिसमें कोड संशोधन से पहले बेहतर संदर्भ पढ़ने और तर्क को डुप्लिकेट करने के बजाय साझा तर्क को समेकित करने का हवाला दिया गया। इससे भी अधिक उल्लेखनीय: उपयोगकर्ताओं ने 59% समय Opus 4.5 (नवंबर 2025 का फ्रंटियर मॉडल) की तुलना में Sonnet 4.6 को प्राथमिकता दी, जिसमें कम ओवर-इंजीनियरिंग, कम “आलस्य” और निर्देशों का बेहतर पालन बताया गया।
| Benchmark | Score |
|---|---|
| SWE-bench Verified | 80.2% (संशोधित prompt के साथ) |
| OSWorld (computer use) | 16 महीनों में बड़ी प्रगति |
| OfficeQA | Opus 4.6 के बराबर |
| Vending-Bench Arena | निवेश/पिवट की उभरती रणनीति |
Computer use में भी काफी प्रगति हुई है: Sonnet 4.6, Sonnet 4.5 की तुलना में prompt injections के प्रति प्रतिरोध में भी सुधार करता है, और Opus 4.6 के तुलनीय स्तर तक पहुँचता है।
संबंधित उत्पाद अपडेट
इस घोषणा के साथ Claude API पर कई सुविधाएँ सामान्य उपलब्धता (GA) में आ गई हैं: कोड निष्पादन, मेमोरी, प्रोग्रामेटिक टूल कॉलिंग, टूल सर्च और टूल उपयोग के उदाहरण। वेब सर्च और fetch टूल्स अब डायनामिक फ़िल्टरिंग को एकीकृत करते हैं — Claude स्वचालित रूप से खोज परिणामों को फ़िल्टर करने के लिए कोड लिखता है और निष्पादित करता है, संदर्भ में केवल प्रासंगिक सामग्री रखता है।
🔗 डायनामिक फ़िल्टरिंग के साथ बेहतर वेब सर्च
Claude in Excel उपयोगकर्ताओं के लिए, ऐड-इन अब MCP कनेक्टर्स (S&P Global, LSEG, Daloopa, PitchBook, Moody’s, FactSet) का समर्थन करता है, जो Pro, Max, Team और Enterprise प्लान्स पर उपलब्ध है।
Anthropic वास्तविक परिस्थितियों में AI एजेंट स्वायत्तता को मापता है
18 फरवरी — Anthropic ने Claude Code और सार्वजनिक API के माध्यम से लाखों मानव-एजेंट इंटरैक्शन का विश्लेषण करते हुए एक अध्ययन प्रकाशित किया, जिसका उद्देश्य यह समझना है कि मनुष्य व्यवहार में एजेंट स्वायत्तता (autonomy) को कैसे प्रबंधित करते हैं।
मुख्य परिणाम
| मीट्रिक | मूल्य |
|---|---|
| अधिकतम स्वायत्त अवधि (99.9वां प्रतिशतक) | ~45 मिनट (3 महीने में दोगुना) |
| ऑटो-अप्रूव (अनुभवी उपयोगकर्ता) | 40%+ (नए उपयोगकर्ताओं के लिए 20%) |
| API ट्रैफ़िक में सॉफ़्टवेयर इंजीनियरिंग का हिस्सा | ~50% |
| गार्डरािल्स के साथ क्रियाएँ | 80% |
| मानव-इन-द-लूप (Human-in-the-loop) क्रियाएँ | 73% |
| अपरिवर्तनीय क्रियाएँ | 0.8% |
एक विरोधाभासी खोज: अनुभवी उपयोगकर्ता ऑटो-अप्रूव दर और इंटरप्शन (रुकावट) दर दोनों को बढ़ाते हैं। वे कार्रवाई-दर-कार्रवाई पर्यवेक्षण से लक्षित हस्तक्षेप के साथ सक्रिय निगरानी की ओर बढ़ते हैं। इसके अलावा, Claude स्पष्टीकरण मांगने के लिए अधिक बार रुकता है जितना कि मनुष्य उसे बाधित करते हैं, विशेष रूप से जटिल कार्यों पर।
अध्ययन का निष्कर्ष है कि क्षमता और उपयोग के बीच एक महत्वपूर्ण अंतर है: मॉडल जिस स्वायत्तता को प्रबंधित करने में सक्षम हैं, वह व्यवहार में उन्हें दी गई स्वायत्तता से काफी अधिक है — एक घटना जिसे शोधकर्ता “अतैनात स्वायत्तता का अधिशेष (surplus of undeployed autonomy)” कहते हैं।
Anthropic: रवांडा और Infosys साझेदारी
17 फरवरी — Sonnet 4.6 के लॉन्च के साथ, Anthropic ने स्वास्थ्य, शिक्षा और सार्वजनिक प्रशासन क्षेत्रों में Claude को तैनात करने के लिए रवांडा सरकार के साथ समझौता ज्ञापन (MOU) पर हस्ताक्षर किए। आईसीटी और नवाचार मंत्रालय के नेतृत्व में इस साझेदारी में सिविल सेवकों का प्रशिक्षण और आठ अफ्रीकी देशों में AI लर्निंग साथी की तैनाती शामिल है।
Anthropic ने दूरसंचार और अन्य विनियमित उद्योगों के लिए AI एजेंट बनाने के लिए Infosys के साथ सहयोग की भी घोषणा की।
Qwen3.5-397B-A17B: 3.5 श्रृंखला का पहला ओपन-वेट
16 फरवरी — Alibaba Qwen ने Qwen3.5-397B-A17B प्रकाशित किया, जो Qwen3.5 श्रृंखला का पहला ओपन-वेट मॉडल है। यह लीनियर अटेंशन (linear attention) और स्पार्स मिक्चर-ऑफ-एक्सपर्ट्स (Mixture-of-Experts - MoE) के संयोजन वाले हाइब्रिड आर्किटेक्चर के साथ एक महत्वपूर्ण प्रगति है।
| विशेषता | विवरण |
|---|---|
| कुल पैरामीटर | 397B (हाइब्रिड MoE आर्किटेक्चर) |
| आर्किटेक्चर | हाइब्रिड लीनियर अटेंशन + स्पार्स MoE |
| थ्रूपुट | Qwen3-Max से 8.6x से 19.0x अधिक |
| भाषाएँ | 201 भाषाएँ और बोलियाँ |
| लाइसेंस | Apache 2.0 |
| प्रशिक्षण | बड़े पैमाने पर रिइंफोर्समेंट लर्निंग |
| विशेषता | नेटिव मल्टीमॉडल, वास्तविक एजेंट |
मॉडल Hugging Face, ModelScope, Alibaba Cloud Model Studio और Qwen Code के माध्यम से तुरंत उपलब्ध है। 201 भाषाओं के समर्थन और Apache 2.0 लाइसेंस के साथ, यह भाषा कवरेज और अनुमान थ्रूपुट के मामले में वर्तमान में सबसे महत्वाकांक्षी ओपन-वेट मॉडल में से एक है।
Google Lyria 3: Gemini में संगीत निर्माण आया
18 फरवरी — Google और DeepMind ने Lyria 3 पेश किया, जो सीधे Gemini ऐप में एकीकृत एक AI संगीत निर्माण मॉडल है। उपयोगकर्ता टेक्स्ट प्रॉम्प्ट (prompts), फोटो या वीडियो से 30-सेकंड के संगीत ट्रैक बना सकते हैं, साथ ही कस्टम गीत भी बना सकते हैं।
| कार्यक्षमता | विवरण |
|---|---|
| इनपुट | टेक्स्ट, चित्र, वीडियो |
| आउटपुट | 30 सेकंड के ऑडियो ट्रैक |
| निजीकरण | विविध संगीत शैलियाँ, जनरेट किए गए गीत |
| उपलब्धता | Gemini में बीटा (18+) |
Lyria 3 उपकरणों और शैलियों के संयोजन में उल्लेखनीय लचीलापन प्रदर्शित करता है, जिससे जिंगल से लेकर लो-फाई (lo-fi) रचनाओं तक की रचनाएँ संभव होती हैं। वैश्विक तैनाती प्रगतिशील है।
OpenAI EVMbench: स्मार्ट कॉन्ट्रैक्ट्स के लिए सुरक्षा benchmark
18 फरवरी — OpenAI और Paradigm ने EVMbench लॉन्च किया, एक benchmark जो Ethereum स्मार्ट कॉन्ट्रैक्ट्स में कमजोरियों का पता लगाने, उन्हें ठीक करने और उनका फायदा उठाने की AI एजेंटों की क्षमता का मूल्यांकन करता है। यह benchmark 40 ऑडिट (मुख्य रूप से Code4rena प्रतियोगिताओं) से क्यूरेट की गई 120 कमजोरियों पर आधारित है।
| मोड | विवरण | GPT-5.3-Codex | GPT-5 (6 महीने पहले) |
|---|---|---|---|
| Exploit | ड्रेन हमलों को निष्पादित करना | 72.2% | 31.9% |
| Detect | कमजोरियों का ऑडिट और पता लगाना | < पूर्ण कवरेज | - |
| Patch | कार्यक्षमता को बनाए रखते हुए ठीक करना | < पूर्ण कवरेज | - |
एक दिलचस्प खोज: AI एजेंट पता लगाने और ठीक करने (जहाँ वे अक्सर पहली कमजोरी मिलने के बाद छोड़ देते हैं) की तुलना में शोषण (स्पष्ट लक्ष्य) में बेहतर प्रदर्शन करते हैं। OpenAI ने रक्षात्मक साइबर सुरक्षा के लिए API क्रेडिट में $10M की अपनी प्रतिबद्धता की पुष्टि की।
GLM-5 तकनीकी रिपोर्ट: Z.ai ने अपने मॉडल का दस्तावेजीकरण किया
18 फरवरी — Z.ai ने GLM-5 की पूर्ण तकनीकी रिपोर्ट प्रकाशित की, जिसमें 11 फरवरी को लॉन्च किए गए मॉडल (744B पैरामीटर, 40B सक्रिय, MIT लाइसेंस) के वास्तुशिल्प नवाचारों का विवरण दिया गया है।
तीन प्रमुख नवाचार प्रलेखित हैं: प्रशिक्षण और अनुमान लागत को कम करने के लिए डायनामिक स्पार्स अटेंशन (DSA), पीढ़ी और प्रशिक्षण को अलग करने वाला एक अतुल्यकालिक RL बुनियादी ढांचा, और जटिल और दीर्घकालिक क्षितिज इंटरैक्शन की अनुमति देने वाले एजेंटों के लिए RL एल्गोरिदम। रिपोर्ट arXiv पर उपलब्ध है।
🔗 ट्वीट @Zai_org · 🔗 arXiv
Cohere Labs Tiny Aya: अल्ट्रा-कॉम्पैक्ट बहुभाषी AI
17 फरवरी — Cohere Labs ने Tiny Aya पेश किया, जो केवल 3.35 बिलियन मापदंडों के साथ 70+ भाषाओं का समर्थन करने वाले छोटे भाषा मॉडल का एक परिवार है। लक्ष्य: फोन और ऑफ़लाइन सहित हर जगह बहुभाषी AI को सुलभ बनाना।
Tiny Aya तीन दर्शकों को लक्षित करता है: गैर-अंग्रेजी भाषाओं में काम करने वाले शोधकर्ता, डिजिटल रूप से कम सेवा वाले समुदायों के लिए निर्माण करने वाले डेवलपर्स, और क्लाउड पर निर्भरता के बिना विश्वसनीय अनुवाद की आवश्यकता वाले एम्बेडेड एप्लिकेशन। मॉडल में ऑफ़लाइन अनुवाद क्षमता शामिल है, जो गोपनीयता में सुधार करती है और विलंबता को कम करती है।
Runway Gen-4.5 API + Claude Code Skill उपलब्ध
17 फरवरी — Runway ने अपने API के माध्यम से Gen-4.5 तक पहुंच खोल दी, जिससे डेवलपर्स को सीधे अपने प्रोजेक्ट्स में इमेज, वीडियो और ऑडियो जेनरेशन को एकीकृत करने की अनुमति मिली। घोषणा के साथ GitHub पर उपलब्ध एक समर्पित Claude Code Skill भी है, जो विकास के माहौल को छोड़े बिना Runway मल्टीमीडिया सामग्री उत्पन्न करने की अनुमति देता है।
🔗 ट्वीट @runwayml · 🔗 GitHub Skills
Manus Agents: लंबी अवधि की मेमोरी वाला व्यक्तिगत एजेंट
16 फरवरी — Manus ने Manus Agents लॉन्च किया, एक क्षमता जो प्रत्येक उपयोगकर्ता को चैट वार्तालाप में सीधे व्यक्तिगत एजेंट रखने की अनुमति देती है। एजेंट लंबी अवधि की मेमोरी (शैली, टोन और वरीयताओं को बनाए रखना), पूर्ण निर्माण क्षमता (वीडियो, स्लाइड, साइट, चित्र), और Gmail, Calendar और Notion के साथ सीधे एकीकरण को जोड़ता है।
ElevenAgents for Support
17 फरवरी — ElevenLabs ने ग्राहक सहायता के लिए AI संवादात्मक एजेंट ElevenAgents for Support लॉन्च किया। 70 से अधिक भाषाओं में वॉयस और डिजिटल चैनलों में काम करते हुए, ये एजेंट ElevenLabs के एजेंटिक प्लेटफॉर्म और उत्पादन में इसके 4M+ डिप्लॉयमेंट पर भरोसा करते हैं।
NotebookLM x Zillow: रियल एस्टेट नोटबुक
18 फरवरी — NotebookLM ने Zillow के साथ साझेदारी में घर खरीदारों के लिए एक मुफ्त Featured Notebook लॉन्च किया, जो वित्तीय तैयारी, बाजार मूल्यांकन और खरीद प्रक्रियाओं पर विशेषज्ञ सलाह को केंद्रित करता है।
इसका क्या अर्थ है
यह सप्ताह दो प्रमुख रुझानों को दर्शाता है। पहला फ्रंटियर प्रदर्शन का लोकतंत्रीकरण है: Sonnet 4.6, Opus क्षमताओं को पांचवें हिस्से की कीमत पर लाता है, जबकि Qwen3.5, 397B पैरामीटर मॉडल को Apache 2.0 के तहत सुलभ बनाता है। दूसरा नए क्षेत्रों में AI एजेंटों का विस्तार है — Anthropic का अध्ययन दिखाता है कि सबसे लंबे स्वायत्त सत्र तीन महीनों में दोगुने हो गए हैं, और Manus, ElevenLabs और Runway जैसे खिलाड़ी विशेष एजेंट (व्यक्तिगत चैट, ग्राहक सहायता, मल्टीमीडिया निर्माण) बना रहे हैं।
Lyria 3 के साथ Gemini में संगीत निर्माण का आगमन और ब्लॉकचेन सुरक्षा के लिए EVMbench भी दिखाते हैं कि जेनरेटिव AI और सुरक्षा AI अपने आप में पूर्ण डोमेन के रूप में खुद को संरचित करना जारी रखते हैं।
स्रोत
- Introducing Claude Sonnet 4.6 — Anthropic
- Measuring AI agent autonomy in practice — Anthropic
- Anthropic + Rwanda MOU
- Qwen3.5-397B-A17B — @Alibaba_Qwen
- Lyria 3 — @GoogleAI
- EVMbench — OpenAI
- GLM-5 Technical Report — @Zai_org
- Tiny Aya — @cohere
- Runway Gen-4.5 API — @runwayml
- Manus Agents — @ManusAI
- ElevenAgents for Support — ElevenLabs
- NotebookLM x Zillow — @NotebookLM
- Recherche web améliorée avec filtrage dynamique — Claude Blog
- Claude API improvements — @claudeai