Z.ai ने GLM-5 लॉन्च किया, जो MIT लाइसेंस के तहत 744 बिलियन पैरामीटर्स वाला इसका नया फ्लैगशिप ओपन-सोर्स मॉडल है, जो कोडिंग और एजेंटिक कार्यों पर ओपन-सोर्स मॉडल में पहले स्थान पर पहुंच गया है। Anthropic ने Opus 4.6 के लिए ASL-4 सबोटेज रिस्क रिपोर्ट प्रकाशित की, OpenAI ने एजेंटिक प्रिमिटिव्स के साथ अपने API को समृद्ध किया, और Kimi ने 100 समानांतर उप-एजेंटों की एक प्रणाली का खुलासा किया। इकोसिस्टम की ओर, Runway ने 315 मिलियन डॉलर जुटाए और ElevenLabs ने अपने वॉयस एजेंटों के लिए एक एक्सप्रेसिव मोड लॉन्च किया।
Z.ai ने GLM-5 लॉन्च किया: 744B पैरामीटर्स, MIT लाइसेंस के तहत ओपन-सोर्स
11 फरवरी — Z.ai (Zhipu AI) ने GLM-5 लॉन्च किया, जो जटिल सिस्टम इंजीनियरिंग और लंबी अवधि के एजेंटिक कार्यों के लिए डिज़ाइन किया गया इसका नया फ्रंटियर मॉडल है। GLM-4.5 की तुलना में, मॉडल 355B पैरामीटर्स (32B सक्रिय) से बढ़कर 744B पैरामीटर्स (40B सक्रिय) हो गया है, जिसमें प्री-ट्रेनिंग डेटा 23T से बढ़कर 28.5T टोकन हो गया है।
GLM-5 लंबी संदर्भ क्षमता को संरक्षित करते हुए तैनाती लागत को कम करने के लिए DeepSeek Sparse Attention (DSA) को एकीकृत करता है, और “slime” पेश करता है, जो एक अतुल्यकालिक सुदृढीकरण सीखने का बुनियादी ढांचा है जो पोस्ट-ट्रेनिंग थ्रूपुट में सुधार करता है।
| बेंचमार्क | GLM-5 | GLM-4.7 | Kimi K2.5 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|---|
| SWE-bench Verified | 77.8% | 73.8% | 76.8% | 80.9% | 76.2% |
| HLE (text) | 30.5 | 24.8 | 31.5 | 28.4 | 37.2 |
| HLE w/ Tools | 50.4 | 42.8 | 51.8 | 43.4 | 45.8 |
| Terminal-Bench 2.0 | 56.2 | 41.0 | 50.8 | 59.3 | 54.2 |
| Vending Bench 2 | $4,432 | $2,377 | $1,198 | $4,967 | $5,478 |
GLM-5 खुद को तर्क, कोडिंग और एजेंटिक कार्यों पर सबसे अच्छे ओपन-सोर्स मॉडल के रूप में स्थापित करता है, जो प्रोप्राइटरी फ्रंटियर मॉडल के साथ अंतर को कम करता है। Vending Bench 2 पर, एक बेंचमार्क जो एक साल तक वेंडिंग मशीन के प्रबंधन का अनुकरण करता है, GLM-5 4,967) के करीब पहुंचता है।
कोड के अलावा, GLM-5 सीधे .docx, .pdf और .xlsx फाइलें उत्पन्न कर सकता है — प्रस्ताव, वित्तीय रिपोर्ट, स्प्रेडशीट — जो टर्नकी वितरित की जाती हैं। Z.ai दस्तावेज़ निर्माण के लिए अंतर्निहित कौशल के साथ एक एजेंट मोड तैनात करता है, जो मल्टी-टर्न सहयोग का समर्थन करता है।
मॉडल वेट हगिंग फेस पर MIT लाइसेंस के तहत प्रकाशित किए जाते हैं। GLM-5 Claude Code और OpenClaw के साथ संगत है, और OpenRouter पर उपलब्ध है। तैनाती प्रगतिशील है, जिसकी शुरुआत कोडिंग प्लान मैक्स ग्राहकों से होती है।
🔗 GLM-5 तकनीकी ब्लॉग 🔗 X पर घोषणा
Anthropic ने पहली ASL-4 सबोटेज रिस्क रिपोर्ट प्रकाशित की
11 फरवरी — Anthropic ने स्वायत्त AI R&D के लिए ASL-4 (AI Safety Level 4) सुरक्षा सीमा की प्रत्याशा में Claude Opus 4.6 के लिए एक सबोटेज रिस्क रिपोर्ट प्रकाशित की।
Claude Opus 4.5 के रिलीज होने पर, Anthropic ने हर नए फ्रंटियर मॉडल के लिए सबोटेज रिस्क रिपोर्ट लिखने के लिए प्रतिबद्ध किया था। अस्पष्ट सीमाओं में नेविगेट करने के बजाय, कंपनी ने उच्च ASL-4 सुरक्षा मानक का सक्रिय रूप से सम्मान करने का विकल्प चुना।
| तत्व | विवरण |
|---|---|
| मूल्यांकन किया गया मॉडल | Claude Opus 4.6 |
| सुरक्षा सीमा | ASL-4 (AI Safety Level 4) |
| डोमेन | स्वायत्त AI R&D |
| प्रारूप | सार्वजनिक PDF रिपोर्ट |
| मिसाल | Opus 4.5 लॉन्च के दौरान की गई प्रतिबद्धता |
यह AI सुरक्षा पारदर्शिता में एक महत्वपूर्ण कदम है: Anthropic उत्पादन में एक मॉडल के लिए ऐसी सबोटेज रिपोर्ट प्रकाशित करने वाली पहली प्रयोगशालाओं में से एक है।
When we released Claude Opus 4.5, we knew future models would be close to our AI Safety Level 4 threshold for autonomous AI R&D. We therefore committed to writing sabotage risk reports for future frontier models. Today we’re delivering on that commitment for Claude Opus 4.6.
🇮🇳 जब हमने Claude Opus 4.5 जारी किया, तो हमें पता था कि भविष्य के मॉडल स्वायत्त AI R&D के लिए हमारे AI Safety Level 4 सीमा के करीब होंगे। इसलिए हमने भविष्य के फ्रंटियर मॉडल के लिए सबोटेज रिस्क रिपोर्ट लिखने के लिए प्रतिबद्ध किया। आज हम Claude Opus 4.6 के लिए उस प्रतिबद्धता को पूरा कर रहे हैं। — @AnthropicAI X पर
OpenAI: Responses API में नए एजेंटिक प्रिमिटिव्स
10 फरवरी — OpenAI ने लंबी अवधि के एजेंटिक कार्य के लिए Responses API में तीन नए प्रिमिटिव्स पेश किए।
सर्वर-साइड कॉम्पैक्टियन
संदर्भ सीमाओं तक पहुंचे बिना कई घंटों के एजेंट सत्रों की अनुमति देता है। कॉम्पैक्टियन सर्वर-साइड प्रबंधित किया जाता है। ट्रिपल व्हेल, एक अर्ली एक्सेस टेस्टर, रिपोर्ट करता है कि उसने बिना सटीकता खोए एक ही सत्र में 150 टूल कॉल और 5 मिलियन टोकन हासिल किए हैं।
नेटवर्किंग के साथ कंटेनर्स
OpenAI द्वारा होस्ट किए गए कंटेनर अब नियंत्रित तरीके से इंटरनेट का उपयोग कर सकते हैं। एडमिनिस्ट्रेटर डैशबोर्ड में डोमेन की एक श्वेतसूची को परिभाषित करते हैं, अनुरोधों को स्पष्ट रूप से network_policy को परिभाषित करना चाहिए, और डोमेन सीक्रेट्स को मॉडल को कच्चे मूल्यों को उजागर किए बिना इंजेक्ट किया जा सकता है।
API में कौशल
पहले से निर्मित कौशल (स्प्रेडशीट) के साथ एजेंट कौशल मानक का मूल समर्थन। कौशल पुन: प्रयोज्य और संस्करण वाले बंडल हैं जिन्हें होस्ट किए गए शेल वातावरण में माउंट किया जा सकता है, और मॉडल रनटाइम पर तय करते हैं कि उन्हें लागू करना है या नहीं।
| प्रिमिटिव | विवरण | स्थिति |
|---|---|---|
| सर्वर-साइड कॉम्पैक्टियन | संदर्भ सीमाओं के बिना बहु-घंटे के सत्र | उपलब्ध |
| नेटवर्किंग के साथ कंटेनर्स | होस्ट किए गए कंटेनरों के लिए नियंत्रित इंटरनेट एक्सेस | उपलब्ध |
| API में कौशल | पुन: प्रयोज्य बंडल (पहला कौशल: स्प्रेडशीट) | उपलब्ध |
Kimi Agent Swarm: 100 उप-एजेंटों का ऑर्केस्ट्रेशन
10 फरवरी — Kimi (Moonshot AI) ने एजेंट स्वार्म का अनावरण किया, जो एक मल्टी-एजेंट समन्वय क्षमता है जो 100 विशेष उप-एजेंटों के साथ जटिल कार्यों को समानांतर करने की अनुमति देती है।
सिस्टम 1,500 से अधिक टूल कॉल निष्पादित कर सकता है और अनुक्रमिक निष्पादन की तुलना में 4.5 गुना अधिक गति तक पहुंचता है। उपयोग के मामलों में एक साथ कई फाइलें (Word, Excel, PDF) उत्पन्न करना, समानांतर सामग्री विश्लेषण, और समानांतर में कई शैलियों में रचनात्मक पीढ़ी शामिल है। एजेंट स्वार्म LLM की एक संरचनात्मक सीमा को हल करता है: संदर्भ को भरने वाले लंबे कार्यों के दौरान तर्क का क्षरण।
OpenAI Harness Engineering: Codex के साथ शून्य लाइन मैनुअल कोड
11 फरवरी — OpenAI ने शून्य लाइन मैनुअल रूप से लिखे गए कोड के साथ एक आंतरिक सॉफ्टवेयर उत्पाद बनाने पर प्रतिक्रिया प्रकाशित की। 5 महीनों के लिए, 3 से 7 इंजीनियरों की एक टीम ने सभी कोड उत्पन्न करने के लिए विशेष रूप से Codex का उपयोग किया।
| मीट्रिक | मूल्य |
|---|---|
| उत्पन्न कोड लाइनें | ~1 मिलियन |
| पुल रिक्वेस्ट | ~1,500 |
| प्रति इंजीनियर प्रति दिन PR | औसतन 3.5 |
| आंतरिक उपयोगकर्ता | कई सौ |
| अनुमानित समय | हाथ से आवश्यक समय का 1/10 |
| Codex सत्र | 6+ घंटे तक |
“Harness Engineering” दृष्टिकोण इंजीनियर की भूमिका को फिर से परिभाषित करता है: कोड लिखने के बजाय वातावरण डिजाइन करना, इरादा निर्दिष्ट करना और एजेंटों के लिए फीडबैक लूप बनाना। रेपो में संरचित दस्तावेज़ एक गाइड के रूप में कार्य करते हैं (AGENTS.md सामग्री की तालिका के रूप में), आर्किटेक्चर Codex द्वारा उत्पन्न लिंटर्स और संरचनात्मक परीक्षणों के साथ कठोर है, और आवर्ती कार्य विचलन को स्कैन करते हैं और स्वचालित रूप से रिफैक्टोरिंग PR खोलते हैं।
Runway ने सीरीज़ E में 315 मिलियन डॉलर जुटाए
10 फरवरी — Runway ने 315 मिलियन डॉलर की सीरीज़ E फंडरेजिंग की घोषणा की, जिससे इसका मूल्यांकन 5.3 बिलियन डॉलर हो गया। राउंड का नेतृत्व जनरल अटलांटिक ने किया है, जिसमें NVIDIA, Adobe Ventures, AMD Ventures, Fidelity, AllianceBernstein और अन्य की भागीदारी है।
| विवरण | मूल्य |
|---|---|
| राशि | $315M |
| सीरीज़ | E |
| मूल्यांकन | 3.3B सीरीज़ D में) |
| लीड इन्वेस्टर | जनरल अटलांटिक |
| 2018 से कुल जुटाए गए | $860M |
फंड का उपयोग “वर्ल्ड मॉडल” की अगली पीढ़ी को प्री-ट्रेन करने के लिए किया जाएगा — भौतिक दुनिया का अनुकरण करने में सक्षम मॉडल — और उन्हें नए उत्पादों और उद्योगों में तैनात किया जाएगा। यह घोषणा Runway के नवीनतम वीडियो जेनरेशन मॉडल Gen-4.5 के लॉन्च के बाद आई है।
🔗 आधिकारिक घोषणा 🔗 X पर Runway पोस्ट
Cowork Windows पर उपलब्ध
10 फरवरी — Claude Cowork, मल्टी-स्टेप कार्यों के लिए डेस्कटॉप एप्लिकेशन, अब macOS की तुलना में पूर्ण फीचर समानता के साथ रिसर्च प्रीव्यू में Windows पर उपलब्ध है।
| फ़ीचर | विवरण |
|---|---|
| फ़ाइल एक्सेस | स्थानीय फ़ाइलों को पढ़ना और लिखना |
| प्लगइन्स | Cowork प्लगइन्स के लिए समर्थन |
| MCP कनेक्टर्स | MCP सर्वर के साथ एकीकरण |
| निर्देश प्रति फ़ोल्डर | Claude.md शैली — प्रति प्रोजेक्ट प्राकृतिक भाषा निर्देश |
Windows पर Cowork claude.com/cowork के माध्यम से सभी सशुल्क Claude प्लान के लिए उपलब्ध है।
Claude फ्री प्लान पर मुफ्त सुविधाएँ
11 फरवरी — Anthropic ने मुफ्त Claude प्लान पर उपलब्ध सुविधाओं का विस्तार किया। फ़ाइल निर्माण, कनेक्टर्स, कौशल और कॉम्पैक्टियन अब सदस्यता के बिना उपलब्ध हैं। कॉम्पैक्टियन Claude को पिछले संदर्भ को स्वचालित रूप से सारांशित करने की अनुमति देता है ताकि लंबी बातचीत बिना फिर से शुरू किए जारी रह सके।
Slack में Claude Code Plan Mode
11 फरवरी — Slack में Claude Code एकीकरण को Plan Mode प्राप्त हुआ। Slack में Claude को कोड कार्य देते समय, यह अब निष्पादित करने से पहले एक योजना विस्तृत कर सकता है, जिससे कार्यान्वयन से पहले दृष्टिकोण को मान्य करने की अनुमति मिलती है।
| फ़ीचर | विवरण |
|---|---|
| Plan Mode | निष्पादन से पहले योजना विस्तार |
| स्वचालित पहचान | कोड और चैट के बीच बुद्धिमान मार्ग |
| PR निर्माण | सीधे Slack से “Create PR” बटन |
| पूर्वापेक्षाएँ | प्रो, मैक्स, टीम या एंटरप्राइज प्लान + कनेक्टेड GitHub |
ElevenLabs ने अपने वॉयस एजेंटों के लिए एक्सप्रेसिव मोड लॉन्च किया
10 फरवरी — ElevenLabs ने ElevenAgents के लिए एक्सप्रेसिव मोड का अनावरण किया, एक विकास जो इसके AI वॉयस एजेंटों को वास्तविक समय में अपने टोन, भावना और जोर को अनुकूलित करने में सक्षम बनाता है।
मोड Eleven v3 Conversational पर निर्भर करता है, जो वास्तविक समय संवाद के लिए अनुकूलित एक वॉयस सिंथेसिस मॉडल है, जो एक नए टर्न-टेकिंग सिस्टम के साथ युग्मित है जो रुकावटों को कम करता है। कीमत $0.08 प्रति मिनट पर बनी हुई है। समानांतर में, ElevenLabs अपने प्लेटफॉर्म को तीन उत्पाद परिवारों में पुनर्गठित करता है: ElevenAgents (वॉयस एजेंट), ElevenCreative (रचनात्मक उपकरण) और ElevenAPI (डेवलपर प्लेटफॉर्म)।
Kimi K2.5 Qoder पर एकीकृत
9 फरवरी — Qoder (डेवलपर्स के लिए AI प्लेटफॉर्म) ने Kimi K2.5 को अपने मार्केटप्लेस के फ्लैगशिप मॉडल के रूप में तैनात किया, जिसमें 76.8% का SWE-bench Verified स्कोर और एक लाभप्रद दर (Efficient टियर में 0.3x क्रेडिट) है। अनुशंसित वर्कफ़्लो: डिज़ाइन और आर्किटेक्चर के लिए भारी मॉडल का उपयोग करें, फिर कार्यान्वयन के लिए K2.5 का उपयोग करें।
इसका क्या मतलब है
ओपन-सोर्स फ्रंटियर मॉडल की ओर तेजी से प्रगति कर रहा है। Z.ai का GLM-5 कोडिंग और एजेंटिक कार्य बेंचमार्क पर Claude Opus 4.5 और GPT-5.2 के साथ अंतर को कम करता है, जबकि MIT लाइसेंस के तहत उपलब्ध है। Anthropic द्वारा ASL-4 सबोटेज रिपोर्ट का प्रकाशन सुरक्षा पारदर्शिता के लिए एक मिसाल कायम करता है जिसका पालन करने के लिए अन्य प्रयोगशालाओं को संभवतः मजबूर होना पड़ेगा।
डेवलपर पक्ष पर, OpenAI के एजेंटिक प्रिमिटिव्स (सर्वर-साइड कॉम्पैक्टियन, नेटवर्क कंटेनर्स, API कौशल) और “Harness Engineering” दृष्टिकोण एक ऐसे भविष्य की रूपरेखा तैयार करते हैं जहां स्वायत्त एजेंट बहु-घंटे के सत्रों का प्रबंधन करते हैं। Kimi एजेंट स्वार्म समानांतर में सैकड़ों उप-एजेंटों के ऑर्केस्ट्रेशन के साथ इस तर्क को और भी आगे बढ़ाता है।
स्रोत
- Z.ai — GLM-5 तकनीकी ब्लॉग
- Z.ai — X पर GLM-5 घोषणा
- Anthropic — सबोटेज रिस्क रिपोर्ट थ्रेड
- OpenAIDevs — एजेंटिक प्रिमिटिव्स
- OpenAI — Harness Engineering
- Kimi — एजेंट स्वार्म
- Runway — सीरीज़ E फंडिंग
- Claude — Cowork Windows
- Claude — फ्री प्लान फीचर्स
- Boris Cherny — Claude Code Slack
- ElevenLabs — एक्सप्रेसिव मोड
- Qoder — Kimi K2.5