AI एजेंट्स के लिए व्यस्त सप्ताह
21 से 23 जनवरी 2026 तक, coding agents और बुनियादी ढांचे के संबंध में कई प्रमुख घोषणाएं हुईं। Anthropic ने Excel में Claude लॉन्च किया और मल्टी-एजेंट सिस्टम पर तीन लेख प्रकाशित किए, OpenAI ने Codex के आंतरिक आर्किटेक्चर और इसके PostgreSQL बुनियादी ढांचे का विवरण दिया, Qwen ने अपने टेक्स्ट-टू-स्पीच मॉडल को ओपन-सोर्स किया, और Runway ने Gen-4.5 में Image to Video जोड़ा।
Anthropic: Excel में Claude और Claude Code
Excel में Claude
23 जनवरी — Claude अब Microsoft Excel में बीटा में उपलब्ध है। यह एकीकरण पूर्ण Excel कार्यपुस्तिकाओं (workbooks) का उनके नेस्टेड फ़ार्मुलों और टैब के बीच निर्भरता के साथ विश्लेषण करने की अनुमति देता है।
सुविधाएँ:
- पूरी कार्यपुस्तिका की समझ (फ़ार्मुले, मल्टी-टैब निर्भरताएँ)
- सेल-स्तर के उद्धरणों के साथ स्पष्टीकरण
- फ़ार्मुलों को सुरक्षित रखते हुए मान्यताओं को अपडेट करना
Claude Pro, Max, Team और Enterprise ग्राहकों के लिए उपलब्ध।
Claude Code v2.1.19: Tasks सिस्टम
23 जनवरी — संस्करण 2.1.19 ने Tasks पेश किया, जो जटिल मल्टी-सेशन प्रोजेक्ट्स के लिए एक नई कार्य प्रबंधन प्रणाली है।
We’re turning Todos into Tasks in Claude Code. Tasks are a new primitive that help Claude Code track and complete more complicated projects and collaborate on them across multiple sessions or subagents.
🇮🇳 हम Claude Code में Todos को Tasks में बदल रहे हैं। Tasks एक नया प्रिमिटिव है जो Claude Code को अधिक जटिल प्रोजेक्ट्स को ट्रैक और पूरा करने और कई सत्रों या उप-एजेंटों में उन पर सहयोग करने में मदद करता है। — Thariq (@trq212), Claude Code टीम Anthropic
Tasks सुविधाएँ:
| पहलू | विवरण |
|---|---|
| स्टोरेज | ~/.claude/tasks (फ़ाइलें, इसके ऊपर टूल बनाने की अनुमति देती हैं) |
| सहयोग | सत्रों के बीच साझा करने के लिए CLAUDE_CODE_TASK_LIST_ID=name claude |
| निर्भरताएँ | मेटाडेटा में संग्रहीत निर्भरता और ब्लॉकर्स के साथ Tasks |
| प्रसारण | एक Task का अपडेट उसी Task List पर सभी सत्रों में प्रसारित किया जाता है |
| संगतता | claude -p और AgentSDK के साथ काम करता है |
यह किस लिए है: एक जटिल प्रोजेक्ट (मल्टी-फ़ाइल रीफैक्टरिंग, माइग्रेशन, लंबी सुविधा) पर, Claude काम को कार्यों (tasks) में विभाजित कर सकता है, ट्रैक कर सकता है कि क्या हो गया है और क्या बचा है। कार्य डिस्क पर बने रहते हैं — वे संदर्भ संघनन (context compaction), सत्र बंद होने और पुनरारंभ होने पर भी बने रहते हैं। कई सत्र या उप-एजेंट वास्तविक समय में एक ही कार्य सूची पर सहयोग कर सकते हैं।
व्यवहार में: Claude कार्य बनाता है (TaskCreate), उन्हें सूचीबद्ध करता है (TaskList), और उनकी स्थिति अपडेट करता है (TaskUpdate: pending → in_progress → completed)। प्रमाणीकरण रीफैक्टरिंग पर उदाहरण:
#1 [completed] सत्र स्टोरेज को Redis में माइग्रेट करें
#2 [in_progress] रीफ़्रेश टोकन रोटेशन लागू करें
#3 [pending] OAuth एकीकरण परीक्षण जोड़ें
#4 [pending] API प्रलेखन अपडेट करें
कार्य ~/.claude/tasks/ में संग्रहीत होते हैं और CLAUDE_CODE_TASK_LIST_ID के माध्यम से सत्रों के बीच साझा किए जा सकते हैं।
अन्य नई सुविधाएँ v2.1.19:
- कस्टम कमांड में तर्कों के लिए शॉर्टहैंड
$0,$1 - सभी के लिए VSCode सत्र फोर्किंग और रिवाइंड
- बिना अनुमति के Skills अनुमोदन के बिना चलते हैं
- अस्थायी रूप से अक्षम करने के लिए
CLAUDE_CODE_ENABLE_TASKS=false
🔗 CHANGELOG Claude Code | थ्रेड @trq212
Claude Code v2.1.18: अनुकूलन योग्य कीबाइंडिंग
पिछला संस्करण जो संदर्भ के अनुसार कीबाइंडिंग कॉन्फ़िगर करने और कॉर्ड अनुक्रम बनाने की क्षमता जोड़ता है।
कमांड: /keybindings
⚠️ नोट: यह सुविधा वर्तमान में पूर्वावलोकन में है और सभी उपयोगकर्ताओं के लिए उपलब्ध नहीं है।
Petri 2.0: स्वचालित संरेखण ऑडिट
22 जनवरी — Anthropic ने Petri 2.0 प्रकाशित किया, जो भाषा मॉडल के लिए उनके स्वचालित व्यवहार ऑडिट टूल का अपडेट है।
यह किस लिए है: Petri परीक्षण करता है कि क्या LLM समस्याग्रस्त व्यवहार कर सकता है — हेरफेर, धोखा, नियम परिहार। टूल यथार्थवादी परिदृश्य बनाता है और उत्पादन में होने से पहले अवांछित व्यवहारों का पता लगाने के लिए मॉडल की प्रतिक्रियाओं का निरीक्षण करता है।
| सुधार | विवरण |
|---|---|
| 70 नए परिदृश्य | अधिक किनारे के मामलों को कवर करने के लिए विस्तारित बीज लाइब्रेरी |
| मूल्यांकन-जागरूकता शमन | मॉडल को यह नहीं पता होना चाहिए कि उसका परीक्षण किया जा रहा है — अन्यथा वह अपने व्यवहार को अनुकूलित कर लेता है। Petri 2.0 इस पता लगाने से बचने के लिए परिदृश्यों की वास्तविकता में सुधार करता है। |
| फ्रंटियर तुलना | हाल के मॉडल (Claude, GPT, Gemini) के लिए मूल्यांकन परिणाम |
ब्लॉग: मल्टी-एजेंट सिस्टम का उपयोग कब करें (या कब नहीं)
23 जनवरी — Anthropic ने मल्टी-एजेंट आर्किटेक्चर पर एक व्यावहारिक गाइड प्रकाशित की। मुख्य संदेश: डिफ़ॉल्ट रूप से मल्टी-एजेंट का उपयोग न करें।
We’ve seen teams invest months building elaborate multi-agent architectures only to discover that improved prompting on a single agent achieved equivalent results.
🇮🇳 हमने टीमों को विस्तृत मल्टी-एजेंट आर्किटेक्चर बनाने में महीनों का निवेश करते देखा है, केवल यह पता लगाने के लिए कि एकल एजेंट पर बेहतर प्रॉम्पटिंग ने समान परिणाम प्राप्त किए।
लेख 3 मामलों की पहचान करता है जहां मल्टी-एजेंट वास्तव में मूल्य लाता है:
| मामला | समस्या | मल्टी-एजेंट समाधान |
|---|---|---|
| संदर्भ प्रदूषण | एक एजेंट भारी डेटा उत्पन्न करता है जिसका केवल सारांश बाद में उपयोगी होता है | एक उप-एजेंट 2000 टोकन इतिहास प्राप्त करता है, मुख्य एजेंट को केवल “ऑर्डर वितरित” लौटाता है |
| समानांतर्करण | कई स्वतंत्र खोजें करनी हैं | उन्हें क्रमिक रूप से संसाधित करने के बजाय 5 अलग-अलग स्रोतों पर समानांतर में 5 एजेंट लॉन्च करें |
| विशेषज्ञता | एक ही एजेंट में बहुत अधिक उपकरण (20+) सही उपकरण चुनने की उसकी क्षमता को कम कर देते हैं | विशेष एजेंटों में अलग करें: एक CRM के लिए, एक मार्केटिंग के लिए, एक मैसेजिंग के लिए |
बचने का जाल: काम के प्रकार से विभाजन (एक एजेंट योजना बनाता है, दूसरा लागू करता है, दूसरा परीक्षण करता है)। प्रत्येक हैंडओवर संदर्भ खो देता है और गुणवत्ता कम कर देता है। बेहतर है कि एक ही एजेंट शुरू से अंत तक एक सुविधा को संभाले।
वास्तविक लागत: समान कार्य के लिए एकल एजेंट की तुलना में 3-10 गुना अधिक टोकन।
श्रृंखला के अन्य लेख:
Building agents with Skills (22 जनवरी)
डोमेन द्वारा विशेष एजेंट बनाने के बजाय, Anthropic skills बनाने का प्रस्ताव करता है: फ़ाइलों का संग्रह (वर्कफ़्लो, स्क्रिप्ट, सर्वोत्तम अभ्यास) जिसे एक सामान्यवादी एजेंट मांग पर लोड करता है।
3 स्तरों में प्रगतिशील प्रकटीकरण:
| स्तर | सामग्री | आकार |
|---|---|---|
| 1 | मेटाडेटा (नाम, विवरण) | ~50 टोकन |
| 2 | पूर्ण SKILL.md फ़ाइल | ~500 टोकन |
| 3 | संदर्भ दस्तावेज़ | 2000+ टोकन |
प्रत्येक स्तर केवल आवश्यक होने पर लोड किया जाता है। परिणाम: एक एजेंट अपने संदर्भ को संतृप्त किए बिना सैकड़ों skills रख सकता है।
Eight trends 2026 (21 जनवरी)
Anthropic 2026 में सॉफ्टवेयर विकास के लिए 8 रुझानों की पहचान करता है।
मुख्य संदेश: इंजीनियर कोड लिखने से कोड लिखने वाले एजेंटों को समन्वित करने की ओर बढ़ रहे हैं।
महत्वपूर्ण बारीकियां: AI का उपयोग ~60% काम में किया जाता है, लेकिन केवल 0-20% पूरी तरह से सौंपा जा सकता है — मानव पर्यवेक्षण आवश्यक बना हुआ है।
| कंपनी | परिणाम |
|---|---|
| Rakuten | vLLM कोडबेस (12.5M लाइनें) पर Claude Code, 7 घंटे का स्वायत्त काम |
| TELUS | 30% तेज़, 500k घंटे बचाए गए |
| Zapier | 89% AI अपनाना, 800+ आंतरिक एजेंट |
OpenAI: Codex आर्किटेक्चर और बुनियादी ढांचा
Unrolling the Codex agent loop
23 जनवरी — OpenAI ने Codex CLI के पर्दे के पीछे का दृश्य खोला। उनके सॉफ्टवेयर एजेंट के आंतरिक कामकाज पर एक श्रृंखला का पहला लेख।
हम क्या सीखते हैं:
एजेंट लूप सिद्धांत रूप में सरल है: उपयोगकर्ता अनुरोध भेजता है → मॉडल प्रतिक्रिया उत्पन्न करता है या टूल का अनुरोध करता है → एजेंट टूल निष्पादित करता है → मॉडल परिणाम के साथ फिर से शुरू होता है → अंतिम प्रतिक्रिया तक। व्यवहार में, सूक्ष्मताएं संदर्भ प्रबंधन में हैं।
प्रॉम्प्ट कैशिंग — प्रदर्शन की कुंजी:
बातचीत का प्रत्येक मोड़ प्रॉम्प्ट में सामग्री जोड़ता है। अनुकूलन के बिना, यह भेजे गए टोकन में द्विघातीय (quadratic) है। प्रॉम्प्ट कैशिंग पिछले मोड़ों से गणनाओं का पुन: उपयोग करने की अनुमति देता है। शर्त: नया प्रॉम्प्ट पुराने का सटीक उपसर्ग होना चाहिए। OpenAI उन नुकसानों का विवरण देता है जो कैश को तोड़ते हैं (MCP टूल का क्रम बदलना, बातचीत के बीच में कॉन्फ़िगरेशन को संशोधित करना)।
स्वचालित संघनन:
जब संदर्भ एक सीमा से अधिक हो जाता है, तो Codex /responses/compact को कॉल करता है जो बातचीत का संकुचित संस्करण लौटाता है। मॉडल एक अपारदर्शी encrypted_content के माध्यम से अव्यक्त समझ रखता है।
Zero Data Retention (ZDR):
उन ग्राहकों के लिए जो नहीं चाहते कि उनका डेटा संग्रहीत किया जाए, encrypted_content सर्वर-साइड डेटा संग्रहीत किए बिना मोड़ों के बीच मॉडल के तर्क को संरक्षित करने की अनुमति देता है।
श्रृंखला का पहला लेख — अगले लेख CLI आर्किटेक्चर, टूल कार्यान्वयन और सैंडबॉक्सिंग को कवर करेंगे।
🔗 Unrolling the Codex agent loop | Codex GitHub
Scaling PostgreSQL: 800 मिलियन ChatGPT उपयोगकर्ता
22 जनवरी — OpenAI विवरण देता है कि कैसे PostgreSQL प्रति सेकंड लाखों अनुरोधों के साथ 800 मिलियन उपयोगकर्ताओं के लिए ChatGPT और API को शक्ति प्रदान करता है।
| मीट्रिक | मान |
|---|---|
| उपयोगकर्ता | 800 मिलियन |
| थ्रूपुट | लाखों QPS |
| प्रतिकृतियां | ~50 मल्टी-रीजन रीड रेप्लिका |
| p99 विलंबता | क्लाइंट-साइड दो अंकों में ms |
| उपलब्धता | Five-nines (99.999%) |
आर्किटेक्चर:
- सिंगल प्राइमरी Azure PostgreSQL फ्लेक्सिबल सर्वर
- कनेक्शन पूलिंग के लिए PgBouncer (कनेक्शन विलंबता: 50ms → 5ms)
- राइट-हैवी वर्कलोड को Azure Cosmos DB में माइग्रेट किया गया
- कैश मिस तूफानों से बचाने के लिए कैश लॉकिंग
- 100 प्रतिकृतियों को पार करने के लिए परीक्षण में कैस्केडिंग प्रतिकृति
पिछले 12 महीनों में एकमात्र SEV-0 PostgreSQL: ChatGPT ImageGen के वायरल लॉन्च के दौरान (एक सप्ताह में 100M नए उपयोगकर्ता, राइट ट्रैफ़िक x10)।
Qwen: Qwen3-TTS ओपन-सोर्स
22-23 जनवरी — Alibaba ने Apache 2.0 लाइसेंस के तहत Qwen3-TTS को ओपन-सोर्स के रूप में जारी किया।
| फ़ीचर | विवरण |
|---|---|
| लाइसेंस | Apache 2.0 |
| वॉयस क्लोनिंग | हाँ |
| MLX-Audio समर्थन | उपलब्ध |
इंस्टॉलेशन:
uv pip install -U mlx-audio --prerelease=allow
Runway: Gen-4.5 Image to Video
21 जनवरी — Runway ने Gen-4.5 में Image to Video कार्यक्षमता जोड़ी।
| कार्यक्षमता | विवरण |
|---|---|
| Image to Video | एक छवि को सिनेमाई वीडियो में बदलना |
| कैमरा नियंत्रण | सटीक कैमरा नियंत्रण |
| सुसंगत कथाएँ | समय के साथ सुसंगत कथाएँ |
| चरित्र स्थिरता | पात्र जो सुसंगत रहते हैं |
सभी Runway सशुल्क योजनाओं के लिए उपलब्ध। अस्थायी प्रोमो: 15% छूट।
इसका क्या मतलब है
यह सप्ताह coding agents टूल की परिपक्वता का प्रतीक है। दो दिग्गज (Anthropic और OpenAI) अपने एजेंट आर्किटेक्चर पर विस्तृत तकनीकी दस्तावेज प्रकाशित करते हैं — एक संकेत है कि बाजार “डेमो” चरण से “उत्पादन” चरण की ओर बढ़ रहा है।
बुनियादी ढांचे की ओर, OpenAI का PostgreSQL लेख दिखाता है कि एक सिंगल-प्राइमरी आर्किटेक्चर सही अनुकूलन के साथ करोड़ों उपयोगकर्ताओं के पैमाने पर टिक सकता है।
Excel में Claude का आगमन एक नया मोर्चा खोलता है: AI सीधे दैनिक उत्पादकता टूल में एकीकृत।