खोजें

Claude Code डेस्कटॉप रीडिज़ाइन, Agents SDK OpenAI, Gemini 3.1 Flash TTS और Mac ऐप

Claude Code डेस्कटॉप रीडिज़ाइन, Agents SDK OpenAI, Gemini 3.1 Flash TTS और Mac ऐप

15 अप्रैल का दिन काफी व्यस्त रहा: Anthropic ने समानांतर एजेंटों पर केंद्रित Claude Code desktop ऐप का पूर्ण रीडिज़ाइन लॉन्च किया, OpenAI ने नेटिव सैंडबॉक्स और मानकीकृत एजेंटिक प्रिमिटिव्स के साथ Agents SDK v0.14.0 जारी किया, और Google ने एक साथ Gemini 3.1 Flash TTS (Elo 1 211) तथा एक मुफ्त macOS desktop ऐप की घोषणा की। साथ ही, Mistral ने Studio में MCP Connectors खोले, Anthropic ने alignment पर दो महत्वपूर्ण अध्ययन प्रकाशित किए, और ऑटोमोबाइल विज्ञापन में एक पहली पहल हुई: पहला Mazda स्पॉट जो पूरी तरह IA द्वारा निर्मित था।


Claude Code Desktop : समानांतर एजेंटों के लिए रीडिज़ाइन

14 अप्रैल — Anthropic ने Claude Code desktop ऐप का पूर्ण रीडिज़ाइन लॉन्च किया, जिसे कई sessions को समानांतर में चलाने के लिए बनाया गया है।

“We’ve redesigned Claude Code on desktop. You can now run multiple Claude sessions side by side from the same app.”

🇮🇳 हमने desktop पर Claude Code को फिर से डिज़ाइन किया है। अब आप उसी ऐप से एक साथ कई Claude sessions समानांतर रूप से शुरू कर सकते हैं।@claudeai sur X

FonctionnalitéDescription
सत्र sidebarसभी सक्रिय और हालिया sessions, status, project या environment के आधार पर फ़िल्टर किए जा सकते हैं
Side chat (⌘+; / Ctrl+;)मुख्य session को प्रदूषित किए बिना वहाँ से एक conversation शाखित करें
एकीकृत terminalapp छोड़े बिना tests या builds चलाएँ
In-app file editorफ़ाइलें सीधे खोलें, संशोधित करें और सहेजें
पुनर्निर्मित diff viewerबड़े changesets पर बेहतर performance
विस्तृत previewpreview pane में HTML, PDF, local servers
Drag-and-drop layoutterminal, preview, diff viewer और chat को स्वतंत्र रूप से व्यवस्थित करें
CLI plugins parityplugins desktop ऐप में उसी तरह काम करते हैं
Mac पर विस्तारित SSHLinux के अलावा, sessions अब remote machines की ओर point कर सकते हैं
3 view modesVerbose, Normal, Summary — पूर्ण विवरण से केवल परिणाम तक

सत्र sidebar सबसे संरचनात्मक परिवर्तन है: यह सभी सक्रिय sessions को एक ही जगह केंद्रीकृत करती है, जिससे कई agents के साथ समानांतर काम करने का तरीका मूल रूप से बदल जाता है। Side chat (⌘+; Mac पर, Ctrl+; Linux/Windows पर) मुख्य session के context को प्रदूषित किए बिना एक सहायक conversation शुरू करने देता है — किसी त्वरित प्रश्न को पूछने या किसी hypothesis को परखने के लिए उपयोगी।

macOS पर SSH विस्तार Linux के साथ एक उल्लेखनीय अंतर को भरता है: अब sessions Mac से remote machines की ओर point कर सकते हैं, जिससे ऐसे workflows संभव होते हैं जहाँ code remote server पर चलता है लेकिन नियंत्रण स्थानीय interface से बना रहता है।

Pro, Max, Team, Enterprise योजनाओं पर सभी Claude Code उपयोगकर्ताओं के लिए अभी उपलब्ध, और Claude API के माध्यम से भी।

🔗 Claude ब्लॉग — desktop पर Claude Code का रीडिज़ाइन 🔗 ऐप डाउनलोड करें


OpenAI Agents SDK v0.14.0 : नेटिव sandbox और agentic primitives

15 अप्रैल — OpenAI अपने Agents SDK (openai-agents>=0.14.0) का एक महत्वपूर्ण evolution जारी करता है। यह घोषणा इस SDK को production में agents बनाने के लिए मानक infrastructure के रूप में प्रस्तुत करती है।

समृद्ध नेटिव harness

SDK अब ऐसे primitives का एक सेट समाहित करता है जो अन्य अग्रणी agentic runtime environments के अनुरूप हैं:

PrimitiveDescription
MCP (tool use)MCP protocol के माध्यम से tools कॉल करना
AGENTS.mdconfiguration फ़ाइल के माध्यम से custom instructions
shell toolcommands का निष्पादन (code execution)
apply patch toolpatch द्वारा files संपादित करना
Skillsक्षमताओं का क्रमिक disclosure
Configurable memoryagent की long-term state का प्रबंधन

sandbox execution environment

Agents अब नियंत्रित environments (sandboxes) में अपने file system, dependencies और tools के साथ चल सकते हैं। orchestrator (harness) और compute के बीच विभाजन तीन उद्देश्यों के लिए बनाया गया है: जहाँ generated code चलता है उन environments में credentials की सुरक्षा करना, container के गिरने पर checkpoint और rehydration के माध्यम से स्थायी execution सक्षम करना, और कई sandboxes को समानांतर चलाकर scaling की अनुमति देना।

समर्थित native sandbox providers: Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop, Vercel.

Manifest abstraction के माध्यम से storage: AWS S3, Google Cloud Storage, Azure Blob Storage, Cloudflare R2.

उपलब्धता

पहले Python, TypeScript अगली version में अपेक्षित। जिन कंपनियों ने early access में परीक्षण किया: Oscar Health, LexisNexis, Thomson Reuters, Zoom.

🔗 OpenAI की आधिकारिक घोषणा


Gemini 3.1 Flash TTS : audio tags और Elo 1 211

15 अप्रैल — Google Gemini 3.1 Flash TTS लॉन्च करता है, जो उसका अब तक का सबसे अभिव्यंजक और नियंत्रित किया जा सकने वाला text-to-speech model है।

मुख्य नवीनता audio tags का परिचय है: प्राकृतिक भाषा में दिए गए commands जो सीधे input text में समाहित होते हैं ताकि vocal style, rhythm और tone को नियंत्रित किया जा सके। [excitement] से घिरा एक passage उत्साह के साथ बोला जाएगा, जबकि [explanatory] एक शिक्षणात्मक tone अपनाएगा। यह दृष्टिकोण developer को एक « director » की भूमिका में रखता है, ताकि सटीक audio experiences बनाई जा सकें।

FonctionnalitéDétail
Audio tagsपाठ में प्राकृतिक भाषा commands
समर्थित भाषाएँ70+ (जिनमें 24 उच्च-गुणवत्ता मूल्यांकित हैं)
बहु-वार्ताकार dialogueNative
Watermarkingसभी उत्पन्न audio में SynthID एकीकृत
Elo score1 211 (Artificial Analysis TTS Leaderboard)

Artificial Analysis TTS संदर्भ ranking पर 1 211 के Elo score के साथ — जो blind test में हज़ारों मानवीय preferences को मापता है — model को गुणवत्ता/लागत संतुलन के लिए « सबसे आकर्षक quadrant » में रखा गया है।

Google AI Studio में तीन advanced controls उपलब्ध हैं: Scene direction (environment और acting instructions निर्धारित करना), Speaker-level specificity (प्रत्येक character के लिए unique audio profiles), और Seamless export (projects के बीच vocal consistency बनाए रखने के लिए API code में parameters export करना)।

उत्पन्न सभी audio को SynthID, Google के digital watermark, द्वारा अदृश्य रूप से चिह्नित किया जाता है।

उपलब्धता:

  • Developers: Gemini API और Google AI Studio के माध्यम से preview
  • Enterprises: Vertex AI पर preview
  • Workspace उपयोगकर्ता: Google Vids के माध्यम से

🔗 blog.google लेख — Gemini 3.1 Flash TTS


Gemini App for Mac : native desktop client

15 अप्रैल — Google macOS के लिए Gemini app लॉन्च करता है, जो macOS 15 और उससे ऊपर के सभी उपयोगकर्ताओं के लिए मुफ्त उपलब्ध है।

FonctionnalitéDétail
वैश्विक shortcutकिसी भी application से Option + Space
Window sharinglocal documents, code, data पर context
Image generationNano Banana integration
Video generationVeo integration
उपलब्धतामुफ्त, macOS 15+, वैश्विक

ऐप किसी भी screen से Option + Space के माध्यम से उपलब्ध है, जिससे Gemini को अपने workflow से बाहर निकले बिना प्रश्न पूछे जा सकते हैं। यह active window साझा कर सकता है ताकि local files, tables, charts या code blocks पर त्वरित context प्रदान किया जा सके।

Google इस संस्करण को एक « first version » के रूप में प्रस्तुत करता है, जो एक व्यक्तिगत और proactive desktop assistant की नींव रखता है, और आने वाले महीनों में और घोषणाएँ अपेक्षित हैं।

🔗 blog.google लेख — macOS के लिए Gemini App


Claude Code v2.1.108 और v2.1.109 : session recap, 1h caching, thinking

14-15 अप्रैल — दो दिनों में Claude Code के दो नए संस्करण।

v2.1.108 कई functional सुधार लाता है:

FonctionnalitéDescription
Session recap/recap या /config, अनुपस्थिति के बाद स्वचालित रूप से शुरू होता है। CLAUDE_CODE_ENABLE_AWAY_SUMMARY के माध्यम से force किया जा सकता है
Prompt caching 1hvariable ENABLE_PROMPT_CACHING_1H 1h TTL के लिए (API key, Bedrock, Vertex, Foundry). FORCE_PROMPT_CACHING_5M 5 min TTL force करता है
Skill tool के माध्यम से slash commandsmodel built-in commands (/init, /review, /security-review) को Skill tool के माध्यम से invoke कर सकता है
/undo alias/undo अब /rewind के लिए एक alias है
/model सुधारmodel change से पहले warning (अगला response बिना cache के पूरा history दोबारा पढ़ता है)
/resume सुधारcurrent directory sessions पर default; सभी projects देखने के लिए Ctrl+A

/recap फीचर समानांतर agents के संदर्भ में विशेष रूप से उपयोगी है: जब कोई background में छोड़ी गई session पर लौटता है, Claude पिछली interaction के बाद से क्या हुआ उसका सारांश देता है।

v2.1.109 extended thinking mode के लिए interface में सुधार लाता है: progress indicator एक rotating hint के साथ घूमता है ताकि यह बेहतर ढंग से दिखे कि model विचार चरण में है।

🔗 CHANGELOG Claude Code


Anthropic : स्वचालित alignment शोधकर्ता (PGR 0.97)

14 अप्रैल — Anthropic Fellows program के तहत एक मूल experiment: क्या Claude Opus 4.6 का उपयोग alignment research को तेज़ करने के लिए किया जा सकता है?

« weak-to-strong supervision » समस्या आने वाले challenge का एक proxy है: हम अपने से अधिक बुद्धिमान models को कैसे supervise करें? experiment एक strong model (Qwen 3-4B-Base) और एक weak model को « teacher » के रूप में (Qwen 1.5-0.5B-Chat) उपयोग करता है। performance gap recovered (PGR) metric यह मापती है कि strong model कितना हद तक कमजोर teacher की सीमाओं से आगे निकलता है।

व्यवस्था: 9 Claude Opus 4.6 प्रतियाँ, tools (sandbox, shared forum, storage, score server) से सुसज्जित, 5 दिनों तक समानांतर काम करती हैं। विविध दृष्टिकोणों को प्रोत्साहित करने के लिए प्रत्येक instance को थोड़ा अलग starting point दिया जाता है।

IndicateurValeur
मानव baseline (7 दिन, 4 methods)PGR 0.23
5 दिनों के बाद automated researchers (800h कुल)PGR 0.97
कुल लागत~18 000 ( 22(~22/घंटा प्रति instance)
गणित generalizationPGR 0.94
code generalizationPGR 0.47 (baseline का दोगुना)
production test (Claude Sonnet 4)कोई महत्वपूर्ण improvement नहीं

शोधकर्ता स्पष्ट करते हैं कि यह परिणाम यह नहीं दर्शाता कि Claude एक « generalist alignment scientist » है — चुनी गई समस्या automation के लिए असाधारण रूप से अच्छी तरह उपयुक्त है (एकल objective measure)। लेकिन experiment दिखाता है कि Claude alignment में experiment गति को कई गुना बढ़ा सकता है, और starting points की विविधता key है। code और data open source में उपलब्ध हैं।

🔗 Anthropic ब्लॉग — Automated Alignment Researchers


LLMs में subliminal learning Nature में प्रकाशित

15 अप्रैल — Anthropic और Owain Evans द्वारा सह-हस्ताक्षरित एक research article Nature पत्रिका में LLMs के subliminal learning (subliminal learning) phenomenon पर प्रकाशित हुआ।

“Research we co-authored on subliminal learning—how LLMs can pass on traits like preferences or misalignment through hidden signals in data—was published today in Nature.”

🇮🇳 हमारे द्वारा सह-लेखित subliminal learning पर शोध — कैसे LLMs डेटा में छिपे संकेतों के माध्यम से पसंद या disalignment जैसे traits संप्रेषित कर सकते हैं — आज Nature में प्रकाशित हुआ।@AnthropicAI sur X

पेपर दिखाता है कि LLMs apparent neutral data के माध्यम से traits (जैसे « owls को पसंद करना ») संप्रेषित कर सकते हैं (उदाहरण के लिए, trait से असंबंधित संख्याओं की sequences)। यह छिपी हुई transmission सुरक्षा के लिए महत्वपूर्ण प्रश्न उठाती है: कोई model training data के माध्यम से preferences या disalignment फैला सकता है बिना इसके कि वह प्रत्यक्ष inspection से detect हो। एक preprint जुलाई 2025 में प्रकाशित हुआ था।

🔗 Nature लेख — Subliminal Learning


GPT-5.4-Cyber और TAC program का विस्तार

14 अप्रैल — OpenAI अपने Trusted Access for Cyber (TAC) program का विस्तार हज़ारों सत्यापित individual defenders और critical software की सुरक्षा के लिए ज़िम्मेदार सैकड़ों teams तक घोषित करता है।

एक नया model, GPT-5.4-Cyber, अब program के उच्चतम tiers के उपयोगकर्ताओं के लिए उपलब्ध है। यह GPT-5.4 का एक variant है जो defensive cybersecurity के लिए optimized है, legitimate uses के लिए कम refusal threshold के साथ और binary reverse engineering की एक exclusive क्षमता के साथ (source code तक पहुँच के बिना compiled software का analysis)।

TAC program तीन levels में संचालित होता है:

  1. व्यक्तिगत उपयोगकर्ता: chatgpt.com/cyber पर identity verification
  2. कंपनियाँ: OpenAI representative के माध्यम से team access
  3. उच्च स्तर (GPT-5.4-Cyber access): मजबूत authentication + interest expression

2026 की शुरुआत में लॉन्च हुआ Codex Security पहले ही 3 000 से अधिक critical और high vulnerabilities को ठीक करने में योगदान दे चुका है।

🔗 OpenAI की आधिकारिक घोषणा


Gemini Personal Intelligence : वैश्विक deployment

15 अप्रैल — Gemini app की Personal Intelligence सुविधा अंतरराष्ट्रीय स्तर पर फैल रही है। अब तक यह केवल संयुक्त राज्य अमेरिका तक सीमित थी; अब यह दुनिया भर के Google AI Ultra, Pro और Plus subscribers के लिए उपलब्ध है, और जल्द ही free users तक rollout की योजना है।

Personal Intelligence Gemini को उपयोगकर्ता के Google apps — Search, Gmail, Google Photos और YouTube — से जुड़कर personalized और contextual answers देने में सक्षम बनाती है। Google ने यह भी घोषणा की कि सप्ताह के दौरान Google Chrome में भी Personal Intelligence आने वाली है।

🔗 Tweet @GeminiApp


Mistral Connectors MCP dans Studio (Public Preview)

15 अप्रैल — Mistral AI Connectors को Mistral Studio में सार्वजनिक पूर्वावलोकन (Public Preview) के रूप में लॉन्च करता है, जिससे MCP protocol के माध्यम से enterprise data sources को जोड़ना संभव होता है।

एक connector MCP-आधारित integration को एक पुन: प्रयोज्य entity में encapsulate करता है। एक बार पंजीकृत होने पर, इसे Studio में govern और monitor किया जाता है, और यह किसी भी conversation, agent या workflow के लिए एक native tool बन जाता है।

| Fonctionnalité | Détail | | ---------------------------- | -------------------------------------------------------------- | ----------------------------------------------------------------------------------------------------------- | | Integrated और custom MCPs | सभी model और agent requests के लिए उपलब्ध | | Direct tool calling | tools कब और कैसे invoke हों, इस पर सटीक नियंत्रण | | Human-in-the-loop validation | tools चलाने से पहले configurable approval flow | | Programmatic access | API के माध्यम से connectors का create, modify, list और delete | | Centralized registry | सभी Mistral apps (Le Chat, AI Studio, Vibe जल्द ही) में उपलब्ध | Intégrations prises en charge : CRM, bases de connaissances, outils de productivité, GitHub, recherche web. |

🔗 Annonce Mistral — Connectors


पूरी तरह से AI द्वारा निर्मित पहला ऑटोमोबाइल विज्ञापन स्पॉट

15 अप्रैल — Luma Agents ने पूरी तरह से AI द्वारा निर्मित पहला Mazda विज्ञापन स्पॉट तैयार किया। स्वतंत्र क्रिएटिव एजेंसी Boundless (जोहान्सबर्ग) ने MX-5 की कई पीढ़ियों और ब्रांड की दशकों लंबी स्टोरीटेलिंग को एक साथ लाने वाला अभियान बनाने के लिए Luma का उपयोग किया। संकल्पना से लेकर अंतिम स्वीकृति तक कुल समय: दो सप्ताह से कम।

Luma इस मामले को AI-नेटिव क्रिएटिव वर्कफ़्लो के उदाहरण के रूप में प्रस्तुत करता है: अधिक तेज़ उत्पादन, रचनात्मक दृष्टि से कोई समझौता नहीं।

🔗 Luma Labs — Boundless × Mazda


छोटी घोषणाएँ

Kling AI Skill (15 अप्रैल) — Kling अपने API का एक one-stop encapsulation लॉन्च कर रहा है ताकि उन्हें सीधे AI agents में एकीकृत किया जा सके। Agents Text/Image-to-Video generation, 4K image generation और cross-scene consistency तक पहुँच सकते हैं, बिना जटिल कॉन्फ़िगरेशन के। Claude Code, Cursor, Codex, Copilot के साथ संगत। 🔗 Kling AI Skill दस्तावेज़ीकरण

OpenCode में Qwen (15 अप्रैल) — Qwen3.6-Plus और Qwen3.5-Plus अब coding टूल OpenCode में उपलब्ध हैं। Qwen3.5-Plus, Qwen3.6-Plus से 3x सस्ता है, दोनों models images को support करते हैं और zero data retention प्रदान करते हैं। 🔗 @Alibaba_Qwen का Tweet

Copilot Cloud Agent — चयनात्मक सक्रियण (15 अप्रैल) — GitHub Enterprise admins अब custom properties के माध्यम से organization-by-organization आधार पर Copilot Cloud Agent को चयनात्मक रूप से सक्रिय कर सकते हैं। तीन नए REST endpoints इस policy को API द्वारा प्रबंधित करने की सुविधा देते हैं। 🔗 GitHub Changelog


इसका क्या अर्थ है

15 अप्रैल का दिन एक अभिसरण दिखाता है: बड़े खिलाड़ी अपने development environments को standardised agentic infrastructure से सुसज्जित कर रहे हैं। Claude Code Desktop, OpenAI Agents SDK और Mistral Connectors एक ही तर्क साझा करते हैं — कई agents को समानांतर में orchestrate करना, उन्हें primitives (MCP, AGENTS.md, shell, files) से लैस करना और उन्हें एक isolated execution environment देना।

सबसे महत्वपूर्ण घोषणा Claude Code Desktop का redesign है: sessions sidebar और side chat कई agents के साथ एक साथ काम करने के तरीके को बदल देते हैं, एक ऐसा उपयोग जो AI पर निर्भर developers के लिए धीरे-धीरे norm बनता जा रहा है।

Research की तरफ, Nature की subliminal learning पर publication और automated alignment researchers के experiment (PGR 0.97 for 18,000 $) से संकेत मिलता है कि Anthropic दीर्घकालिक risks की समझ में समानांतर निवेश कर रहा है — तात्कालिक productivity और structural safety के बीच एक संतुलन।


स्रोत

इस दस्तावेज़ का अनुवाद fr संस्करण से hi भाषा में gpt-5.4-mini मॉडल का उपयोग करके किया गया है। अनुवाद प्रक्रिया के बारे में अधिक जानकारी के लिए, https://gitlab.com/jls42/ai-powered-markdown-translator देखें