खोजें

GPT-5.4: नेटिव कंप्यूटर उपयोग, NotebookLM सिनेमैटिक वीडियो, Windows पर Codex

GPT-5.4: नेटिव कंप्यूटर उपयोग, NotebookLM सिनेमैटिक वीडियो, Windows पर Codex

सप्ताह कई महत्वपूर्ण घोषणाओं के साथ समाप्त हो रहा है: OpenAI का GPT-5.4 नेटिव computer use को मजबूत करता है, OSWorld पर 75% तक पहुंचता है और 1 मिलियन tokens की context विंडो देता है, NotebookLM ने Gemini को निर्देशक बनाकर Cinematic Video Overviews पेश किए हैं, और Codex ने Windows के लिए सपोर्ट बढ़ाया है जिसमें एक नेटिव sandbox शामिल है। डेवलपर टूलिंग की ओर, Anthropic ने skill-creator को बेहतर किया और Claude Code में HTTP hooks लॉन्च किए, GitHub ने Pro उपयोगकर्ताओं के लिए Copilot Memory डिफ़ॉल्ट रूप से सक्रिय कर दिया।


GPT-5.4 — नेटिव computer use, 1M tokens, टूल सर्च

5 मार्च 2026 — OpenAI ने GPT-5.4 लॉन्च किया, अपना frontier मॉडल पेशेवर काम के लिए। यह ChatGPT (नाम से GPT-5.4 Thinking), API (पहचान gpt-5.4) और Codex में उपलब्ध है; यह मॉडल एक ही आर्किटेक्चर में पिछले मॉडलों से आए reasoning, coding और agentic workflows क्षमताओं को समेकित करता है।

सबसे महत्वपूर्ण तकनीकी नवप्रवर्तन नेटिव computer use का एकीकरण है: GPT-5.4 स्क्रीनशॉट और कीबोर्ड/माउस के माध्यम से ग्राफिकल इंटरफेस्स को बिना तृतीय-पक्ष प्लग-इन के ऑपरेट कर सकता है। OSWorld-Verified — वास्तविक सॉफ़्टवेयर इंटरफेस पर इंटरैक्शन के लिए संदर्भ benchmark — पर GPT-5.4 ने 75.0 % हासिल किया, जबकि GPT-5.2 का स्कोर 47.3 % था। Codex और API में context विंडो 1 मिलियन tokens तक बढ़ा दी गई है।

एक और ध्यान देने योग्य नवप्रवर्तन है tool search: अब मॉडल को हर कॉल पर उपलब्ध टूल्स की पूरी सूची नहीं दी जाती, बल्कि मॉडल हल्की सूची प्राप्त करता है और जरूरत पड़ने पर टूल्स खोजता है। OpenAI ने बताया कि यह बहु-टूल वर्कफ़्लो पर token की खपत में 47% तक कमी लाता है (Scale MCP Atlas पर परीक्षण)। Codex में /fast मोड समान बुद्धिमत्ता पर 1.5× तेज़ी दिखाता है।

Benchmarks :

ÉvaluationGPT-5.4GPT-5.3-CodexGPT-5.2
GDPval (travail professionnel)83,0 %70,9 %70,9 %
SWE-Bench Pro57,7 %56,8 %55,6 %
OSWorld-Verified (computer use)75,0 %74,0 %47,3 %
BrowseComp (recherche web)82,7 %77,3 %65,8 %
Toolathlon (utilisation d’outils)54,6 %51,9 %46,3 %
ARC-AGI-2 (raisonnement abstrait)73,3 %52,9 %

API कीमतें :

ModèleEntréeSortie
gpt-5.21,75 $ / M tokens14 $ / M tokens
gpt-5.42,50 $ / M tokens15 $ / M tokens
gpt-5.2-pro21 $ / M tokens168 $ / M tokens
gpt-5.4-pro30 $ / M tokens180 $ / M tokens

GPT-5.4 Thinking आज से ChatGPT Plus, Team और Pro सब्सक्राइबर्स के लिए उपलब्ध है। GPT-5.2 Thinking «Legacy Models» में 5 जून 2026 तक उपलब्ध रहेगा। सुरक्षा के लिहाज़ से, OpenAI ने GPT-5.4 को अपने Preparedness Framework में «High cyber capability» के रूप में वर्गीकृत किया है। कंपनी ने साथ ही CoT-Control प्रकाशित किया, एक ओपन-सोर्स इवैल्यूएशन सूट जो 13 frontier मॉडलों की chain-of-thought controllability को मापता है — स्कोर कम (0.1 % से 15.4 %) हैं, जो दर्शाते हैं कि chain-of-thought की निगरानी सुरक्षा के लिए अभी भी एक भरोसेमंद साधन बनी हुई है।

🔗 GPT-5.4 का परिचय | OpenAI


NotebookLM — Cinematic Video Overviews

4 मार्च 2026 — NotebookLM ने अपने Studio में Cinematic Video Overviews पेश किए। ये वीडियो 2024 में लॉन्च किए गए Audio Overviews (podcast फॉर्मेट) और मानक वीडियो templates से आगे जाते हैं।

सिद्धांत यह है: Gemini को निर्देशक के रूप में तैनात किया जाता है। मॉडल उपयोगकर्ता के स्रोतों का विश्लेषण करता है, सबसे उपयुक्त फॉर्मैट (ट्यूटोरियल, डॉक्यूमेंटरी, आदि) चुनता है, एक दृश्य शैली निर्धारित करता है, इमेजें जनरेट करता है, फिर आत्म-समालोचना करके अंतिम संस्करण बनाता है। परिणाम एक इमर्सिव, व्यक्तिगत वीडियो है, जो हर स्रोत-सेट के लिए अनोखा होता है।

यह फीचर Google AI Ultra सब्सक्राइबर्स के लिए अंग्रेज़ी में 4 मार्च 2026 से उपलब्ध है। उसी दिन Ultra उपयोगकर्ताओं के लिए पूर्ण रोलआउट की पुष्टि की गई थी। Pro सब्सक्राइबर्स के लिए एक्सेस रोडमैप में है, पर कोई निश्चित तारीख नहीं दी गई। घोषणा वाले ट्वीट ने 3 मिलियन व्यूज़ जुटाए।

🔗 NotebookLM पर घोषणा | X


OpenAI — Windows पर Codex, CoT-Control रिसर्च

Windows पर Codex उपलब्ध

4 मार्च 2026 — Codex ऐप अब Windows पर उपलब्ध है, जिसमें एक नेटिव एजेंट sandbox और PowerShell के जरिए Windows development environments का समर्थन शामिल है। दो नई skills उपलब्ध हैं: $aspnet-core Blazor, ASP.NET MVC और Razor Pages के लिए, और $winui-app WinUI 3 के साथ नेटिव Windows ऐप्स के लिए।

🔗 @OpenAIDevs पर X

रिसर्च — chain-of-thought की controllability

5 मार्च 2026 — OpenAI ने प्रकाशित किया «Les modèles de raisonnement peinent à contrôler leurs chaînes de pensée, et c’est une bonne chose» (Reasoning models struggle to control their chains of thought, and that’s good). ओपन-सोर्स इवैल्यूएशन सूट CoT-Control 13 frontier मॉडलों की chain-of-thought controllability को मापता है। स्कोर 0.1 % से 15.4 % के बीच हैं, जो यह संकेत देते हैं कि मौजूदा मॉडल जानबूझकर अपने reasoning को बदलकर निगरानी प्रणालियों को चकमा देने में असफल रहते हैं — इस परिणाम को सुरक्षा के लिहाज़ से सकारात्मक बताया गया है। OpenAI ने कहा है कि ये मीट्रिक्स भविष्य के मॉडल्स की system cards में शामिल किए जाएंगे।

🔗 CoT-Control रिसर्च | OpenAI


Anthropic — Skill-creator और HTTP hooks

Skill-creator बेहतर हुआ

3 मार्च 2026 — Anthropic ने Claude Code और Claude.ai के लिए अपने skill-creator टूल का बड़ा अपडेट जारी किया। घोषणा में दो औपचारिक Agent Skills प्रकार पेश किए गए हैं:

TypeDescriptionDurabilité
Capability upliftClaude को कुछ ऐसा करने में मदद करता है जो वह अभी अच्छे से नहीं कर पातामॉडल बेहतर होने पर obsolete हो सकता है
Encoded preferenceएक टीम के प्रक्रियाओं और प्राथमिकताओं को encode करता हैटिकाऊ, वास्तविक workflow की निष्ठा पर निर्भर

नई खूबियाँ: एक्चुअल रिज़ल्ट की पुष्टि के लिए evals (स्वचालित परीक्षण), सफलता दर, समय और token खपत को मापने के लिए benchmark मोड, और multi-agent सपोर्ट जो परस्पर परीक्षणों के cross-contamination के बिना समानांतर परीक्षण चलाने देता है। एक A/B comparator मोड दो संस्करणों की तुलना करने की अनुमति देता है। skill-creator अब Claude.ai और Cowork पर उपलब्ध है; Claude Code के लिए यह plugin के रूप में install होता है।

🔗 Improving skill-creator: Test, measure, and refine Agent Skills

Claude Code में HTTP hooks

4 मार्च 2026 — Claude Code ने HTTP hooks लॉन्च किए, जो मौजूदा command hooks का एक विकल्प हैं। स्थानीय shell स्क्रिप्ट चलाने के बजाय, Claude Code उपयोगकर्ता द्वारा चुनी गई URL पर एक इवेंट भेजता है और प्रतिक्रिया का इंतज़ार करता है। उपयोग के मामले: प्रगति को visualize करने के लिए वेब ऐप बनाना, permissions को manage करना, या Claude Code की कई इंस्टेंस के बीच स्थिति को किसी डेटाबेस के जरिए sync करना। HTTP hooks plugins, कस्टम एजेंट्स और प्रबंधित एंटरप्राइज़ सेटिंग्स में काम करते हैं।

🔗 Tweet @dickson_tsai


Gemini CLI v0.32.0 — डिफ़ॉल्ट रूप से Generalist Agent

3 मार्च 2026 — Gemini CLI v0.32.0 ने डिफ़ॉल्ट रूप से Generalist Agent को सक्रिय किया ताकि टास्क डेलीगेशन और राउटिंग बेहतर हो सके। अपडेट में workspace में सीधे Model Steering, Plan Mode में सुधार (बाहरी editor में योजनाओं का खोलना/संशोधन, जटिल कार्यों के लिए multi-selection), शेल में interactive autocompletion, और बेहतर स्टार्टअप परफॉर्मेंस के लिए extensions का parallel लोड शामिल है।

🔗 Changelog Gemini CLI


GitHub Copilot — डिफ़ॉल्ट Memory, मोबाइल नोटिफिकेशन और मीट्रिक्स

Copilot Memory डिफ़ॉल्ट रूप से सक्रिय

4 मार्च 2026 — GitHub ने Pro और Pro+ योजना के सभी उपयोगकर्ताओं के लिए Copilot Memory डिफ़ॉल्ट रूप से सक्रिय कर दी है। यह फीचर, जो पहले opt-in पर प्रीव्यू में थी, Copilot को रिपॉज़िटरी-स्तर पर स्थायी जानकारी याद रखने की अनुमति देती है: कोडिंग कन्वेंशन्स, आर्किटेक्चरल पैटर्न्स, महत्वपूर्ण निर्भरताएँ।

मेमोरीज़ सख्ती से एक ही रिपॉज़िटरी तक सीमित हैं और लागू करने से पहले वर्तमान कोड के खिलाफ validate की जाती हैं, जिससे obsolete संदर्भों का उपयोग टालना सुनिश्चित होता है। वे 28 दिनों के बाद स्वतः expire हो जाती हैं। यह फीचर कोडिंग एजेंट, कोड रिव्यू और CLI Copilot पर सक्रिय है — किसी एजेंट द्वारा खोजे गए ज्ञान तुरंत दूसरों के लिए उपलब्ध हो जाते हैं। उपयोगकर्ता Settings > Features > Copilot Memory में Copilot Memory को बंद कर सकते हैं; Enterprise एडमिन्स के पास पूर्ण नियंत्रण रहता है।

🔗 Copilot Memory now on by default for Pro and Pro+ users

GitHub Mobile में एजेंट्स के लिए लाइव नोटिफिकेशन

4 मार्च 2026 — GitHub Mobile को Copilot एजेंट्स की सेशन के लिए रीयल-टाइम नोटिफिकेशन मिले हैं। डेवलपर्स अपने एजेंट्स की प्रगति को ट्रैक कर सकते हैं, चाहे सेशन कंप्यूटर से शुरू की गई हो या फोन से।

🔗 GitHub Mobile | X पर घोषणा

Copilot Free Auto में Grok Code Fast 1

4 मार्च 2026 — GitHub ने Copilot Free की Auto मॉडल चयन में xAI का Grok Code Fast 1 जोड़ दिया है। अब यह मॉडल Copilot द्वारा Visual Studio Code, Visual Studio, JetBrains IDEs, Xcode और Eclipse में चैट सेशन्स के दौरान चुना जा सकता है।

🔗 Grok Code Fast 1 in Copilot Free auto model selection

उपयोगकर्ता-स्तर की Copilot CLI मीट्रिक्स

5 मार्च 2026 — GitHub ने Copilot उपयोग मीट्रिक्स में CLI गतिविधि का user-level कवरेज जोड़ा। यह अपडेट पिछले सप्ताह की enterprise-स्तर रिलीज़ का विस्तार है। अब एडमिन्स CLI पर सक्रिय उपयोगकर्ताओं की पहचान कर सकते हैं, अनुरोधों और सेशन्स की संख्या देख सकते हैं, और उपयोगकर्ता-विशेष token खपत को ट्रैक कर सकते हैं।

🔗 Copilot usage metrics — user-level CLI activity


Perplexity — GPT-5.4 और Voice Mode in Computer

Perplexity पर GPT-5.4 Thinking उपलब्ध

5 मार्च 2026 — GPT-5.4 और GPT-5.4 Thinking अब Perplexity पर Pro और Max सब्सक्राइबर्स के लिए उपलब्ध हैं। Thinking वर्जन GPT-5.4 का विस्तारित reasoning सक्षम करता है ताकि जटिल प्रश्नों पर गहन उत्तर मिलें।

🔗 X पर घोषणा

Perplexity Computer में Voice Mode

4 मार्च 2026 — Perplexity ने Perplexity Computer में Voice Mode पेश किया। यह इंटरफ़ेस, जो पहले से प्रोजेक्ट्स खोजने, कोड करने और डिप्लॉय करने की अनुमति देता था, अब सीधे आवाज़ आदेश स्वीकार करता है।

🔗 X पर घोषणा


Cohere × Aston Martin F1 — बहु-वर्षीय साझेदारी

4 मार्च 2026 — Cohere ने Aston Martin Aramco F1 टीम के साथ बहु-वर्षीय साझेदारी की घोषणा की। टीम का हर सदस्य enterprise मॉडल्स और Cohere की agentic AI प्लेटफ़ॉर्म (North) तक पहुँच पाएगा ताकि विश्व के सबसे मांग वाले डेटा पर्यावरणों में काम किया जा सके। Cohere का लोगो 2026 ऑस्ट्रेलियन GP से कार पर दिखाई देगा।

🔗 Cohere पर घोषणा | X


Black Forest Labs — Self-Flow, मल्टी-मॉडल रिसर्च

4 मार्च 2026 — Black Forest Labs (FLUX के निर्माता) ने research preview में Self-Flow प्रकाशित किया। यह दृष्टिकोण बाहरी प्रतिनिधित्व मॉडलों पर निर्भर किए बिना multi-modal जनरेटिव मॉडल्स (image, video, audio, टेक्स्ट) को train करता है, एक self-supervised flow matching पद्धति के माध्यम से।

प्रदर्शित परिणाम: cross-modal convergence में तक 2.8× तेज़ी, वीडियो में बेहतर temporal coherence, और टाइपोग्राफ़ी रेंडरिंग में तेज़ी। डेमो में 6M वीडियो पर प्रशिक्षित 4B-पैरामीटर वीडियो मॉडल, 200M इमेज पर प्रशिक्षित 4B-पैरामीटर इमेज मॉडल, और एक ऑडियो-विडियो संयुक्त मॉडल शामिल हैं। BFL Self-Flow को world models की ओर एक मार्ग के रूप में प्रस्तुत करता है: “Self-Flow opens a path toward world models: combining visual scalability with semantic abstraction for planning and understanding.”

🔗 Tweet @bfl_ml


संक्षेप में

Runway ने 3 मार्च को एक unified models hub लॉन्च किया, जो प्लेटफ़ॉर्म के भीतर सीधे image, video, audio और language के थर्ड-पार्टी मॉडल्स तक केंद्रीकृत पहुँच देता है। 🔗 घोषणा

Claude ने 5 मार्च को एक ही समय में 14 देशों के iOS App Store में 1ला स्थान हासिल किया — ऑस्ट्रेलिया, ऑस्ट्रिया, बेल्जियम, कनाडा, फ्रांस, जर्मनी, आयरलैंड, इटली, न्यूज़ीलैंड, नॉर्वे, सिंगापुर, स्विट्ज़रलैंड, यूनाइटेड किंगडम, संयुक्त राज्य। 🔗 Tweet

Manus ने अपने पहले वर्ष के अवसर पर 5 मार्च को अपनी वार्षिक पत्रिका प्रकाशित की, उपयोगकर्ताओं की गवाही (एक माँ, 86 वर्षीय भाषावैज्ञानिक, एक फ्लोरिस्ट) को उजागर करते हुए। 🔗 पत्रिका

Grok ने अमेरिकी App Store पर एक मिलियन समीक्षाओं का आंकड़ा पार कर लिया। 🔗 Tweet @grok


इसका क्या मतलब है

GPT-5.4 पुष्टि करता है कि computer use अब प्रायोगिक स्थिति से हटकर एक बहुपयोगी मॉडल में इन-बिल्ट सुविधा बन चुका है। OSWorld-Verified पर 75% का स्कोर और tool search के जरिए 47% token की कमी पार्थक्यपूर्ण संकेत हैं: AI एजेंट अब जटिल सॉफ़्टवेयर इंटरफेसों को विशेष इंफ्रास्ट्रक्चर के बिना संचालित कर सकते हैं।

डेवलपर टूलिंग की ओर देखा जाए तो सप्ताह में एक अभिसरण दिखाई देता है: Anthropic ने एजेंट स्किल्स को परीक्षण और मॉनिटर करने के तरीके सुधारे, GitHub ने अपने कोडिंग एजेंट्स के लिए स्थायी मेमोरी चालू कर दी, और Perplexity ने अपने Computer एजेंट में voice mode जोड़ा। agentic runtimes में मेमोरी, observability (HTTP hooks, मोबाइल नोटिफिकेशन) और नेचुरल इंटरैक्शन (वॉइस) की परतें जुड़ रही हैं।

NotebookLM के Cinematic Video Overviews एक अलग उपयोग को दर्शाते हैं: व्यक्तिगत स्रोतों से लंबी-फॉर्म शैक्षिक सामग्री जनरेट करना। Gemini को निर्देशक के रूप में रखना — विश्लेषण करना, आलोचना करना, पुनर्निर्माण करना — IA को एक क्रिएटिव प्रोडक्शन मेटा-टूल के रूप में इस्तेमाल करने का एक तरीका है, न कि केवल जेनरेटिव असिस्टेंट के रूप में।


स्रोत - GPT-5.4 का परिचय | OpenAI

यह दस्तावेज़ fr संस्करण से hi भाषा में gpt-5-mini मॉडल का उपयोग करके अनुवादित किया गया है। अनुवाद प्रक्रिया के बारे में अधिक जानकारी के लिए, देखें https://gitlab.com/jls42/ai-powered-markdown-translator