खोजें

ChatGPT Images 2.0 with thinking, Gemini Deep Research Max, NVIDIA x Adobe x WPP

ChatGPT Images 2.0 with thinking, Gemini Deep Research Max, NVIDIA x Adobe x WPP

21 अप्रैल 2026 को, तीन प्रमुख घोषणाएँ AI समाचारों पर हावी हैं: OpenAI अपने पहले तर्क-सक्षम इमेज मॉडल के साथ ChatGPT Images 2.0 लॉन्च करता है, Google DeepMind Gemini 3.1 Pro द्वारा संचालित दो स्वायत्त खोज एजेंट प्रस्तुत करता है, और NVIDIA Adobe तथा WPP के साथ त्रिपक्षीय साझेदारी को मज़बूत करते हुए एंटरप्राइज़ मार्केटिंग के लिए रचनात्मक एजेंटों को आगे बढ़ाता है। Claude Code, Codex और Git 2.54 टूलिंग अपडेट से भरपूर एक दिन को पूरा करते हैं।


ChatGPT Images 2.0 और gpt-image-2

21 अप्रैल — OpenAI ChatGPT Images 2.0 लॉन्च करता है, जो ChatGPT और Codex के सभी उपयोगकर्ताओं के लिए तुरंत उपलब्ध है। अंतर्निहित मॉडल, gpt-image-2, एक साथ API के माध्यम से उपलब्ध है।

यह नया संस्करण पिछली पीढ़ी की तुलना में एक बड़ा बदलाव दर्शाता है: विस्तृत निर्देशों का पालन (instruction following) काफी बेहतर है, वस्तुओं की सटीक स्थिति और संबंध अधिक विश्वसनीय हैं, घने पाठ का रेंडरिंग बेहतर किया गया है, और कई प्रारूप (पोर्ट्रेट, लैंडस्केप, स्क्वायर) मूल रूप से समर्थित हैं।

रिज़निंग मोड (thinking) प्रमुख नई विशेषता है। ChatGPT Images 2.0 OpenAI का पहला इमेज मॉडल है जिसमें तर्क करने की क्षमता है। thinking मोड में, जो Plus, Pro और Business ग्राहकों के लिए उपलब्ध है (Enterprise जल्द ही), मॉडल यह कर सकता है:

  • अद्यतन जानकारी के लिए वेब को रीयल टाइम में खोजना
  • एक ही prompt से कई अलग-अलग images बनाना
  • अपनी आउटपुट्स को स्वयं सत्यापित और सुधारना

OpenAI की शोध टीमों ने एक thread में उपयोग-मामलों का विवरण दिया: बहुभाषी रेंडरिंग और सटीक पाठ, स्लाइड्स और पेशेवर infographics, कई प्रारूप और resolutions, जटिल निर्देशों का पालन।

विशेषताउपलब्धता
ChatGPT Images 2.0 (standard)सभी ChatGPT और Codex उपयोगकर्ता
thinking मोडChatGPT Plus, Pro, Business (Enterprise जल्द ही)
API gpt-image-2अभी उपलब्ध

इस लॉन्च के लिए OpenAI की दिशा-रेखा: मॉडल “image generation से strategic design की ओर, एक tool से एक visual system की ओर” बढ़ता है।

🔗 ChatGPT Images 2.0 का परिचय 🔗 @OpenAI का Tweet


Google Deep Research और Deep Research Max

21 अप्रैल — Google DeepMind Gemini 3.1 Pro द्वारा संचालित दो स्वायत्त शोध एजेंट लॉन्च करता है: Deep Research और Deep Research Max

ये agents खुले web और custom data — आंतरिक दस्तावेज़, विशेष वित्तीय जानकारी — दोनों पर नेविगेट करके पूरी तरह cited पेशेवर रिपोर्ट तैयार करते हैं।

Deep Research गति और कम latency के लिए अनुकूलित है, उन interfaces के लिए आदर्श है जिन्हें तेज़ जवाब चाहिए। Deep Research Max iterative तरीके से तर्क करने, खोजों को परिष्कृत करने और उच्च गुणवत्ता वाली रिपोर्ट तैयार करने के लिए विस्तारित computation time (extended test-time compute) का उपयोग करता है — background में asynchronous processing के लिए बनाया गया।

विशेषताविवरण
MCP supportस्वामित्व वाली या तृतीय-पक्ष स्रोतों से सुरक्षित कनेक्शन
मूल दृश्य-निर्माणग्राफ़ और infographics बनाने वाला पहला agent (HTML या Nano Banana 2)
सहयोगी planningउपयोगकर्ता execution से पहले research plan को बेहतर बना सकता है
MultimodalityPDFs, CSVs, images, audio, video इनपुट के रूप में स्वीकार किए जाते हैं
उपलब्धताGemini API, paywalled third parties, public preview

मूल दृश्य-निर्माण उल्लेखनीय है: Deep Research Max अपनी रिपोर्टों में सीधे HTML या Nano Banana 2 के माध्यम से graphs और infographics बना सकता है, बिना किसी external tool के। Google Cloud startups और enterprises को जल्द घोषित होने वाली उपलब्धता से लाभ मिलेगा।

🔗 @GoogleDeepMind की घोषणा 🔗 blog.google का लेख


NVIDIA × Adobe × WPP — एंटरप्राइज़ मार्केटिंग के लिए रचनात्मक एजेंट

20 अप्रैल — NVIDIA ने एंटरप्राइज़ marketing operations में autonomous AI agents तैनात करने के लिए Adobe और WPP के साथ अपनी रणनीतिक collaborations का विस्तार किया। इस घोषणा के साथ Adobe Summit में 21 अप्रैल को एक live demonstration भी है, जिसमें Jensen Huang (CEO NVIDIA) और Shantanu Narayen (CEO Adobe) शामिल हैं।

नई समाधान Adobe CX Enterprise Coworker निम्न पर आधारित AI agents द्वारा संचालित है:

  • NVIDIA OpenShell : agentic workflows के लिए एक सुरक्षित, observable और auditable execution environment
  • NVIDIA Agent Toolkit और open-source Nemotron models
  • NVIDIA AI infrastructure द्वारा तेज़ किया गया Adobe Firefly Foundry

व्यावहारिक रूप से, एक वैश्विक retailer अब महीनों की बजाय कुछ ही मिनटों में लाखों product/audience/channel combinations बना सकता है। 3D digital twins (Omniverse + OpenUSD) persistent product identities के रूप में काम करते हैं ताकि बड़े पैमाने पर उच्च-विश्वसनीय content production को स्वचालित किया जा सके।

🔗 blogs.nvidia.com का लेख 🔗 @NVIDIAAI का Tweet


Claude Code v2.1.116

19–21 अप्रैल — Claude Code v2.1.116 प्रदर्शन, विश्वसनीयता और terminal अनुभव पर लक्षित सुधारों की एक श्रृंखला लाता है।

सबसे स्पष्ट अपडेट: /resume कमांड बड़े sessions (40 Mo+) पर 67 % तक तेज़ है, “dead-fork” inputs के बेहतर प्रबंधन के साथ। कई stdio servers configured होने पर MCP startup भी तेज़ है।

उपयोगकर्ता अनुभव:

  • thinking indicator अब inline progress दिखाता है (“still thinking”, “thinking more”, “almost done thinking”), अलग hint line की जगह
  • /config option value से खोज सकता है (उदा.: “vim” खोजने पर Editor mode parameter मिलता है)
  • /doctor को Claude के जवाब देते समय, turn खत्म होने की प्रतीक्षा किए बिना खोला जा सकता है

सुरक्षा: auto-allow sandbox अब rm/rmdir द्वारा /, $HOME या अन्य महत्वपूर्ण system directories को लक्षित करने पर dangerous path verification को bypass नहीं करता।

8 terminal fixes में शामिल हैं: Kitty keyboard protocol (Ctrl+-, Cmd+Left/Right), Devanagari scripts rendering, wrapper process द्वारा Ctrl+Z blocking, inline mode में scrollback duplication, और कई VS Code/Warp/Ghostty fixes।

श्रेणीमुख्य परिवर्तन
प्रदर्शन/resume 40 Mo+ sessions पर 67 % तेज़
UXप्रगतिशील thinking spinner, /config by value
सुरक्षाSandbox critical paths की सुरक्षा का सम्मान करता है
टर्मिनल8 fixes (Kitty, VS Code, Warp, Ghostty, WezTerm)
Pluginsगायब dependencies की auto-install

🔗 Claude Code CHANGELOG


Claude Cowork में Live Artifacts

20 अप्रैल — Anthropic Claude Cowork में “Live Artifacts” लॉन्च करता है: उपयोगकर्ता के applications और files से सीधे जुड़े dynamic dashboards और trackers।

पारंपरिक artifacts (स्थिर) के विपरीत, Live Artifacts खुलने पर स्वतः current data के साथ refresh हो जाते हैं। वे version history वाले एक नए dedicated tab में सहेजे जाते हैं, जो किसी भी session से सुलभ है।

“In Cowork, Claude can now build live artifacts: dashboards and trackers connected to your apps and files. Open one any time and it refreshes with current data.”

🇮🇳 “Cowork में, Claude अब dynamic artifacts बना सकता है: आपके applications और files से जुड़े dashboards और trackers। इसे किसी भी समय खोलें और यह वर्तमान data के साथ refresh हो जाता है।”X पर @claudeai

यह सुविधा Claude app के update के माध्यम से सभी paid plans पर उपलब्ध है।

🔗 @claudeai की घोषणा


Codex in enterprise: Codex Labs और 7 integration partners

21 अप्रैल — OpenAI Codex की enterprise तैनाती में एक नया कदम आगे बढ़ाता है: 4 million developers इसे हर हफ्ते उपयोग करते हैं (अप्रैल की शुरुआत में 3 million के मुकाबले, यानी दो हफ्तों में +33 %), और साथ ही Codex Labs तथा 7 global integrators के साथ partnerships program लॉन्च करता है।

Codex Labs OpenAI experts को सीधे संगठनों में practical workshops और working sessions के लिए लाता है, जिसका उद्देश्य teams को experimental usage से reproducible deployment तक पहुँचने में मदद करना है।

7 GSI partners: Accenture, Capgemini, CGI, Cognizant, Infosys, PwC और Tata Consultancy Services

कंपनीCodex उपयोग
Virgin AtlanticTest coverage, technical debt में कमी
RampCode review गति बढ़ाना
Notionनई features का तेज़ development
Ciscoबड़े interconnected repositories को समझना
RakutenIncident response

Codex अब software development से आगे बढ़ रहा है: browser navigation, image generation, memory, cross-functional task orchestration।

🔗 दुनिया भर में enterprises के लिए Codex को scale करना


Google AI Studio में Nano Banana Pro

20 अप्रैलGoogle AI Pro और Ultra subscribers को अब बिना API key के Google AI Studio तक विस्तारित access मिलता है: Nano Banana Pro और बढ़ी हुई usage limits के साथ Gemini Pro models तक access।

यह prototype से production में जाने के लिए अपने subscriber account से sign in करना जितना सरल है। यह विकास Google AI subscription को उन developers के लिए एक व्यावहारिक bridge के रूप में स्थापित करता है जो request-based billing की जटिलता के बिना experiment करना चाहते हैं।

🔗 @GoogleAI की घोषणा 🔗 blog.google का लेख


Kimi FlashKDA open-source

21 अप्रैल — Moonshot AI FlashKDA को open-source में जारी करता है, जो Kimi Delta Attention (KDA) kernels का उनका उच्च-प्रदर्शन CUTLASS implementation है।

मीट्रिकमान
baseline की तुलना में prefill speedupH20 पर 1,72× से 2,22×
एकीकरणflash-linear-attention के लिए drop-in backend
आवश्यकताएँSM90+, CUDA 12.9+, PyTorch 2.4+

FlashKDA flash-linear-attention के लिए एक interchangeable (drop-in) backend के रूप में काम करता है। एकीकरण fla-org/flash-linear-attention#852 PR के माध्यम से उपलब्ध है।

🔗 FlashKDA GitHub repo 🔗 @Kimi_Moonshot का Tweet


Git 2.54

20 अप्रैल — Git 2.54 तीन संरचनात्मक विकासों के साथ उपलब्ध है।

git history (experimental) — इतिहास को फिर से लिखने के लिए नया subcommand, git rebase -i के बिना:

  • git history reword <commit> : एक commit के संदेश को बदलना और branches को in place फिर से लिखना
  • git history split <commit> : एक commit को interactive रूप से दो भागों में बाँटना

Config-based hooks — Hooks अब केवल .git/hooks में नहीं, बल्कि Git configuration files में भी परिभाषित किए जा सकते हैं। इससे ~/.gitconfig के माध्यम से कई repositories में साझा करना, एक ही event के लिए कई hooks, और hook.<name>.enabled = false के माध्यम से अलग-अलग disable करना संभव होता है।

Geometric repacking by defaultgit maintenance अब default रूप से geometric strategy का उपयोग करता है, बिना अतिरिक्त configuration के performance सुधारते हुए।

🔗 Git 2.54 से मुख्य बिंदु 🔗 @github का Tweet


Genspark Build सार्वजनिक preview में

21 अप्रैल — Genspark Genspark Build को public preview में लॉन्च करता है: Claude Opus 4.7 द्वारा संचालित application और web site निर्माण tool, जो विचार से design mockup, prototype और functional code तक की पूरी प्रक्रिया को कवर करता है।

Plus और Pro उपयोगकर्ताओं को 21 से 24 अप्रैल (9h PT) तक बिना credit के 3 दिनों का access मिलता है। Genspark स्पष्ट करता है कि वह “rough edges and all” लॉन्च कर रहा है — tool सक्रिय निर्माण में है।

उसी दिन, Genspark अपने AI Music Agent में Lyria 3 Music और अपने AI Audio Agent में Gemini 3.1 Flash TTS भी जोड़ता है।

🔗 Genspark Build का Tweet 🔗 Lyria 3 + TTS का Tweet


Cohere — MoE मॉडल्स के लिए speculative decoding पर शोध

21 अप्रैल — Cohere Mixture-of-Experts (MoE) models को speculative decoding (speculative decoding) के साथ optimize करने पर एक तकनीकी शोध लेख प्रकाशित करता है।

टीम production में उपयोग किए जाने वाले अपने MoE models — जिनमें Command A (111 billion parameters) शामिल है — पर batch size के अनुसार non-monotonic gain curve को मान्य करती है: gains पहले बढ़ते हैं, फिर घटते हैं। दो प्रमुख mechanisms पहचाने गए हैं: expert routing में temporal correlation memory में लोड किए जाने वाले unique experts की संख्या को 20 से 31 % तक कम करती है, और fixed costs का amortization BS=1 पर उच्च gains की व्याख्या करता है।

🔗 Cohere का लेख


Genspark Claw : Kimi K2.6 पहले दिन से ही

21 अप्रैल — Genspark लॉन्च के दिन ही (Day 0) अपने Claw tool में Kimi K2.6 को एकीकृत करता है, Fireworks AI के साथ साझेदारी के माध्यम से जिसने pre-launch और testing चरणों में सहायता की।

🔗 @genspark_ai का Tweet


Anthropic STEM Fellows Program

21 अप्रैल — Anthropic STEM Fellows program लॉन्च करता है, जो San Francisco में स्थित कुछ महीनों की research projects पर research teams के साथ काम करने के लिए science और engineering experts को लक्षित करता है।

🔗 @AnthropicAI की घोषणा


इसका क्या अर्थ है

21 अप्रैल reasoning और multimodal generation के बीच एक convergence को चिह्नित करता है। gpt-image-2 एक स्पष्ट प्रवृत्ति दिखाता है: generative models केवल quality improvement के रूप में नहीं, बल्कि orchestration layer के रूप में reasoning को शामिल कर रहे हैं। परिणाम एक ऐसा model है जो एक ही session में खोज, निर्माण, सत्यापन और सुधार कर सकता है।

Deep Research Max शोध पक्ष में उसी तर्क को आगे बढ़ाता है: MCP support के साथ, agent संरचित proprietary data तक पहुँच सकता है, जिससे sensitive data को third-party services में export किए बिना autonomous analytical workflows का मार्ग खुलता है।

NVIDIA × Adobe × WPP साझेदारी संकेत देती है कि AI creativity का enterprise adoption pilot चरण से बाहर जा रहा है। Auditable runtime के रूप में OpenShell बड़े संगठनों की एक वास्तविक बाधा का समाधान करता है: autonomous agents को केवल performant ही नहीं, बल्कि observable और traceable भी होना चाहिए।

टूलिंग के मामले में, Git 2.54 के config-based hooks एक सूक्ष्म लेकिन महत्वपूर्ण architectural evolution हैं: ~/.gitconfig के माध्यम से repos के बीच साझा hooks स्थानीय CI workflows के standardization के लिए team practices को बदल देंगे।


स्रोत - ChatGPT Images 2.0 का परिचय

यह दस्तावेज़ fr संस्करण से hi भाषा में gpt-5.4-mini मॉडल का उपयोग करके अनुवादित किया गया है। अनुवाद प्रक्रिया के बारे में अधिक जानकारी के लिए, https://gitlab.com/jls42/ai-powered-markdown-translator देखें