ChatGPT Images 2.0 mit Thinking, Gemini Deep Research Max, NVIDIA x Adobe x WPP

Am 21. April 2026 dominieren drei große Ankündigungen die KI-Nachrichten: OpenAI veröffentlicht ChatGPT Images 2.0 mit seinem ersten Bildmodell, das zu reasoning-fähigem Arbeiten in der Lage ist, Google DeepMind stellt zwei autonome Such-Agenten vor, die von Gemini 3.1 Pro angetrieben werden, und NVIDIA festigt eine dreiseitige Partnerschaft mit Adobe und WPP rund um kreative Agents für Unternehmensmarketing. Claude Code, Codex und Git 2.54 runden einen Tag voller Tooling-Updates ab.

ChatGPT Images 2.0 und gpt-image-2

21. April — OpenAI veröffentlicht ChatGPT Images 2.0, sofort verfügbar für alle ChatGPT- und Codex-Nutzer. Das zugrunde liegende Modell, gpt-image-2, ist gleichzeitig über die API verfügbar.

Diese neue Version markiert einen Bruch gegenüber der vorherigen Generation: das Befolgen detaillierter Anweisungen (instruction following) ist deutlich verbessert, die Platzierung und präzise Beziehung von Objekten ist zuverlässiger, die Darstellung dichter Texte wurde überarbeitet, und mehrere Formate (Portrait, Landschaft, Quadrat) werden nativ unterstützt.

Der Thinking-Modus (thinking) ist die wichtigste Neuerung. ChatGPT Images 2.0 ist das erste Bildmodell von OpenAI mit Reasoning-Fähigkeiten. Im thinking-Modus, verfügbar für Plus-, Pro- und Business-Abonnenten (Enterprise folgt bald), kann das Modell:

Das Web in Echtzeit nach aktuellen Informationen durchsuchen
Mehrere unterschiedliche Bilder aus einem einzigen Prompt generieren
Eigene Ausgaben selbst überprüfen und korrigieren

Die Forschungsteams von OpenAI haben die Anwendungsfälle in einem Thread erläutert: mehrsprachige Darstellung und präziser Text, professionelle Folien und Infografiken, mehrere Formate und Auflösungen, komplexes Befolgen von Anweisungen.

Funktion	Verfügbarkeit
ChatGPT Images 2.0 (Standard)	Alle ChatGPT- und Codex-Nutzer
Thinking-Modus	ChatGPT Plus, Pro, Business (Enterprise bald)
API gpt-image-2	Ab sofort verfügbar

Die Leitlinie von OpenAI für diesen Launch: Das Modell „geht von der Bilderzeugung zum strategischen Design über, von einem Werkzeug zu einem visuellen System“.

🔗 ChatGPT Images 2.0 vorstellen 🔗 Tweet @OpenAI

Google Deep Research und Deep Research Max

21. April — Google DeepMind startet zwei autonome Such-Agenten, die von Gemini 3.1 Pro angetrieben werden: Deep Research und Deep Research Max.

Diese Agents navigieren sowohl im offenen Web als auch über personalisierte Daten — interne Dokumente, spezialisierte Finanzinformationen —, um vollständig zitierte, professionelle Berichte zu erstellen.

Deep Research ist auf Geschwindigkeit und geringe Latenz optimiert, ideal für Oberflächen, die schnelle Antworten benötigen. Deep Research Max nutzt eine verlängerte Rechenzeit (extended test-time compute), um iterativ zu reasoning, Suchen zu verfeinern und einen hochwertigen Bericht zu erstellen — konzipiert für asynchrone Hintergrundverarbeitung.

Funktion	Detail
MCP-Support	Sichere Verbindung zu proprietären oder externen Quellen
Native Visual-Erzeugung	Erster Agent, der Diagramme und Infografiken generiert (HTML oder Nano Banana 2)
Kollaborative Planung	Der Nutzer kann den Forschungsplan vor der Ausführung verfeinern
Multimodalität	PDFs, CSVs, Bilder, Audio, Video als Input akzeptiert
Verfügbarkeit	Gemini API, kostenpflichtige Drittanbieter, öffentliche Vorschau

Die native Visual-Erzeugung ist bemerkenswert: Deep Research Max kann Diagramme und Infografiken direkt in seinen Berichten erzeugen, in HTML oder über Nano Banana 2, ohne externes Tool. Startups und Unternehmen von Google Cloud werden von einer bald angekündigten Verfügbarkeit profitieren.

🔗 Ankündigung @GoogleDeepMind 🔗 Artikel blog.google

NVIDIA × Adobe × WPP — Kreative Agents für Unternehmensmarketing

20. April — NVIDIA erweitert seine strategischen Kooperationen mit Adobe und WPP, um autonome AI-Agents in den Marketing-Operationen von Unternehmen bereitzustellen. Die Ankündigung wird von einer Live-Demonstration auf dem Adobe Summit am 21. April begleitet, mit Jensen Huang (CEO NVIDIA) und Shantanu Narayen (CEO Adobe).

Die neue Lösung Adobe CX Enterprise Coworker wird von AI-Agents orchestriert, die auf Folgendem basieren:

NVIDIA OpenShell: sichere, beobachtbare und auditierbare Laufzeitumgebung für agentische Workflows
NVIDIA Agent Toolkit und Open-Source-Modelle Nemotron
Adobe Firefly Foundry, beschleunigt durch NVIDIA-AI-Infrastruktur

Praktisch kann ein globaler Retailer nun Millionen von Produkt-/Zielgruppen-/Kanal-Kombinationen in wenigen Minuten statt in Monaten erzeugen. 3D-Digital Twins (Omniverse + OpenUSD) dienen als persistente Produktidentitäten, um die Produktion hochwertiger Inhalte in großem Maßstab zu automatisieren.

🔗 Artikel blogs.nvidia.com 🔗 Tweet @NVIDIAAI

Claude Code v2.1.116

19.–21. April — Claude Code v2.1.116 bringt eine Reihe von Verbesserungen, die auf Leistung, Zuverlässigkeit und Terminal-Erlebnis abzielen.

Das greifbarste Update: Der Befehl /resume ist in großen Sessions (40 MB+) bis zu 67 % schneller, mit besserer Handhabung von „dead-fork“-Eingaben. Der MCP-Start ist ebenfalls schneller, wenn mehrere konfigurierte stdio-Server vorhanden sind.

Nutzererlebnis:

Der Thinking-Indikator zeigt jetzt den Fortschritt inline an („still thinking“, „thinking more“, „almost done thinking“) und ersetzt die separate Hinweiszeile
/config kann nach Optionswerten suchen (z. B. findet die Suche nach „vim“ den Parameter Editor mode)
/doctor kann geöffnet werden, während Claude antwortet, ohne auf das Ende des Turns zu warten

Sicherheit: Der Auto-Allow-Sandbox umgeht nicht mehr die Überprüfung gefährlicher Pfade für rm/rmdir, die auf /, $HOME oder andere kritische Systemverzeichnisse abzielen.

8 Terminal-Fixes umfassen: Kitty-Tastaturprotokoll (Ctrl+-, Cmd+Links/Rechts), Rendering von Devanagari-Skripten, Blockierung von Ctrl+Z über den Wrapper-Prozess, Duplizierung von Scrollback im Inline-Modus und mehrere Fixes für VS Code/Warp/Ghostty.

Kategorie	Zentrale Änderung
Leistung	`/resume` 67 % schneller bei 40 MB+ Sessions
UX	Fortschreitender Thinking-Spinner, `/config` nach Wert
Sicherheit	Sandbox respektiert den Schutz kritischer Pfade
Terminals	8 Fixes (Kitty, VS Code, Warp, Ghostty, WezTerm)
Plugins	Auto-Installation fehlender Abhängigkeiten

🔗 CHANGELOG Claude Code

Live Artifacts in Claude Cowork

20. April — Anthropic führt „Live Artifacts“ in Claude Cowork ein: dynamische Dashboards und Tracker, die direkt mit den Anwendungen und Dateien des Nutzers verbunden sind.

Im Gegensatz zu klassischen Artefakten (statisch) aktualisieren sich Live Artifacts beim Öffnen automatisch mit den aktuellen Daten. Sie werden in einem neuen dedizierten Tab mit Versionshistorie gespeichert, zugänglich aus jeder Sitzung.

“In Cowork, Claude can now build live artifacts: dashboards and trackers connected to your apps and files. Open one any time and it refreshes with current data.”

🇩🇪 „In Cowork kann Claude jetzt dynamische Artefakte erstellen: Dashboards und Tracker, die mit Ihren Anwendungen und Dateien verbunden sind. Öffnen Sie eines jederzeit, und es aktualisiert sich mit den aktuellen Daten.“ — @claudeai auf X

Die Funktion ist für alle kostenpflichtigen Pläne über ein Update der Claude-App verfügbar.

🔗 Ankündigung @claudeai

Codex im Unternehmen: Codex Labs und 7 Integrationspartner

21. April — OpenAI geht einen weiteren Schritt beim Enterprise-Rollout von Codex: 4 Millionen Entwickler nutzen es jede Woche (gegenüber 3 Millionen Anfang April, also +33 % in zwei Wochen), und gleichzeitig startet Codex Labs sowie ein Partnerschaftsprogramm mit 7 globalen Integratoren.

Codex Labs bringt OpenAI-Experten direkt in Organisationen für praktische Workshops und Arbeitssessions, mit dem Ziel, Teams beim Übergang von experimenteller Nutzung zu reproduzierbarem Deployment zu unterstützen.

Die 7 Integrationspartner (GSI): Accenture, Capgemini, CGI, Cognizant, Infosys, PwC und Tata Consultancy Services.

Unternehmen	Codex-Nutzung
Virgin Atlantic	Testabdeckung, Reduktion technischer Schulden
Ramp	Beschleunigung von Code-Reviews (code review)
Notion	Schnelle Entwicklung neuer Funktionen
Cisco	Verständnis großer, miteinander verknüpfter Repositories
Rakuten	Incident Response (incident response)

Codex erweitert sich nun über die Softwareentwicklung hinaus: Browser-Navigation, Bilderzeugung, Speicher, Orchestrierung bereichsübergreifender Aufgaben.

🔗 Codex weltweit in Unternehmen skalieren

Nano Banana Pro in Google AI Studio

20. April — Google AI Pro- und Ultra-Abonnenten erhalten nun erweiterten Zugang zu Google AI Studio ohne erforderlichen API-Schlüssel: Zugriff auf Nano Banana Pro und die Gemini Pro-Modelle mit erhöhten Nutzungslimits.

Es genügt, sich mit dem Abonnementkonto anzumelden, um vom Prototyp in die Produktion zu wechseln. Diese Entwicklung positioniert das Google-AI-Abonnement als praktischen Weg für Entwickler, die experimentieren möchten, ohne die Komplexität einer nutzungsbasierten Abrechnung.

🔗 Ankündigung @GoogleAI 🔗 Artikel blog.google

Kimi FlashKDA open-source

21. April — Moonshot AI veröffentlicht FlashKDA als Open Source, ihre leistungsstarke CUTLASS-Implementierung der Kimi Delta Attention (KDA)-Kernels.

Metrik	Wert
Speedup prefill vs. Baseline	1,72× bis 2,22× auf H20
Integration	Drop-in-Backend für flash-linear-attention
Voraussetzungen	SM90+, CUDA 12.9+, PyTorch 2.4+

FlashKDA funktioniert als austauschbares (drop-in) Backend für flash-linear-attention. Die Integration ist über die PR fla-org/flash-linear-attention#852 verfügbar.

🔗 GitHub-Repo FlashKDA 🔗 Tweet @Kimi_Moonshot

Git 2.54

20. April — Git 2.54 ist mit drei strukturellen Neuerungen verfügbar.

git history (experimentell) — Neue Unterkommandozeile zum Umschreiben der Historie, ohne git rebase -i zu verwenden:

git history reword <commit> : die Nachricht eines Commits ändern und Branches in place umschreiben
git history split <commit> : einen Commit interaktiv in zwei aufteilen

Config-basierte Hooks — Hooks können nun in Git-Konfigurationsdateien definiert werden, nicht mehr nur in .git/hooks. Das ermöglicht das Teilen zwischen mehreren Repositories via ~/.gitconfig, mehrere Hooks für dasselbe Ereignis und die individuelle Deaktivierung via hook.<name>.enabled = false.

Geometric repacking standardmäßig — git maintenance verwendet jetzt standardmäßig die geometrische Strategie und verbessert die Leistung ohne zusätzliche Konfiguration.

🔗 Highlights aus Git 2.54 🔗 Tweet @github

Genspark Build in öffentlicher Vorschau

21. April — Genspark startet Genspark Build in der öffentlichen Vorschau (public preview): ein Tool zum Erstellen von Apps und Websites, angetrieben von Claude Opus 4.7, das den gesamten Prozess von der Idee über das Design-Mockup und den Prototyp bis hin zu funktionsfähigem Code abdeckt.

Plus- und Pro-Nutzer erhalten vom 21. bis 24. April (9 Uhr PT) 3 Tage Zugriff ohne Credits. Genspark betont, dass man „rough edges and all“ veröffentlicht — das Tool befindet sich in aktiver Entwicklung.

Am selben Tag integriert Genspark außerdem Lyria 3 Music in seinen AI Music Agent und Gemini 3.1 Flash TTS in seinen AI Audio Agent.

🔗 Tweet Genspark Build 🔗 Tweet Lyria 3 + TTS

Cohere — Forschung zu speculative decoding für MoE-Modelle

21. April — Cohere veröffentlicht einen technischen Forschungsartikel zur Optimierung von Modellen mit Mixture-of-Experts (Mixture-of-Experts, MoE) durch speculative decoding (speculative decoding).

Das Team validiert auf seinen produktiven MoE-Modellen — darunter Command A (111 Milliarden Parameter) — eine nicht-monotone Gewinnkurve je nach Batch-Größe: Die Gewinne steigen zunächst an, bevor sie wieder sinken. Zwei Kernmechanismen werden identifiziert: zeitliche Korrelation im Experten-Routing reduziert die Anzahl der einzigartigen Experten, die im Speicher geladen werden müssen, um 20 bis 31 %, und eine Amortisierung der Fixkosten erklärt die hohen Gewinne bei BS=1.

🔗 Artikel Cohere

Genspark Claw: Kimi K2.6 direkt zum Start

21. April — Genspark integriert Kimi K2.6 am Tag der Veröffentlichung (Day 0) in sein Claw-Tool, über eine Partnerschaft mit Fireworks AI, die die Vorab- und Testphasen begleitet hat.

🔗 Tweet @genspark_ai

Anthropic STEM Fellows Program

21. April — Anthropic startet das Programm STEM Fellows, das sich an Experten aus Wissenschaft und Ingenieurwesen richtet, um einige Monate lang in San Francisco an der Seite der Forschungsteams an Projekten zu arbeiten.

🔗 Ankündigung @AnthropicAI

Was das bedeutet

Der 21. April markiert eine Konvergenz von Reasoning und multimodaler Erzeugung. gpt-image-2 veranschaulicht einen klaren Trend: Generative Modelle integrieren reasoning als Orchestrierungsschicht, nicht nur als Qualitätsverbesserung. Das Ergebnis ist ein Modell, das in einer einzigen Sitzung suchen, generieren, prüfen und korrigieren kann.

Deep Research Max treibt dieselbe Logik auf der Suchseite voran: Mit MCP-Support kann der Agent auf strukturierte proprietäre Daten zugreifen, was den Weg für autonome analytische Workflows ohne Export sensibler Daten an Drittanbieter öffnet.

Die Partnerschaft NVIDIA × Adobe × WPP signalisiert, dass die Enterprise-Adoption kreativer AI die Pilotphase verlässt. OpenShell als auditierbare Runtime adressiert eine echte Anforderung großer Organisationen: Autonome Agents müssen beobachtbar und nachvollziehbar sein, nicht nur leistungsfähig.

Auf der Tooling-Seite sind die config-basierten Hooks von Git 2.54 eine unauffällige, aber wichtige architektonische Entwicklung: Gemeinsam genutzte Hooks über Repositories hinweg via ~/.gitconfig werden die Teampraktiken für die Standardisierung lokaler CI-Workflows verändern.

Quellen - ChatGPT Images 2.0 vorstellen

Dieses Dokument wurde von der Version fr in die Sprache de mithilfe des Modells gpt-5.4-mini übersetzt. Für weitere Informationen zum Übersetzungsprozess besuchen Sie https://gitlab.com/jls42/ai-powered-markdown-translator