Claude Code Auto-Modus, visuelles Shopping in ChatGPT, Grok Imagine Multi-Image-zu-Video

Dichte Tage am 23. und 24. März: Anthropic rollt den Auto-Modus in Claude Code aus — einen Aktionsklassifikator, der die Genehmigungsentscheidungen anstelle des Nutzers trifft — und veröffentlicht einen Engineering-Artikel über seine von GANs inspirierte Multi-Agenten-Architektur. OpenAI startet visuelles Shopping in ChatGPT mit dem Agentic Commerce Protocol, während xAI Grok Imagine für Multi-Image-zu-Video über die API öffnet. GitHub Copilot, Google DeepMind und der Anthropic Science Blog runden diesen Überblick ab.

Claude Code: der Auto-Modus, ein Klassifikator zwischen dir und den Befehlen

24. März — Claude Code fügt eine dritte Berechtigungsstufe hinzu: den Auto-Modus. Bisher bot das Tool entweder an, jede Dateiänderung und jeden Bash-Befehl manuell zu genehmigen, oder die Prüfungen komplett zu deaktivieren. Der Auto-Modus führt einen Mittelweg ein: Claude trifft die Entscheidungen selbst, abgesichert durch einen Klassifikator (classifier), der jede Aktion vor der Ausführung analysiert.

Der Mechanismus ist einfach — vor jedem Tool-Aufruf bewertet der Klassifikator, ob die Aktion potenziell destruktiv ist. Als sicher eingestufte Aktionen werden automatisch ausgeführt. Riskante Aktionen werden blockiert, und Claude sucht nach einer alternativen Vorgehensweise, ohne den Nutzer zu unterbrechen.

Anthropic präzisiert, dass dieser Modus Risiken reduziert, sie aber nicht eliminiert, und empfiehlt den Einsatz in isolierten Umgebungen. Zur Aktivierung: claude --enable-auto-mode, dann zu diesem Modus mit Shift+Tab navigieren.

Die Funktion ist als Vorabversion (research preview) im Team-Tarif verfügbar. Die Ausrollung für Enterprise und API war für die folgenden Tage angekündigt.

New in Claude Code: auto mode. Instead of approving every file write and bash command, or skipping permissions entirely, auto mode lets Claude make permission decisions on your behalf. Safeguards check each action before it runs.

🇩🇪 Neu in Claude Code: der Auto-Modus. Statt jede Dateiänderung und jeden Bash-Befehl zu genehmigen oder Berechtigungen vollständig zu überspringen, lässt der Auto-Modus Claude die Genehmigungsentscheidungen in deinem Namen treffen. Schutzmechanismen prüfen jede Aktion, bevor sie ausgeführt wird. — @claudeai auf X

🔗 Ankündigung auf X

Multi-Agenten-Architektur: Anthropic Engineerings GAN-Ansatz

24. März — In einem auf dem Anthropic Engineering Blog veröffentlichten Artikel beschreibt Prithvi Rajasekaran (Labs-Team) eine Multi-Agenten-Architektur, um die Grenzen von Claude in zwei Bereichen zu verschieben: Interface-Design und langfristige autonome Anwendungsentwicklung.

Der Ansatz ist von generativen adversarialen Netzen (Generative Adversarial Networks, GAN) inspiriert: Ein Generierungsagent produziert Code oder Design, während ein separater Bewertungsagent das Ergebnis beurteilt und kritisches Feedback liefert. Diese Entkopplung löst ein bekanntes Problem — Claude neigt dazu, sich selbst zu wohlwollend zu bewerten. Ein dedizierter Evaluator, der schrittweise mit Beispielen kalibriert wird, wird zu einem wirksamen Hebel für Verbesserungen.

Für das Frontend-Design erhält der Evaluator Zugriff auf MCP Playwright, um Seiten live zu navigieren. Vier Kriterien werden verwendet: Designqualität und Konsistenz, Originalität (mit Abwertung generischer Muster, sogenannter “AI slop”), technisches Handwerk und Funktionalität. In 10 bis 15 Iterationen erzeugt der Generator deutlich markantere Oberflächen.

Für die Anwendungsentwicklung ergänzt die Architektur einen Planer: Er verwandelt einen Ein-Satz-Prompt in eine vollständige Produktspezifikation. Generator und Evaluator verhandeln vor jeder Implementierung “Sprint-Verträge”, die die Erfolgskriterien definieren. Der Evaluator testet die Anwendung über Playwright und kann einen Sprint fehlschlagen lassen, was eine Überarbeitung erzwingt.

Ansatz	Dauer	Kosten	Ergebnis
Solo-Agent Opus 4.5	20 Min.	9 $	Defekte Anwendung
Kompletter Harness	6 Std.	200 $	Funktionierende Anwendung
Harness mit Opus 4.6	4 Std.	124,70 $	Funktionierende Anwendung + integrierter Claude-Agent

Mit Opus 4.6 — das nicht mehr unter “Kontextangst” leidet — konnte der Autor die Architektur vereinfachen, Session-Resets entfernen und die Kosten senken. Das leitende Prinzip bleibt: den Harness regelmäßig prüfen, um das zu entfernen, was das Modell inzwischen selbst erledigen kann.

🔗 Vollständiger Artikel 🔗 Ankündigung auf X

Computer Use in Cowork und Claude Code (macOS, Pro/Max)

23. März — Claude kann jetzt Ihren Computer nutzen, um Aufgaben direkt auszuführen. In der Vorabversion ist diese Funktion in Claude Cowork und Claude Code ausschließlich auf macOS verfügbar.

Claude kann Anwendungen öffnen, im Browser navigieren und Tabellen ausfüllen. Die Idee: eine Aufgabe vom Telefon aus anstoßen, sich um etwas anderes kümmern und zu einer erledigten Arbeit zurückkehren. Es ist außerdem möglich, wiederkehrende Aufgaben zu definieren — jeden Morgen E-Mails scannen, jeden Freitag einen Bericht erstellen.

Die Funktion Computer Use ist in den Pro- und Max-Tarifen verfügbar, indem die Desktop-App aktualisiert und mit der mobilen App gekoppelt wird.

🔗 Ankündigung auf X 🔗 Produktseite Cowork

Anthropic Economic Index: “Learning curves” (5. Bericht)

24. März — Anthropic veröffentlicht seinen fünften Bericht des Anthropic Economic Index mit dem Titel “Learning curves”, basierend auf Nutzungsdaten von Claude im Februar 2026 (etwa 1 Million Gespräche, vom 5. bis 12. Februar).

Der Bericht dokumentiert zwei wesentliche Entwicklungen seit November 2025. Zunächst eine Diversifizierung der Nutzung: Die zehn häufigsten Aufgaben auf Claude.ai machen nur noch 19 % des Traffics aus, gegenüber 24 % drei Monate zuvor. Dieser Trend erklärt sich teilweise durch die Verlagerung von Codierungsaufgaben auf die API, angetrieben durch das Wachstum von Claude Code.

Zweitens der Effekt der “Lernkurve”: Langjährige Nutzer (mehr als sechs Monate) weisen eine um 4 bis 5 Prozentpunkte höhere Erfolgsquote auf. Sie arbeiten an komplexeren Problemen, kollaborieren stärker und delegieren im Automatikmodus weniger. Die Autoren sehen darin ein Signal von Lernen durch Praxis (learning-by-doing), auch wenn ein Überlebensbias möglich bleibt.

Bei der Modellwahl bestätigen die Daten, dass Nutzer Opus für Aufgaben mit hohem Wert bevorzugen: Auf jede zusätzliche Bandbreite von 10 $/h beim geschätzten Wert einer Aufgabe folgt ein Anstieg um 1,5 Punkte beim Anteil der Opus-Nutzung auf Claude.ai und um 2,8 Punkte auf der API.

🔗 Vollständiger Bericht 🔗 Ankündigung auf X

Anthropic Science Blog: ein neuer Blog für KI in der wissenschaftlichen Forschung

23. März — Anthropic startet den Anthropic Science Blog, der der Schnittstelle zwischen KI und wissenschaftlicher Forschung gewidmet ist. Ziel ist es, zu dokumentieren, wie KI die Arbeit von Forschern beschleunigt, und die Fragen zu untersuchen, die dieser Wandel aufwirft.

Der Blog wird drei Arten von Inhalten veröffentlichen: Hintergrundartikel zu konkreten Ergebnissen mit detaillierter Darstellung der Rolle von KI (Features), praktische Leitfäden nach wissenschaftlichem Fachgebiet (Workflows) und Übersichten über aktuelle Entwicklungen im Bereich (Field notes).

Zwei einführende Artikel begleiten diesen Start: “Vibe physics: The AI grad student” von Matthew Schwartz (ein von Claude beaufsichtigter Physiker bei einer realen Berechnung) und ein Tutorial zur Orchestrierung von Claude Code für mehrtägige wissenschaftliche Aufgaben.

Dieser Blog ist in Anthropic bestehende Initiativen eingebettet: das Programm AI for Science (API-Guthaben für Forschende), Claude for Life Sciences (Partnerschaften mit Pharma und Biotech) und die Genesis Mission.

🔗 Startartikel 🔗 Ankündigung auf X

Visuelles Shopping in ChatGPT und Agentic Commerce Protocol

24. März — OpenAI startet ein visuelles und immersives Einkaufserlebnis direkt in ChatGPT. Nutzer können Produkte visuell durchstöbern, sie mit Details (Preis, Bewertungen, Merkmale) nebeneinander vergleichen und ihre Suche im Gespräch verfeinern — ohne ChatGPT zu verlassen. Es ist außerdem möglich, ein Inspirationsfoto hochzuladen, um ähnliche Artikel zu finden.

Um diese Funktion zu speisen, erweitert OpenAI das Agentic Commerce Protocol (ACP) auf die Produktentdeckung. Dieses Protokoll wird zur Verbindungsschicht zwischen Händlern und Nutzern: Händler teilen ihre Kataloge über ACP, und die Daten werden direkt in ChatGPT eingespeist. Salesforce und Stripe sind bereits als Drittanbieter integriert.

Detail	Info
Verfügbarkeit	Alle Free-, Go-, Plus-, Pro-Nutzer — Rollout diese Woche
Bild-Upload	Inspirationsfoto, um ähnliche Artikel zu finden
Integrierte Händler	Target, Sephora, Nordstrom, Lowe’s, Best Buy, The Home Depot, Wayfair
Shopify	Kataloge bereits ohne Aktion der Händler integriert

Walmart ist der erste Händler, der eine native ChatGPT-App anbietet: von der Entdeckung in ChatGPT zu einer Walmart-Umgebung mit Kontoverknüpfung, Treueprogramm und Zahlungen. Verfügbar im Webbrowser, iOS und Android folgen. Hinweis: OpenAI gibt seine ursprüngliche Funktion “Instant Checkout” auf, da sie für Händler als nicht flexibel genug gilt, und konzentriert sich auf die Entdeckung.

🔗 Offizielle Ankündigung

OpenAI: Sicherheitsrichtlinien für Jugendliche als Open Source

24. März — OpenAI veröffentlicht einen Satz von Sicherheitsrichtlinien als Open Source, um Entwicklern zu helfen, jugendgerechte Erlebnisse zu schaffen. Diese Richtlinien liegen in Form von Prompts vor, die direkt mit gpt-oss-safeguard verwendet werden können, dem Sicherheitsmodell mit offenen Gewichten von OpenAI.

Ziel ist es, Entwicklern zu ermöglichen, abstrakte Sicherheitsziele in präzise operative Regeln zu übersetzen. Sechs Bereiche werden abgedeckt:

Bereich	Beschreibung
Grafische Gewaltinhalte	Filterung expliziter Gewalt
Grafische sexuelle Inhalte	Filterung expliziter Sexualität
Gefährliche Körperideale	Essstörungen, riskantes Verhalten
Gefährliche Aktivitäten und Challenges	Riskante virale Challenges
Romantische oder gewalttätige Rollenspiele	Unangemessene Interaktionen
Waren und Dienstleistungen für Erwachsene	Alkohol, Tabak, Glücksspiel

Diese Richtlinien wurden mit Common Sense Media und everyone.ai entwickelt. Über die ROOST Model Community (RMC GitHub) veröffentlicht, werden sie ausdrücklich als Ausgangspunkt und nicht als vollständige Lösung präsentiert.

🔗 Offizielle Ankündigung

OpenAI Foundation: mindestens 1 Milliarde Dollar eingesetzt

24. März — Bret Taylor, Vorsitzender des Verwaltungsrats der OpenAI Foundation, kündigt an, dass die Stiftung beginnt, die Mittel aus der Rekapitalisierung vom Herbst 2025 einzusetzen. Mindestens 1 Milliarde Dollar wird im Laufe des Jahres in vier Bereiche investiert: Lebenswissenschaften (Alzheimer, Krankheiten mit hoher Sterblichkeit), Beschäftigung und wirtschaftliche Auswirkungen, KI-Resilienz (Sicherheit von Kindern, Biosicherheit) und Gemeinschaftsprogramme.

🔗 Offizielle Ankündigung

OpenAI: Library-Tab zur Verwaltung von Dateien in ChatGPT

23. März — OpenAI fügt neue Dateiverwaltungsfunktionen in ChatGPT hinzu: direkt über die Werkzeugleiste zugängliche aktuelle Dateien, die Möglichkeit, ein bereits hochgeladenes Dokument abzufragen, und einen Library-Tab in der Web-Seitenleiste, um alle Dateien wiederzufinden. Verfügbar für Plus-, Pro- und Business-Abonnenten, mit bevorstehendem Rollout für den Europäischen Wirtschaftsraum, die Schweiz und das Vereinigte Königreich.

🔗 Ankündigung auf X

Gemini 3.1 Flash-Lite: ein Browser, der Seiten in Echtzeit generiert

24. März — Google DeepMind veröffentlicht eine Demonstration von Gemini 3.1 Flash-Lite: ein experimenteller Browser, der jede Webseite on the fly generiert, während Klicks, Suchen und Navigation erfolgen. Keine vorhandene HTML-Seite — jeder Inhalt wird in Echtzeit vom Modell erstellt. Die Demo ist direkt über Google AI Studio zugänglich und erzielte starkes Engagement (85.000 Aufrufe in wenigen Stunden).

🔗 AI-Studio-Demo 🔗 Ankündigung auf X

Google DeepMind × Agile Robots: Robotik-Partnerschaft

24. März — Google DeepMind kündigt eine Forschungskooperation mit Agile Robots an, einem Spezialisten für humanoide Robotik. Die Vereinbarung sieht vor, die Gemini-Fundamentmodelle in die Robotik-Hardware von Agile Robots zu integrieren, im Rahmen der Gemini-Robotics-Strategie von Google DeepMind.

🔗 Ankündigung auf X

Grok Imagine: Multi-Image-zu-Video über API (#1 Arena Elo 1342)

24. März — xAI kündigt zwei neue Fähigkeiten für seine Grok-Imagine-API an: die Videoerzeugung aus mehreren Bildern (multi-image to video) und die Erweiterung bestehender Videos (video extension).

Entwickler können bis zu 7 Bilder als Eingabe übermitteln, um über das Modell grok-imagine-video ein kohärentes Video zu erzeugen. Die API arbeitet asynchron: Man sendet die Anfrage und fragt dann den Status ab, bis done erreicht ist. Die Ausgaben unterstützen das Seitenverhältnis 16:9 in 720p.

Laut Design Arena hat Grok Imagine sofort den ersten Platz im Multi Image to Video Arena-Ranking mit einem Elo-Score von 1342 übernommen.

🔗 Ankündigung @grok 🔗 API-Dokumentation Imagine

GitHub Copilot: @copilot, um direkt eine PR zu ändern

24. März — GitHub Copilot kann jetzt auf Anfrage direkt jede Pull Request ändern. Wenn man @copilot in einem Kommentar mit einer Anweisung in natürlicher Sprache erwähnt — fehlschlagende Tests beheben, einen Review-Kommentar adressieren, einen Unit-Test hinzufügen — arbeitet der Agent in seiner Cloud-Umgebung, validiert seine Arbeit mit Tests und Lintern und pusht dann die Änderungen auf den Branch. Das bisherige Verhalten (eine neue PR öffnen) bleibt verfügbar, wenn es ausdrücklich verlangt wird. Verfügbar in allen kostenpflichtigen Copilot-Plänen.

🔗 GitHub-Changelog

GitHub Copilot: Gemini 3.1 Pro in JetBrains, Xcode und Eclipse

23. März — GitHub Copilot erweitert die Verfügbarkeit von Gemini 3.1 Pro auf die IDEs JetBrains, Xcode und Eclipse. Das Modell ist jetzt über den Copilot-Modellselektor in allen Modi verfügbar (Agent, Ask, Edit) auf diesen Umgebungen, zusätzlich zu den bereits unterstützten Plattformen. In der öffentlichen Preview für Enterprise-, Business-, Pro- und Pro+-Pläne.

🔗 GitHub-Changelog

GitHub Copilot: Agent-Zugriff pro Repository per API verwalten

24. März — GitHub veröffentlicht in der öffentlichen Preview eine REST-API zur Verwaltung des Zugriffs des Copilot Coding Agents auf Organisationsebene für Repositories. Administratoren können den Agent programmatisch für keine, alle oder bestimmte Repositories freigeben — nützlich für groß angelegte Unternehmensbereitstellungen.

🔗 GitHub-Changelog

GitHub Copilot: Live-Logs in Raycast

20. März — Die GitHub-Copilot-Erweiterung für Raycast (den macOS/Windows-Launcher) ermöglicht es jetzt, die Logs des Coding Agents live zu überwachen, ohne den Launcher zu verlassen. Über den Befehl “View Tasks” und anschließend die Auswahl der Sitzung können Entwickler den Fortschritt des Agents in Echtzeit verfolgen. Verfügbar für alle zahlenden Copilot-Abonnenten.

🔗 GitHub-Changelog

Was das bedeutet

Der Auto-Mode von Claude Code ist die prägendste Änderung dieser Phase. Er verlagert die kognitive Last vom Nutzer — kein Bestätigen jedes einzelnen Befehls mehr nötig — und behält gleichzeitig ein Sicherheitsnetz über den Klassifikator bei. Das ist ein Schritt hin zu autonomeren Entwicklungsagenten, allerdings in einem ausdrücklich für isolierte Umgebungen empfohlenen Rahmen. Der Engineering-Artikel über den Multi-Agenten-Harness ergänzt dieses Bild: Die Entwicklung von Anthropic geht klar in Richtung Agenten, die lange und autonom arbeiten, mit internen Überwachungsstrukturen (dedizierter Evaluator, Sprint-Verträge) statt menschlicher Aufsicht bei jedem Schritt.

Bei OpenAI markiert das visuelle Shopping in ChatGPT eine Hinwendung zu kommerziellen Consumer-Use-Cases. Das Agentic Commerce Protocol positioniert ChatGPT als Vermittlungsschicht zwischen Händlern und Verbrauchern — eine andere Strategie als die reine API, die direkt auf den Transaktionswert abzielt.

Grok Imagine, das direkt zum Start bei multi-image to video den ersten Platz im Arena-Ranking erreicht, zeigt, mit welcher Geschwindigkeit xAI bei der Videogenerierung iteriert. GitHub Copilot wiederum stärkt systematisch die Autonomie seines Coding Agents: Die Möglichkeit, eine bestehende PR direkt zu ändern, reduziert die Rückkopplungen zwischen Agent und Entwickler weiter.

Quellen

Dieses Dokument wurde von der Version fr in die Sprache de mit dem Modell gpt-5.4-mini übersetzt. Für weitere Informationen zum Übersetzungsprozess besuchen Sie https://gitlab.com/jls42/ai-powered-markdown-translator