GPT-5.4 mit nativem computer use, NotebookLM Cinematic Videos, Codex auf Windows

Die Woche endet mit mehreren bedeutenden Ankündigungen: GPT-5.4 von OpenAI konsolidiert native computer use mit 75 % auf OSWorld und einem Kontextfenster von einer Million tokens, NotebookLM führt Cinematic Video Overviews ein, bei denen Gemini die Rolle des Regisseurs übernimmt, und Codex erweitert die Unterstützung auf Windows mit einer nativen Sandbox (sandbox). Im Entwickler-Tooling verbessert Anthropic den skill-creator und führt HTTP hooks in Claude Code ein, und GitHub aktiviert Copilot Memory standardmäßig für alle Pro-Nutzer.

GPT-5.4 — native computer use, 1M tokens, Tool-Suche

5. März 2026 — OpenAI veröffentlicht GPT-5.4, sein Frontier-Modell für professionelle Arbeit. Verfügbar in ChatGPT (unter dem Namen GPT-5.4 Thinking), in der API (Identifikator gpt-5.4) und in Codex, vereint dieses Modell in einer Architektur die Fähigkeiten zu Reasoning, Coding und agentischen Workflows (agentic workflows), die in früheren Modellen eingeführt wurden.

Die wichtigste technische Neuerung ist die native Integration von computer use: GPT-5.4 kann grafische Benutzeroberflächen über Screenshots sowie Tastatur/Maus bedienen, ohne Drittanbieter-Plugins. Auf OSWorld-Verified — dem benchmark-Standard für Interaktion mit realen Software-Oberflächen — erreicht GPT-5.4 75,0 %, gegenüber 47,3 % für GPT-5.2. Das Kontextfenster wächst auf 1 Million tokens in Codex und der API.

Eine weitere bemerkenswerte Neuerung ist die tool search: Anstatt bei jedem Aufruf die komplette Liste verfügbarer Tools zu erhalten, bekommt das Modell eine schlanke Liste und sucht Tools bei Bedarf. OpenAI misst eine Reduktion des token-Verbrauchs um 47 % in Workflows mit vielen Tools (getestet auf Scale MCP Atlas). Der Modus /fast in Codex gewinnt bei gleicher Intelligenz 1,5× an Geschwindigkeit.

Benchmarks:

Bewertung	GPT-5.4	GPT-5.3-Codex	GPT-5.2
GDPval (professionelle Arbeit)	83,0 %	70,9 %	70,9 %
SWE-Bench Pro	57,7 %	56,8 %	55,6 %
OSWorld-Verified (computer use)	75,0 %	74,0 %	47,3 %
BrowseComp (Webrecherche)	82,7 %	77,3 %	65,8 %
Toolathlon (Tool-Nutzung)	54,6 %	51,9 %	46,3 %
ARC-AGI-2 (abstraktes Reasoning)	73,3 %	—	52,9 %

API-Preise:

Modell	Eingabe	Ausgabe
gpt-5.2	1,75 $ / M tokens	14 $ / M tokens
gpt-5.4	2,50 $ / M tokens	15 $ / M tokens
gpt-5.2-pro	21 $ / M tokens	168 $ / M tokens
gpt-5.4-pro	30 $ / M tokens	180 $ / M tokens

GPT-5.4 Thinking ist ab heute für ChatGPT Plus-, Team- und Pro-Abonnenten verfügbar. GPT-5.2 Thinking bleibt unter „Legacy Models“ bis zum 5. Juni 2026 verfügbar. In Bezug auf Sicherheit stuft OpenAI GPT-5.4 in seinem Preparedness Framework als „High cyber capability“ ein. Gleichzeitig veröffentlicht das Unternehmen CoT-Control, eine Open-Source-Evaluationssuite zur Messung der Kontrollierbarkeit der Chain of Thought von 13 Frontier-Modellen — die Scores sind niedrig (0,1 % bis 15,4 %) und deuten darauf hin, dass die Überwachung von Chain-of-Thought weiterhin ein verlässliches Sicherheitsinstrument ist.

🔗 Vorstellung von GPT-5.4 | OpenAI

NotebookLM — Cinematic Video Overviews

4. März 2026 — NotebookLM führt in seinem Studio die Cinematic Video Overviews ein. Diese Videos gehen über die 2024 gestarteten Audio Overviews (Podcast-Format) und die standardmäßigen Video-Templates hinaus.

Das Prinzip: Gemini wird als Regisseur positioniert. Das Modell analysiert die Quellen des Nutzers, entscheidet sich für das passendste Format (Tutorial, Dokumentation etc.), wählt einen visuellen Stil, generiert die Bilder und kritisiert sie selbst, bevor die finale Version produziert wird. Das Ergebnis ist ein immersives, personalisiertes Video, das für jedes Quellen-Set einzigartig ist.

Die Funktion ist seit dem 4. März 2026 in Englisch für Google AI Ultra-Abonnenten verfügbar. Der vollständige Rollout an Ultra-Nutzer wurde am selben Tag bestätigt. Ein Zugang für Pro-Abonnenten ist in der Roadmap vorgesehen, ohne konkreten Zeitplan. Der Ankündigungs-Tweet verzeichnete 3 Millionen Aufrufe.

🔗 Ankündigung NotebookLM auf X

OpenAI — Codex auf Windows, Forschung zu CoT-Control

Codex verfügbar auf Windows

4. März 2026 — Die Codex-Anwendung ist nun auf Windows verfügbar, mit einer nativen Agent-Sandbox und Unterstützung für Windows-Entwicklungsumgebungen via PowerShell. Zwei neue Skills sind verfügbar: $aspnet-core für Blazor-, ASP.NET MVC- und Razor Pages-Anwendungen, und $winui-app für native Windows-Anwendungen mit WinUI 3.

🔗 @OpenAIDevs auf X

Forschung — Kontrollierbarkeit der Chain of Thought

5. März 2026 — OpenAI veröffentlicht „Les modèles de raisonnement peinent à contrôler leurs chaînes de pensée, et c’est une bonne chose“ (Reasoning models struggle to control their chains of thought, and that’s good). Die Open-Source-Evaluationssuite CoT-Control misst die Kontrollierbarkeit der Chain of Thought von 13 Frontier-Modellen. Die Scores liegen zwischen 0,1 % und 15,4 %, was darauf hindeutet, dass aktuelle Modelle Schwierigkeiten haben, ihr Reasoning gezielt so zu verändern, dass sie Überwachungssysteme umgehen — ein Ergebnis, das als positiv für die Sicherheit dargestellt wird. OpenAI plant, diese Metriken in die System Cards zukünftiger Modelle aufzunehmen.

🔗 Recherche CoT-Control | OpenAI

Anthropic — Skill-creator und HTTP hooks

Verbessertes Skill-creator

3. März 2026 — Anthropic veröffentlicht ein größeres Update seines Skill-creator-Tools für Claude Code und Claude.ai. Die Ankündigung führt zwei formale Typen von Agent Skills ein:

Typ	Beschreibung	Dauerhaftigkeit
Capability uplift	Hilft Claude, etwas zu tun, das er bisher nicht gut kann	Kann obsolet werden, wenn das Modell sich verbessert
Encoded preference	Kodiert Prozesse und Präferenzen eines Teams	Dauerhaft, abhängig von der Treue zum realen Workflow

Neue Funktionen: evals (automatisierte Tests) zur Verifikation, dass eine Skill das erwartete Ergebnis liefert, ein Benchmark-Modus zur Messung von Erfolgsrate, Zeit und token-Verbrauch, sowie Multi-Agent-Unterstützung zur parallelen Ausführung von Evaluationsläufen ohne gegenseitige Kontamination. Ein A/B-Vergleichsmodus ermöglicht das Gegenüberstellen zweier Versionen einer Skill. Der Skill-creator ist ab sofort auf Claude.ai und Cowork verfügbar; für Claude Code wird er als plugin installiert.

🔗 Improving skill-creator: Test, measure, and refine Agent Skills

HTTP hooks in Claude Code

4. März 2026 — Claude Code führt HTTP hooks ein, eine Alternative zu den bestehenden Command Hooks. Anstatt ein lokales Shell-Skript auszuführen, sendet Claude Code ein Ereignis an eine vom Nutzer gewählte URL und wartet auf eine Antwort. Anwendungsfälle: Web-Apps zur Visualisierung von Fortschritten, Berechtigungsmanagement oder Synchronisation des Zustands zwischen mehreren Claude Code-Instanzen über eine Datenbank. Die HTTP hooks funktionieren in Plugins, benutzerdefinierten Agents und verwalteten Enterprise-Einstellungen.

🔗 Tweet @dickson_tsai

Gemini CLI v0.32.0 — Generalist Agent standardmäßig

3. März 2026 — Version 0.32.0 der Gemini CLI aktiviert standardmäßig den Generalist Agent, um Delegation und Routing von Aufgaben zu verbessern. Das Update bringt außerdem Model Steering direkt im Workspace, Verbesserungen des Plan Mode (Öffnen und Bearbeiten von Plänen in einem externen Editor, Multi-Selection für komplexe Aufgaben), interaktive Autovervollständigung in der Shell und paralleles Laden von Extensions für schnelleren Start.

🔗 Changelog Gemini CLI

GitHub Copilot — Memory standardmäßig, Mobile und Metriken

Copilot Memory standardmäßig aktiviert

4. März 2026 — GitHub schaltet Copilot Memory standardmäßig für alle Nutzer der Pläne Pro und Pro+ an. Die Funktion, zuvor als Opt-in-Preview verfügbar, erlaubt Copilot, persistente Informationen auf Repositoriumsebene zu speichern: Coding-Konventionen, Architektur-Patterns, kritische Abhängigkeiten.

Die Memories sind strikt auf ein Repository begrenzt und werden vor Anwendung gegen den aktuellen Code validiert, wodurch veralteter Kontext vermieden wird. Sie laufen nach 28 Tagen automatisch ab. Die Funktion ist im Coding-Agent, Code-Review und im Copilot CLI aktiv — von einem Agent entdecktes Wissen steht sofort den anderen zur Verfügung. Nutzer können Copilot Memory in ihren Einstellungen deaktivieren (Settings > Features > Copilot Memory); Enterprise-Administratoren behalten volle Kontrolle.

🔗 Copilot Memory now on by default for Pro and Pro+ users

Live-Benachrichtigungen für Agents in GitHub Mobile

4. März 2026 — GitHub Mobile erhält Echtzeit-Benachrichtigungen für Copilot-Agent-Sessions. Entwickler können den Fortschritt ihrer Agents verfolgen, unabhängig davon, ob die Session vom Desktop oder vom Telefon gestartet wurde.

🔗 GitHub Mobile | Ankündigung auf X

Grok Code Fast 1 in Copilot Free Auto

4. März 2026 — GitHub fügt Grok Code Fast 1 von xAI zur Auto-Auswahl der Modelle in Copilot Free hinzu. Dieses Modell kann nun von Copilot während Chat-Sessions in Visual Studio Code, Visual Studio, JetBrains IDEs, Xcode und Eclipse ausgewählt werden.

🔗 Grok Code Fast 1 in Copilot Free auto model selection

Copilot CLI-Metriken auf Nutzer-Level

5. März 2026 — GitHub erweitert die Nutzungsmetriken von Copilot um CLI-Aktivitäten auf Nutzer-Ebene. Dieses Update folgt auf die vorige Release auf Unternehmensebene. Administratoren können nun aktive CLI-Nutzer identifizieren, Anfragen und Sessions zählen und den token-Verbrauch pro Nutzer verfolgen.

🔗 Copilot usage metrics — user-level CLI activity

Perplexity — GPT-5.4 und Voice Mode in Computer

GPT-5.4 Thinking verfügbar auf Perplexity

5. März 2026 — GPT-5.4 und GPT-5.4 Thinking sind nun in Perplexity für Pro- und Max-Abonnenten zugänglich. Die Thinking-Version aktiviert das erweiterte Reasoning von GPT-5.4 für tiefere Antworten bei komplexen Anfragen.

🔗 Ankündigung auf X

Voice Mode in Perplexity Computer

4. März 2026 — Perplexity führt einen Voice Mode in Perplexity Computer ein. Die Oberfläche, die bereits Suchen, Codieren und Deployments ermöglichte, akzeptiert nun auch direkte Sprachbefehle.

🔗 Ankündigung auf X

Cohere × Aston Martin F1 — mehrjähriger Partnerschaft

4. März 2026 — Cohere kündigt eine mehrjährige Partnerschaft mit dem Aston Martin Aramco F1-Team an. Jedes Teammitglied erhält Zugang zu Unternehmensmodellen und zur agentischen AI-Plattform von Cohere (North), um in einer der datenintensivsten Umgebungen des Weltspports zu arbeiten. Das Cohere-Logo erscheint ab dem Grand Prix von Australien 2026 auf dem Rennwagen.

🔗 Ankündigung Cohere auf X

Black Forest Labs — Self-Flow, multimodale Forschung

4. März 2026 — Black Forest Labs (Schöpfer von FLUX) veröffentlicht Self-Flow im Research Preview. Dieser Ansatz trainiert generative multimodale Modelle (Bild, Video, Audio, Text), ohne auf externe Modelle für die Repräsentation angewiesen zu sein, mithilfe einer self-supervised flow matching-Methode.

Vorgestellte Ergebnisse: bis zu 2,8× schnellere cross-modale Konvergenz, bessere zeitliche Kohärenz in Videos, schärfere typografische Darstellung. Die Demos umfassen ein Video-Modell mit 4B Parametern, trainiert auf 6M Videos, ein Bild-Modell mit 4B Parametern, trainiert auf 200M Bildern, und ein gemeinsames Audio-Video-Modell. BFL positioniert Self-Flow als einen Weg zu World Models: “Self-Flow opens a path toward world models: combining visual scalability with semantic abstraction for planning and understanding.”

🔗 Tweet @bfl_ml

Kurz

Runway hat am 3. März ein Hub für einheitliche Modelle gestartet, das den Zugriff auf Drittanbieter-Modelle für Bild, Video, Audio und Sprache direkt in der Plattform zentralisiert. 🔗 Ankündigung

Claude erreichte am 5. März gleichzeitig den 1. Platz im iOS App Store in 14 Ländern — Australien, Österreich, Belgien, Kanada, Frankreich, Deutschland, Irland, Italien, Neuseeland, Norwegen, Singapur, Schweiz, Vereinigtes Königreich, Vereinigte Staaten. 🔗 Tweet

Manus veröffentlichte am 5. März seinen Jahresbrief zum ersten Geburtstag und hebt Nutzerberichte hervor (eine Mutter, ein 86-jähriger Linguist, eine Floristin). 🔗 Brief

Grok überschritt die Marke von einer Million Bewertungen im US App Store. 🔗 Tweet @grok

Was das bedeutet

GPT-5.4 bestätigt, dass computer use vom experimentellen Status zur integrierten Funktion in einem vielseitigen Modell übergeht. Der 75 %-Wert auf OSWorld-Verified und die 47 %-Reduktion der tokens durch tool search sind konkrete Messgrößen für einen Paradigmenwechsel: KI-Agents können nun komplexe Software-Oberflächen bedienen, ohne spezialisierte Infrastruktur.

Auf der Seite der Entwickler-Tools zeigt die Woche eine Konvergenz: Anthropic verbessert Test- und Überwachungsmethoden für Agent-Skills, GitHub aktiviert persistente Memory für seine Coding-Agents, und Perplexity ergänzt seinen Computer-Agent um Voice Mode. Agentic Runtimes erhalten Schichten für Memory, Observability (HTTP hooks, mobile Benachrichtigungen) und natürliche Interaktion (Sprache).

NotebookLMs Cinematic Video Overviews zeigen einen anderen Schwerpunkt: die Erzeugung langformatiger, pädagogischer Inhalte aus persönlichen Quellen. Gemini als Regisseur — analysieren, kritisieren, neu zusammensetzen — verkörpert die KI als Meta-Produktionswerkzeug, eher als reinen Generationsassistenten.

Quellen - Vorstellung von GPT-5.4 | OpenAI

Dieses Dokument wurde aus der fr-Version in die Sprache de übersetzt, wobei das Modell gpt-5-mini verwendet wurde. Für weitere Informationen zum Übersetzungsprozess konsultieren Sie https://gitlab.com/jls42/ai-powered-markdown-translator