GPT-5.4 mini und nano von OpenAI gestartet, Mistral tritt der NVIDIA Nemotron Coalition bei, Perplexity Comet Enterprise verfügbar

Der 17. März 2026 steht im Zeichen des NVIDIA GTC und mehrerer wichtiger Veröffentlichungen. OpenAI bringt GPT-5.4 mini und nano heraus, seine bisher leistungsfähigsten kompakten Modelle, die beim vollständigen Modell bei mehreren Benchmarks nahe herankommen. Die NVIDIA Nemotron Coalition gewinnt mit dem Beitritt von Mistral AI und Perplexity an Dynamik. Perplexity öffnet gleichzeitig Comet Enterprise mit vollständiger MDM-Governance, Claude Code v2.1.77 verdoppelt das Generierungslimit für Opus 4.6, und GitHub, Anthropic, Google und OpenAI schließen sich zusammen, um Open-Source-Sicherheit mit 12,5 Millionen Dollar zu finanzieren.

GPT-5.4 mini und nano: die kompakten Modelle von OpenAI

17. März — OpenAI veröffentlicht GPT-5.4 mini und GPT-5.4 nano, seine bislang leistungsstärksten kompakten Modelle. Diese beiden Varianten bringen die Fähigkeiten von GPT-5.4 in Formate, die für hochvolumige Workloads optimiert sind, mit geringerer Latenz und niedrigeren Kosten.

GPT-5.4 mini verbessert GPT-5 mini deutlich in den Bereichen Code, Schlussfolgerung, multimodales Verständnis und Tool-Nutzung, während es mehr als doppelt so schnell läuft. Es nähert sich den Leistungen des vollständigen Modells GPT-5.4 bei mehreren Schlüsselbewertungen, darunter SWE-Bench Pro und OSWorld-Verified.

GPT-5.4 nano ist die kleinste und kostengünstigste Version der GPT-5.4-Familie, entwickelt für Aufgaben, bei denen Geschwindigkeit und Kosten im Vordergrund stehen: Klassifizierung, Datenextraktion, Ranking und einfache Code-Subagenten.

Bewertung	GPT-5.4	GPT-5.4 mini	GPT-5.4 nano	GPT-5 mini
SWE-Bench Pro (public)	57,7 %	54,4 %	52,4 %	45,7 %
Terminal-Bench 2.0	75,1 %	60,0 %	46,3 %	38,2 %
Toolathlon	54,6 %	42,9 %	35,5 %	26,9 %
GPQA Diamond	93,0 %	88,0 %	82,8 %	81,6 %
OSWorld-Verified	75,0 %	72,1 %	39,0 %	42,0 %

Die Anwendungsfälle lassen sich in drei Bereiche gliedern: Code-Assistenten (GPT-5.4 mini glänzt in schnellen Coding-Workflows, Debugging-Schleifen und Frontend-Generierung), Subagenten (in Codex kann GPT-5.4 Teilaufgaben an GPT-5.4 mini delegieren und dabei nur 30 % des GPT-5.4-Kontingents verbrauchen) und die Oberflächensteuerung (computer use), bei der GPT-5.4 mini schnell Screenshots dichter Benutzeroberflächen interpretiert.

Modell	Verfügbarkeit	Eingabepreis	Ausgabepreis	Kontext
GPT-5.4 mini	API, Codex, ChatGPT Free/Go	0,75 $/Million token	4,50 $/Million token	400 000 token
GPT-5.4 nano	nur API	0,20 $/Million token	1,25 $/Million token	—

In ChatGPT ist GPT-5.4 mini für Free- und Go-Nutzer über die Funktion “Thinking” im +-Menü verfügbar. Für kostenpflichtige Pläne dient es als Fallback-Modell, wenn das GPT-5.4 Thinking-Rate-Limit erreicht wird.

🔗 GPT-5.4 mini und nano vorgestellt

NVIDIA GTC 2026: die Nemotron Coalition und Dynamo 1.0

Die NVIDIA-GTC-Konferenz, die ab dem 16. März stattfand, war der Auslöser für mehrere wichtige Ankündigungen der Branche: die Bildung einer offenen Koalition rund um Frontier-Open-Source-Modelle, die produktive Veröffentlichung eines Inferenz-Betriebssystems und die Ankündigung eines Daten-Blueprints für Physical AI.

Mistral tritt der NVIDIA Nemotron Coalition bei

16. März — Mistral AI kündigt eine strategische Partnerschaft mit NVIDIA an, um gemeinsam Frontier-Open-Source-Modelle zu entwickeln. Mistral wird Gründungsmitglied der NVIDIA Nemotron Coalition und verbindet seine Frontier-Architektur mit der NVIDIA-Computing-Infrastruktur und ihren Entwicklungstools.

Aspekt	Detail
Rolle Mistral	Gründungsmitglied, Frontier-Architektur + Full-Stack-IA-Angebot
Beitrag NVIDIA	GPU-Infrastruktur + Entwicklungstools
Ziel	Gemeinsame Entwicklung offener Modelle auf Frontier-Niveau

🔗 Mistral-Ankündigung auf X

Perplexity tritt ebenfalls der Koalition bei

16. März — Perplexity kündigt seinen Beitritt zur gleichen NVIDIA Nemotron Coalition an. Wichtige Punkte: Perplexity verfeinert verschiedene offene Modelle für jede Stufe seiner Antwort-Pipeline (Abfrageanalyse, Schlussfolgerung, Endantwort). Das Modell Nemotron 3 Super (120 Milliarden Parameter, MoE-Architektur) ist nun in der Perplexity-Suchleiste, in der Agent API und in Perplexity Computer verfügbar.

🔗 Perplexity-Blog – Nemotron Coalition 🔗 NVIDIA-Ankündigung

Dynamo 1.0: das Inferenz-Betriebssystem geht in Produktion

16. März — NVIDIA kündigt auf dem GTC die produktive Einführung von Dynamo 1.0 an, präsentiert als das “Inferenz-Betriebssystem” (inference operating system) für AI Factories (AI factories). Dynamo steigert die Inferenzleistung auf Blackwell-GPUs um bis zu 7x im Vergleich zu nicht optimierten Deployments. Der Wechsel zu v1.0 markiert den Übergang von der experimentellen Phase in die industrielle Produktion.

🔗 NVIDIA-Ankündigung zu Dynamo 1.0

Physical AI Data Factory Blueprint

16. März — NVIDIA stellt das Physical AI Data Factory Blueprint vor: eine Referenzarchitektur, um beschleunigtes Rechnen in hochwertige Trainingsdaten für Robotik, KI-Vision-Agenten und autonome Fahrzeuge umzuwandeln. Dieses Blueprint ermöglicht es Unternehmen, Trainingsdaten für Physical AI in großem Maßstab synthetisch zu erzeugen.

🔗 NVIDIA-Ankündigung zu Physical AI

Cohere + NVIDIA: souveräne KI auf DGX Spark

16. März — Cohere und NVIDIA schließen sich zusammen, um souveräne, sichere und effiziente KI zu entwickeln, ebenfalls auf dem GTC angekündigt. Zwei Hauptachsen: NVIDIA ecosystem-native Modelle (angepasste Modelle, optimiert für die neueste NVIDIA-Architektur, ausgerichtet auf spezialisierte Enterprise-Workloads) und North auf DGX Spark (die agentische Plattform North von Cohere wird auf NVIDIA DGX Spark verfügbar sein, lokal und mit niedriger Latenz für sensible Daten). Zielbranchen sind Finanzen, Gesundheitswesen und der öffentliche Sektor.

🔗 Cohere-Blog – souveräne NVIDIA-KI

Perplexity Comet Enterprise: MDM-Governance und CrowdStrike-Integration

17. März — Perplexity veröffentlicht Comet Enterprise für alle Enterprise-Abonnenten. Der KI-Browser wird mit vollständiger Governance für die Bereitstellung in die Unternehmensversion überführt.

Funktion	Beschreibung
MDM-Bereitstellung	Stiller Installer, Rollout auf Tausenden von Maschinen, Audit-Logs
Granulare Telemetrie	Nachverfolgung pro Nutzer
CrowdStrike Falcon	Phishing-Schutz, Exfiltrations-Erkennung (Screenshots, Downloads)
Echtzeit-Eingriff	Über die CrowdStrike-Integration möglich
Datenschutz	Perplexity trainiert seine Modelle niemals mit Enterprise-Daten

Zu den ersten Nutzern gehören Fortune-Unternehmen, AWS, AlixPartners, Gunderson Dettmer und Bessemer Venture Partners. Dokumentierte Anwendungsfälle umfassen die Vorbereitung von Kundengesprächen (Echtzeitnachrichten), die Analyse von SOW-Verträgen, Finanzberechnungen und Branchenrecherche.

🔗 Perplexity-Blog – Comet Enterprise

Claude Code v2.1.77: 64k token standardmäßig für Opus 4.6

17. März — Claude Code v2.1.77 erscheint mit einer deutlichen Erhöhung der Generierungslimits und mehreren kritischen Fehlerkorrekturen.

Modell	Standardlimit	Maximales Limit
Claude Opus 4.6	64 000 token	128 000 token
Claude Sonnet 4.6	—	128 000 token

Das Standardlimit für Opus 4.6 verdoppelt sich (von 32k auf 64k token) und ermöglicht deutlich längere Antworten ohne zusätzliche Konfiguration.

Neue Funktionen:

allowRead in Sandboxes: neuer Filesystem-Konfigurationsparameter, der das Lesen in Bereichen wieder erlauben kann, die von einer denyRead-Regel abgedeckt sind. Nützlich für granulare Sicherheitskonfigurationen.
/copy N: Der Befehl /copy akzeptiert nun einen optionalen Index — /copy 2 kopiert die zweitvorherige Antwort des Assistenten, ohne durch den Verlauf zu navigieren.

Bemerkenswerte Korrekturen:

“Always Allow” bei zusammengesetzten Bash-Befehlen: Die Regel wurde für die gesamte Zeichenkette (cd src && npm test) gespeichert statt pro Unterbefehl. Behoben.
Auto-updater: Startete parallele Downloads bei wiederholtem Öffnen und Schließen des Fensters, was zu dutzenden Gigabyte im Speicher führen konnte. Behoben.
--resume, das den Verlauf abschneidet: Eine Race Condition zwischen den Schreibvorgängen der Speicherextraktion und dem Haupttranskript konnte zu einer stillen Abschneidung führen. Behoben.
Hooks PreToolUse, die deny-Regeln umgehen: Ein Hook, der "allow" zurückgab, umging die deny-Berechtigungsregeln, einschließlich unternehmensverwalteter Einstellungen. Wichtige Sicherheitskorrektur.

🔗 CHANGELOG Claude Code

Technischer Artikel: wie das Claude-Code-Team Skills nutzt

17. März — Thariq (@trq212), Ingenieur im Claude-Code-Team bei Anthropic, veröffentlicht “Lessons from Building Claude Code: How We Use Skills”, den zweiten Artikel der Reihe nach “Seeing like an Agent” (27. Februar, 3,6 Millionen Aufrufe).

Der Artikel dokumentiert, wie Skills zu einem der am häufigsten genutzten Erweiterungspunkte von Claude Code geworden sind — flexibel, leicht zu pflegen und Teams erlaubend, wiederverwendbare Workflows direkt in ihrer Entwicklungsumgebung zu definieren. Boris Cherny (@bcherny), Leiter von Claude Code, teilte den Artikel und bezeichnete ihn als “Really great writeup”. Der Autor kündigt außerdem die bevorstehende Veröffentlichung eines iMessage-Skills als Open Source an, als konkretes Beispiel.

“Using Skills well is a skill issue. I didn’t quite realize how much until I wrote this.”

🇩🇪 Gute Nutzung der Skills ist eine Frage von Können. Mir war nicht klar, wie sehr, bevor ich diesen Artikel schrieb. — @trq212 auf X

🔗 Veröffentlichungstweet

Codex Security: warum kein SAST-Bericht

16. März — OpenAI veröffentlicht einen technischen Artikel, der die Designentscheidung hinter Codex Security erläutert: warum das System nicht auf statische Analyse (SAST) als Ausgangspunkt setzt.

Der Ansatz beruht auf vier Säulen: kontextuelles Lesen (den vollständigen Codepfad mit dem Kontext des Repositories analysieren), gezieltes Micro-Fuzzing (auf das kleinste testbare Fragment reduzieren, um Micro-Fuzzer zu schreiben), Schlussfolgern über Constraints (eine Python-Umgebung mit z3-solver verwenden, um komplexe Probleme zu formalisieren) und Sandbox-Validierung (unterscheiden zwischen “das könnte ein Problem sein” und “das ist ein Problem” mit einem kompilierten PoC). Der Artikel veranschaulicht diese Prinzipien mit CVE-2024-29041 (Express), einer Open Redirect, bei der falsch formatierte URLs die Implementierungen von Allowlists umgingen.

🔗 Warum Codex Security keinen SAST-Bericht enthält

Gemini Personal Intelligence: kostenlose Ausweitung in den USA

17. März — Google erweitert Personal Intelligence kostenlos auf mehr Nutzer in den USA. Diese Funktion, bisher nur zahlenden Abonnenten vorbehalten, ist nun für kostenlose Konten (free-tier) über drei Oberflächen zugänglich: AI Mode in Google Search, die Gemini-App (iOS/Android) und die Erweiterung Gemini in Chrome.

Personal Intelligence verbindet die Google-Apps des Nutzers sicher miteinander (Gmail, Google Fotos, YouTube, Search), um personalisierte Antworten zu liefern. Beispiele: an frühere Käufe angepasste Shopping-Empfehlungen, technische Hilfe, die auf das exakt gekaufte Gerät abzielt (aus Gmail-Quittungen extrahiert), personalisierte Reiserouten auf Basis von Hotelbestätigungen. Der Nutzer wählt aus, welche Apps verbunden werden, und kann dies jederzeit deaktivieren. Nur für persönliche Google-Konten verfügbar, nicht für Workspace-Unternehmen/Bildung.

🔗 Google-Blog – Personal Intelligence

AlphaFold Database: Millionen neuer Strukturen von Proteinkomplexen

17. März — Google DeepMind kündigt die Erweiterung der Datenbank AlphaFold Database (AFDB) um Millionen neuer, von KI vorhergesagter Strukturen von Proteinkomplexen an, in Zusammenarbeit mit EMBL-EBI (European Bioinformatics Institute), NVIDIA und der Seoul National University. Die neuen Strukturen decken insbesondere die prioritären bakteriellen Krankheitserreger der WHO ab — die gefährlichsten und antibiotikaresistentesten Bakterien. Diese Erweiterung geht von einzelnen Proteinen auf Proteinkomplexe über (Interaktionen zwischen mehreren Proteinen), ein qualitativer Sprung für die medizinische und pharmazeutische Forschung.

🔗 Ankündigung von Pushmeet Kohli auf X

xAI: Grok Text-to-Speech-API und erster Platz in der Videobearbeitung

Text-to-Speech-API

16. März — xAI kündigt die Verfügbarkeit der Grok Text-to-Speech-API an, mit natürlichen und ausdrucksstarken Stimmen für Entwickler. LiveKit hat diese TTS zum Start direkt in LiveKit Inference integriert.

🔗 xAI-Ankündigung auf X

Grok Imagine auf Platz 1 in der Videobearbeitung

15. März — Grok Imagine erreicht den ersten Platz in der Videobearbeitung im Design-Arena-Ranking mit einem Elo von 1290. Die TTS-API von xAI ist jetzt für Entwickler verfügbar. Die Funktion umfasst das Hinzufügen, Entfernen und Austauschen von Objekten in Videoszenen.

🔗 Grok-Ankündigung auf X

Perplexity Computer: vollständige Kontrolle über Comet und Android

Computer steuert Comet ohne MCP

16. März — Computer kann jetzt die vollständige Kontrolle über den Comet-Browser übernehmen, um autonome Aufgaben auszuführen: Der Browser-Agent kann auf jede verbundene Website oder Anwendung zugreifen, ohne Konnektoren oder MCP. Verfügbar für alle Computer-Nutzer auf Comet.

🔗 Perplexity-Tweet

Computer auf Android

16. März — Perplexity Computer ist jetzt auf Android verfügbar und erweitert den iOS-Start vom 13. März auf alle mobilen Plattformen.

🔗 Perplexity-Android-Tweet

Manus: lokaler Desktop und Google Workspace auf Entwicklerniveau

Manus “My Computer” auf macOS und Windows

16. März — Manus kündigt “My Computer” an, eine zentrale Funktion der neuen Manus-Desktop-App (macOS und Windows). Bisher auf eine Cloud-Sandbox beschränkt, kann Manus nun direkt auf dem lokalen Rechner über Befehlszeilenanweisungen in einem lokalen Terminal ausgeführt werden — mit ausdrücklicher Zustimmung des Nutzers bei jedem Schritt.

Die Anwendungsfälle decken ein breites Spektrum ab: Tausende Dateien sortieren und umbenennen, native Desktop-Anwendungen erstellen (ein genanntes Beispiel: eine Mac-App für Echtzeitübersetzung und Untertitelung, erstellt in 20 Minuten, ohne Xcode zu öffnen), oder die lokale GPU zum Trainieren von Machine-Learning-Modellen nutzen. My Computer ergänzt die bestehenden Cloud-Connectoren (Google Calendar, Gmail), statt sie zu ersetzen.

🔗 Manus-Tweet · 🔗 Manus-Blog

Manus beherrscht Google Workspace mit Präzision

17. März — Manus veröffentlicht ein großes Update seines Google-Workspace-Connectors, basierend auf dem Google Workspace CLI (Open-Source-Tool des Google-Teams). Die frühere Version behandelte Google-Dateien wie monolithische Blöcke; die neue Version ermöglicht granulare Aktionen:

Bereich	Neue Fähigkeiten
Google Docs	Chirurgische Textersetzungen, Antworten auf bestimmte Kommentare
Google Sheets	Übergreifendes Lesen mehrerer Tabellenblätter, Aktualisierung einer genauen Zelle, Duplizieren von Tabs
Google Slides	Bearbeitung bestehender Präsentationen (Titel einer Folie, Aktualisierung einer Zeitleiste)
Google Drive	Neuorganisation von Ordnern

Das Update ist kostenlos und rückwärtskompatibel.

🔗 Manus-Tweet · 🔗 Manus-Blog

GitHub: `/fleet` für Massenwartung und 12,5 Mio. $ für Open Source

Copilot `/fleet`: Wartung über die gesamte Repo-Flotte

15. März — GitHub demonstriert den Befehl /fleet in GitHub Copilot. Mit einer einzigen Anweisung können Entwickler, die mehrere Repositories verwalten, wiederkehrende Wartungsaufgaben (Konfigurationsupdates, Abhängigkeitskorrekturen) an den Agenten über ihre gesamte Flotte hinweg delegieren, statt Repository für Repository.

🔗 GitHub-Tweet

12,5 Mio. $ für Open-Source-Sicherheit

17. März — GitHub, Anthropic, AWS, Google und OpenAI schließen sich in einer gemeinsamen Zusage über 12,5 Millionen Dollar zugunsten von Alpha-Omega zusammen, dem Programm der Linux Foundation zur Sicherung des Open-Source-Ökosystems.

Wichtige Punkte auf GitHub-Seite: 280.000+ Maintainer auf Hunderten Millionen öffentlicher Repositories sind für einen kostenlosen Zugang zu GitHub Copilot Pro berechtigt. GitHub investiert außerdem 5,5 Mio. $ in Azure-Guthaben für Schulungen. Der GitHub Secure Open Source Fund, der bereits 138 Projekte unterstützt hat, eröffnet seine vierte Runde Ende April 2026.

Der Kontext ist bedeutsam: KI hat die Entdeckung von Sicherheitslücken erheblich beschleunigt, was die Last für Maintainer erhöht. Das erklärte Ziel ist, dass KI diese Last reduziert statt sie zu vergrößern.

🔗 GitHub-Blogartikel 🔗 Ankündigung der Linux Foundation

Z.ai GLM-5-Turbo: Hochgeschwindigkeit für Agenten-Umgebungen

15. März — Z.ai bringt GLM-5-Turbo auf den Markt, eine Hochgeschwindigkeitsvariante von GLM-5, optimiert für Agenten-Umgebungen (insbesondere OpenClaw). Am selben Tag werden die Nutzungslimits für Abonnenten des GLM Coding Plan verdreifacht. Verfügbar über OpenRouter und per direkter API.

🔗 Z.ai-Ankündigung auf X

Kimi veröffentlicht ein Paper über Attention Residuals

16.–17. März — Moonshot AI veröffentlicht auf arXiv ein Forschungspaper über Attention Residuals: ein neuer Ansatz zur Aggregation in der Tiefe, der Standard-Residualverbindungen durch eine von der Zeit-/Tiefen-Dualität inspirierte Rekurrenz ersetzt (depth-wise aggregation). Die Analyse zeigt, dass dieser Ansatz Probleme mit dem Anwachsen der Magnitude versteckter Zustände auf natürliche Weise abschwächt. Elon Musk antwortete auf dem Ankündigungstweet mit „Impressive work from Kimi“ (4,5 Millionen Aufrufe).

🔗 Kimi-Tweet · 🔗 arXiv 2603.15031

ElevenLabs × Deloitte: Omnichannel-Agenten für Unternehmen

14. März — ElevenLabs und Deloitte kündigen eine strategische Partnerschaft an, die die Plattform ElevenLabs Agents mit der Branchenexpertise von Deloitte kombiniert, um großen Unternehmen beim Einsatz von Omnichannel-Konversationsagenten zu helfen. Die Partnerschaft richtet sich an regulierte Unternehmen (Finanzen, Gesundheit, öffentlicher Sektor). Deloitte liefert die geschäftliche Integration, ElevenLabs die KI-Audio-Infrastruktur (Stimme, Transkription, Agenten).

🔗 ElevenLabs-Blog

Kurzmeldungen

Tongyi Fun-CineForge (Alibaba, 16. März) — Tongyi Lab stellt Fun-CineForge als Open Source bereit, ein KI-Filmdubbing-System, das sich der Qualität professioneller Kinoproduktionen annähert. Verfügbar auf GitHub, HuggingFace und ModelScope. 🔗 Ankündigung auf X

Was das bedeutet

Die NVIDIA GTC 2026 kristallisiert eine wichtige Dynamik heraus: Mehrere führende KI-Labs (Mistral, Perplexity, Cohere) richten sich rund um die NVIDIA-Infrastruktur aus, um gemeinsam offene Frontier-Modelle oder souveräne Deployments zu entwickeln. Diese Konvergenz um eine offene Koalition steht im Kontrast zur jüngsten Fragmentierung — und signalisiert, dass großskaliges Pre-Training zu teuer geworden ist, um es isoliert zu behandeln.

GPT-5.4 mini bestätigt einen starken Trend: Modelle im „kleinen Format“ sind nicht länger abgespeckte Versionen, sondern konkurrenzfähige Alternativen. Mit 54,4 % auf SWE-Bench Pro gegenüber 57,7 % beim Vollmodell und 19-fach niedrigeren Kosten definiert GPT-5.4 mini das Verhältnis von Leistung zu Preis für Coding-Workflows neu.

Der 17. März zeigt auch den Aufstieg lokaler und Desktop-Agenten: Manus „My Computer“ verlässt die Cloud und greift auf die lokale Maschine zu, Perplexity Computer übernimmt Comet ohne MCP, und Claude Code verdoppelt sein Standard-Generierungsfenster für Opus 4.6. Die Ära des Agenten, der nur Vorschläge macht, weicht der Ära des Agenten, der ausführt.

Quellen

Dieses Dokument wurde aus der fr-Version in die Sprache de unter Verwendung des Modells gpt-5.4-mini übersetzt. Für weitere Informationen zum Übersetzungsprozess besuchen Sie https://gitlab.com/jls42/ai-powered-markdown-translator