Der 17. März 2026 steht im Zeichen des NVIDIA GTC und mehrerer wichtiger Veröffentlichungen. OpenAI bringt GPT-5.4 mini und nano heraus, seine bisher leistungsfähigsten kompakten Modelle, die beim vollständigen Modell bei mehreren Benchmarks nahe herankommen. Die NVIDIA Nemotron Coalition gewinnt mit dem Beitritt von Mistral AI und Perplexity an Dynamik. Perplexity öffnet gleichzeitig Comet Enterprise mit vollständiger MDM-Governance, Claude Code v2.1.77 verdoppelt das Generierungslimit für Opus 4.6, und GitHub, Anthropic, Google und OpenAI schließen sich zusammen, um Open-Source-Sicherheit mit 12,5 Millionen Dollar zu finanzieren.
GPT-5.4 mini und nano: die kompakten Modelle von OpenAI
17. März — OpenAI veröffentlicht GPT-5.4 mini und GPT-5.4 nano, seine bislang leistungsstärksten kompakten Modelle. Diese beiden Varianten bringen die Fähigkeiten von GPT-5.4 in Formate, die für hochvolumige Workloads optimiert sind, mit geringerer Latenz und niedrigeren Kosten.
GPT-5.4 mini verbessert GPT-5 mini deutlich in den Bereichen Code, Schlussfolgerung, multimodales Verständnis und Tool-Nutzung, während es mehr als doppelt so schnell läuft. Es nähert sich den Leistungen des vollständigen Modells GPT-5.4 bei mehreren Schlüsselbewertungen, darunter SWE-Bench Pro und OSWorld-Verified.
GPT-5.4 nano ist die kleinste und kostengünstigste Version der GPT-5.4-Familie, entwickelt für Aufgaben, bei denen Geschwindigkeit und Kosten im Vordergrund stehen: Klassifizierung, Datenextraktion, Ranking und einfache Code-Subagenten.
| Bewertung | GPT-5.4 | GPT-5.4 mini | GPT-5.4 nano | GPT-5 mini |
|---|---|---|---|---|
| SWE-Bench Pro (public) | 57,7 % | 54,4 % | 52,4 % | 45,7 % |
| Terminal-Bench 2.0 | 75,1 % | 60,0 % | 46,3 % | 38,2 % |
| Toolathlon | 54,6 % | 42,9 % | 35,5 % | 26,9 % |
| GPQA Diamond | 93,0 % | 88,0 % | 82,8 % | 81,6 % |
| OSWorld-Verified | 75,0 % | 72,1 % | 39,0 % | 42,0 % |
Die Anwendungsfälle lassen sich in drei Bereiche gliedern: Code-Assistenten (GPT-5.4 mini glänzt in schnellen Coding-Workflows, Debugging-Schleifen und Frontend-Generierung), Subagenten (in Codex kann GPT-5.4 Teilaufgaben an GPT-5.4 mini delegieren und dabei nur 30 % des GPT-5.4-Kontingents verbrauchen) und die Oberflächensteuerung (computer use), bei der GPT-5.4 mini schnell Screenshots dichter Benutzeroberflächen interpretiert.
| Modell | Verfügbarkeit | Eingabepreis | Ausgabepreis | Kontext |
|---|---|---|---|---|
| GPT-5.4 mini | API, Codex, ChatGPT Free/Go | 0,75 $/Million token | 4,50 $/Million token | 400 000 token |
| GPT-5.4 nano | nur API | 0,20 $/Million token | 1,25 $/Million token | — |
In ChatGPT ist GPT-5.4 mini für Free- und Go-Nutzer über die Funktion “Thinking” im +-Menü verfügbar. Für kostenpflichtige Pläne dient es als Fallback-Modell, wenn das GPT-5.4 Thinking-Rate-Limit erreicht wird.
🔗 GPT-5.4 mini und nano vorgestellt
NVIDIA GTC 2026: die Nemotron Coalition und Dynamo 1.0
Die NVIDIA-GTC-Konferenz, die ab dem 16. März stattfand, war der Auslöser für mehrere wichtige Ankündigungen der Branche: die Bildung einer offenen Koalition rund um Frontier-Open-Source-Modelle, die produktive Veröffentlichung eines Inferenz-Betriebssystems und die Ankündigung eines Daten-Blueprints für Physical AI.
Mistral tritt der NVIDIA Nemotron Coalition bei
16. März — Mistral AI kündigt eine strategische Partnerschaft mit NVIDIA an, um gemeinsam Frontier-Open-Source-Modelle zu entwickeln. Mistral wird Gründungsmitglied der NVIDIA Nemotron Coalition und verbindet seine Frontier-Architektur mit der NVIDIA-Computing-Infrastruktur und ihren Entwicklungstools.
| Aspekt | Detail |
|---|---|
| Rolle Mistral | Gründungsmitglied, Frontier-Architektur + Full-Stack-IA-Angebot |
| Beitrag NVIDIA | GPU-Infrastruktur + Entwicklungstools |
| Ziel | Gemeinsame Entwicklung offener Modelle auf Frontier-Niveau |
Perplexity tritt ebenfalls der Koalition bei
16. März — Perplexity kündigt seinen Beitritt zur gleichen NVIDIA Nemotron Coalition an. Wichtige Punkte: Perplexity verfeinert verschiedene offene Modelle für jede Stufe seiner Antwort-Pipeline (Abfrageanalyse, Schlussfolgerung, Endantwort). Das Modell Nemotron 3 Super (120 Milliarden Parameter, MoE-Architektur) ist nun in der Perplexity-Suchleiste, in der Agent API und in Perplexity Computer verfügbar.
🔗 Perplexity-Blog – Nemotron Coalition 🔗 NVIDIA-Ankündigung
Dynamo 1.0: das Inferenz-Betriebssystem geht in Produktion
16. März — NVIDIA kündigt auf dem GTC die produktive Einführung von Dynamo 1.0 an, präsentiert als das “Inferenz-Betriebssystem” (inference operating system) für AI Factories (AI factories). Dynamo steigert die Inferenzleistung auf Blackwell-GPUs um bis zu 7x im Vergleich zu nicht optimierten Deployments. Der Wechsel zu v1.0 markiert den Übergang von der experimentellen Phase in die industrielle Produktion.
🔗 NVIDIA-Ankündigung zu Dynamo 1.0
Physical AI Data Factory Blueprint
16. März — NVIDIA stellt das Physical AI Data Factory Blueprint vor: eine Referenzarchitektur, um beschleunigtes Rechnen in hochwertige Trainingsdaten für Robotik, KI-Vision-Agenten und autonome Fahrzeuge umzuwandeln. Dieses Blueprint ermöglicht es Unternehmen, Trainingsdaten für Physical AI in großem Maßstab synthetisch zu erzeugen.
🔗 NVIDIA-Ankündigung zu Physical AI
Cohere + NVIDIA: souveräne KI auf DGX Spark
16. März — Cohere und NVIDIA schließen sich zusammen, um souveräne, sichere und effiziente KI zu entwickeln, ebenfalls auf dem GTC angekündigt. Zwei Hauptachsen: NVIDIA ecosystem-native Modelle (angepasste Modelle, optimiert für die neueste NVIDIA-Architektur, ausgerichtet auf spezialisierte Enterprise-Workloads) und North auf DGX Spark (die agentische Plattform North von Cohere wird auf NVIDIA DGX Spark verfügbar sein, lokal und mit niedriger Latenz für sensible Daten). Zielbranchen sind Finanzen, Gesundheitswesen und der öffentliche Sektor.
🔗 Cohere-Blog – souveräne NVIDIA-KI
Perplexity Comet Enterprise: MDM-Governance und CrowdStrike-Integration
17. März — Perplexity veröffentlicht Comet Enterprise für alle Enterprise-Abonnenten. Der KI-Browser wird mit vollständiger Governance für die Bereitstellung in die Unternehmensversion überführt.
| Funktion | Beschreibung |
|---|---|
| MDM-Bereitstellung | Stiller Installer, Rollout auf Tausenden von Maschinen, Audit-Logs |
| Granulare Telemetrie | Nachverfolgung pro Nutzer |
| CrowdStrike Falcon | Phishing-Schutz, Exfiltrations-Erkennung (Screenshots, Downloads) |
| Echtzeit-Eingriff | Über die CrowdStrike-Integration möglich |
| Datenschutz | Perplexity trainiert seine Modelle niemals mit Enterprise-Daten |
Zu den ersten Nutzern gehören Fortune-Unternehmen, AWS, AlixPartners, Gunderson Dettmer und Bessemer Venture Partners. Dokumentierte Anwendungsfälle umfassen die Vorbereitung von Kundengesprächen (Echtzeitnachrichten), die Analyse von SOW-Verträgen, Finanzberechnungen und Branchenrecherche.
🔗 Perplexity-Blog – Comet Enterprise
Claude Code v2.1.77: 64k token standardmäßig für Opus 4.6
17. März — Claude Code v2.1.77 erscheint mit einer deutlichen Erhöhung der Generierungslimits und mehreren kritischen Fehlerkorrekturen.
| Modell | Standardlimit | Maximales Limit |
|---|---|---|
| Claude Opus 4.6 | 64 000 token | 128 000 token |
| Claude Sonnet 4.6 | — | 128 000 token |
Das Standardlimit für Opus 4.6 verdoppelt sich (von 32k auf 64k token) und ermöglicht deutlich längere Antworten ohne zusätzliche Konfiguration.
Neue Funktionen:
allowReadin Sandboxes: neuer Filesystem-Konfigurationsparameter, der das Lesen in Bereichen wieder erlauben kann, die von einerdenyRead-Regel abgedeckt sind. Nützlich für granulare Sicherheitskonfigurationen./copy N: Der Befehl/copyakzeptiert nun einen optionalen Index —/copy 2kopiert die zweitvorherige Antwort des Assistenten, ohne durch den Verlauf zu navigieren.
Bemerkenswerte Korrekturen:
- “Always Allow” bei zusammengesetzten Bash-Befehlen: Die Regel wurde für die gesamte Zeichenkette (
cd src && npm test) gespeichert statt pro Unterbefehl. Behoben. - Auto-updater: Startete parallele Downloads bei wiederholtem Öffnen und Schließen des Fensters, was zu dutzenden Gigabyte im Speicher führen konnte. Behoben.
--resume, das den Verlauf abschneidet: Eine Race Condition zwischen den Schreibvorgängen der Speicherextraktion und dem Haupttranskript konnte zu einer stillen Abschneidung führen. Behoben.- Hooks
PreToolUse, diedeny-Regeln umgehen: Ein Hook, der"allow"zurückgab, umging diedeny-Berechtigungsregeln, einschließlich unternehmensverwalteter Einstellungen. Wichtige Sicherheitskorrektur.
Technischer Artikel: wie das Claude-Code-Team Skills nutzt
17. März — Thariq (@trq212), Ingenieur im Claude-Code-Team bei Anthropic, veröffentlicht “Lessons from Building Claude Code: How We Use Skills”, den zweiten Artikel der Reihe nach “Seeing like an Agent” (27. Februar, 3,6 Millionen Aufrufe).
Der Artikel dokumentiert, wie Skills zu einem der am häufigsten genutzten Erweiterungspunkte von Claude Code geworden sind — flexibel, leicht zu pflegen und Teams erlaubend, wiederverwendbare Workflows direkt in ihrer Entwicklungsumgebung zu definieren. Boris Cherny (@bcherny), Leiter von Claude Code, teilte den Artikel und bezeichnete ihn als “Really great writeup”. Der Autor kündigt außerdem die bevorstehende Veröffentlichung eines iMessage-Skills als Open Source an, als konkretes Beispiel.
“Using Skills well is a skill issue. I didn’t quite realize how much until I wrote this.”
🇩🇪 Gute Nutzung der Skills ist eine Frage von Können. Mir war nicht klar, wie sehr, bevor ich diesen Artikel schrieb. — @trq212 auf X
Codex Security: warum kein SAST-Bericht
16. März — OpenAI veröffentlicht einen technischen Artikel, der die Designentscheidung hinter Codex Security erläutert: warum das System nicht auf statische Analyse (SAST) als Ausgangspunkt setzt.
Der Ansatz beruht auf vier Säulen: kontextuelles Lesen (den vollständigen Codepfad mit dem Kontext des Repositories analysieren), gezieltes Micro-Fuzzing (auf das kleinste testbare Fragment reduzieren, um Micro-Fuzzer zu schreiben), Schlussfolgern über Constraints (eine Python-Umgebung mit z3-solver verwenden, um komplexe Probleme zu formalisieren) und Sandbox-Validierung (unterscheiden zwischen “das könnte ein Problem sein” und “das ist ein Problem” mit einem kompilierten PoC). Der Artikel veranschaulicht diese Prinzipien mit CVE-2024-29041 (Express), einer Open Redirect, bei der falsch formatierte URLs die Implementierungen von Allowlists umgingen.
🔗 Warum Codex Security keinen SAST-Bericht enthält
Gemini Personal Intelligence: kostenlose Ausweitung in den USA
17. März — Google erweitert Personal Intelligence kostenlos auf mehr Nutzer in den USA. Diese Funktion, bisher nur zahlenden Abonnenten vorbehalten, ist nun für kostenlose Konten (free-tier) über drei Oberflächen zugänglich: AI Mode in Google Search, die Gemini-App (iOS/Android) und die Erweiterung Gemini in Chrome.
Personal Intelligence verbindet die Google-Apps des Nutzers sicher miteinander (Gmail, Google Fotos, YouTube, Search), um personalisierte Antworten zu liefern. Beispiele: an frühere Käufe angepasste Shopping-Empfehlungen, technische Hilfe, die auf das exakt gekaufte Gerät abzielt (aus Gmail-Quittungen extrahiert), personalisierte Reiserouten auf Basis von Hotelbestätigungen. Der Nutzer wählt aus, welche Apps verbunden werden, und kann dies jederzeit deaktivieren. Nur für persönliche Google-Konten verfügbar, nicht für Workspace-Unternehmen/Bildung.
🔗 Google-Blog – Personal Intelligence
AlphaFold Database: Millionen neuer Strukturen von Proteinkomplexen
17. März — Google DeepMind kündigt die Erweiterung der Datenbank AlphaFold Database (AFDB) um Millionen neuer, von KI vorhergesagter Strukturen von Proteinkomplexen an, in Zusammenarbeit mit EMBL-EBI (European Bioinformatics Institute), NVIDIA und der Seoul National University. Die neuen Strukturen decken insbesondere die prioritären bakteriellen Krankheitserreger der WHO ab — die gefährlichsten und antibiotikaresistentesten Bakterien. Diese Erweiterung geht von einzelnen Proteinen auf Proteinkomplexe über (Interaktionen zwischen mehreren Proteinen), ein qualitativer Sprung für die medizinische und pharmazeutische Forschung.
🔗 Ankündigung von Pushmeet Kohli auf X
xAI: Grok Text-to-Speech-API und erster Platz in der Videobearbeitung
Text-to-Speech-API
16. März — xAI kündigt die Verfügbarkeit der Grok Text-to-Speech-API an, mit natürlichen und ausdrucksstarken Stimmen für Entwickler. LiveKit hat diese TTS zum Start direkt in LiveKit Inference integriert.
Grok Imagine auf Platz 1 in der Videobearbeitung
15. März — Grok Imagine erreicht den ersten Platz in der Videobearbeitung im Design-Arena-Ranking mit einem Elo von 1290. Die TTS-API von xAI ist jetzt für Entwickler verfügbar. Die Funktion umfasst das Hinzufügen, Entfernen und Austauschen von Objekten in Videoszenen.
Perplexity Computer: vollständige Kontrolle über Comet und Android
Computer steuert Comet ohne MCP
16. März — Computer kann jetzt die vollständige Kontrolle über den Comet-Browser übernehmen, um autonome Aufgaben auszuführen: Der Browser-Agent kann auf jede verbundene Website oder Anwendung zugreifen, ohne Konnektoren oder MCP. Verfügbar für alle Computer-Nutzer auf Comet.
Computer auf Android
16. März — Perplexity Computer ist jetzt auf Android verfügbar und erweitert den iOS-Start vom 13. März auf alle mobilen Plattformen.
Manus: lokaler Desktop und Google Workspace auf Entwicklerniveau
Manus “My Computer” auf macOS und Windows
16. März — Manus kündigt “My Computer” an, eine zentrale Funktion der neuen Manus-Desktop-App (macOS und Windows). Bisher auf eine Cloud-Sandbox beschränkt, kann Manus nun direkt auf dem lokalen Rechner über Befehlszeilenanweisungen in einem lokalen Terminal ausgeführt werden — mit ausdrücklicher Zustimmung des Nutzers bei jedem Schritt.
Die Anwendungsfälle decken ein breites Spektrum ab: Tausende Dateien sortieren und umbenennen, native Desktop-Anwendungen erstellen (ein genanntes Beispiel: eine Mac-App für Echtzeitübersetzung und Untertitelung, erstellt in 20 Minuten, ohne Xcode zu öffnen), oder die lokale GPU zum Trainieren von Machine-Learning-Modellen nutzen. My Computer ergänzt die bestehenden Cloud-Connectoren (Google Calendar, Gmail), statt sie zu ersetzen.
🔗 Manus-Tweet · 🔗 Manus-Blog
Manus beherrscht Google Workspace mit Präzision
17. März — Manus veröffentlicht ein großes Update seines Google-Workspace-Connectors, basierend auf dem Google Workspace CLI (Open-Source-Tool des Google-Teams). Die frühere Version behandelte Google-Dateien wie monolithische Blöcke; die neue Version ermöglicht granulare Aktionen:
| Bereich | Neue Fähigkeiten |
|---|---|
| Google Docs | Chirurgische Textersetzungen, Antworten auf bestimmte Kommentare |
| Google Sheets | Übergreifendes Lesen mehrerer Tabellenblätter, Aktualisierung einer genauen Zelle, Duplizieren von Tabs |
| Google Slides | Bearbeitung bestehender Präsentationen (Titel einer Folie, Aktualisierung einer Zeitleiste) |
| Google Drive | Neuorganisation von Ordnern |
Das Update ist kostenlos und rückwärtskompatibel.
🔗 Manus-Tweet · 🔗 Manus-Blog
GitHub: /fleet für Massenwartung und 12,5 Mio. $ für Open Source
Copilot /fleet: Wartung über die gesamte Repo-Flotte
15. März — GitHub demonstriert den Befehl /fleet in GitHub Copilot. Mit einer einzigen Anweisung können Entwickler, die mehrere Repositories verwalten, wiederkehrende Wartungsaufgaben (Konfigurationsupdates, Abhängigkeitskorrekturen) an den Agenten über ihre gesamte Flotte hinweg delegieren, statt Repository für Repository.
12,5 Mio. $ für Open-Source-Sicherheit
17. März — GitHub, Anthropic, AWS, Google und OpenAI schließen sich in einer gemeinsamen Zusage über 12,5 Millionen Dollar zugunsten von Alpha-Omega zusammen, dem Programm der Linux Foundation zur Sicherung des Open-Source-Ökosystems.
Wichtige Punkte auf GitHub-Seite: 280.000+ Maintainer auf Hunderten Millionen öffentlicher Repositories sind für einen kostenlosen Zugang zu GitHub Copilot Pro berechtigt. GitHub investiert außerdem 5,5 Mio. $ in Azure-Guthaben für Schulungen. Der GitHub Secure Open Source Fund, der bereits 138 Projekte unterstützt hat, eröffnet seine vierte Runde Ende April 2026.
Der Kontext ist bedeutsam: KI hat die Entdeckung von Sicherheitslücken erheblich beschleunigt, was die Last für Maintainer erhöht. Das erklärte Ziel ist, dass KI diese Last reduziert statt sie zu vergrößern.
🔗 GitHub-Blogartikel 🔗 Ankündigung der Linux Foundation
Z.ai GLM-5-Turbo: Hochgeschwindigkeit für Agenten-Umgebungen
15. März — Z.ai bringt GLM-5-Turbo auf den Markt, eine Hochgeschwindigkeitsvariante von GLM-5, optimiert für Agenten-Umgebungen (insbesondere OpenClaw). Am selben Tag werden die Nutzungslimits für Abonnenten des GLM Coding Plan verdreifacht. Verfügbar über OpenRouter und per direkter API.
Kimi veröffentlicht ein Paper über Attention Residuals
16.–17. März — Moonshot AI veröffentlicht auf arXiv ein Forschungspaper über Attention Residuals: ein neuer Ansatz zur Aggregation in der Tiefe, der Standard-Residualverbindungen durch eine von der Zeit-/Tiefen-Dualität inspirierte Rekurrenz ersetzt (depth-wise aggregation). Die Analyse zeigt, dass dieser Ansatz Probleme mit dem Anwachsen der Magnitude versteckter Zustände auf natürliche Weise abschwächt. Elon Musk antwortete auf dem Ankündigungstweet mit „Impressive work from Kimi“ (4,5 Millionen Aufrufe).
🔗 Kimi-Tweet · 🔗 arXiv 2603.15031
ElevenLabs × Deloitte: Omnichannel-Agenten für Unternehmen
14. März — ElevenLabs und Deloitte kündigen eine strategische Partnerschaft an, die die Plattform ElevenLabs Agents mit der Branchenexpertise von Deloitte kombiniert, um großen Unternehmen beim Einsatz von Omnichannel-Konversationsagenten zu helfen. Die Partnerschaft richtet sich an regulierte Unternehmen (Finanzen, Gesundheit, öffentlicher Sektor). Deloitte liefert die geschäftliche Integration, ElevenLabs die KI-Audio-Infrastruktur (Stimme, Transkription, Agenten).
Kurzmeldungen
Tongyi Fun-CineForge (Alibaba, 16. März) — Tongyi Lab stellt Fun-CineForge als Open Source bereit, ein KI-Filmdubbing-System, das sich der Qualität professioneller Kinoproduktionen annähert. Verfügbar auf GitHub, HuggingFace und ModelScope. 🔗 Ankündigung auf X
Was das bedeutet
Die NVIDIA GTC 2026 kristallisiert eine wichtige Dynamik heraus: Mehrere führende KI-Labs (Mistral, Perplexity, Cohere) richten sich rund um die NVIDIA-Infrastruktur aus, um gemeinsam offene Frontier-Modelle oder souveräne Deployments zu entwickeln. Diese Konvergenz um eine offene Koalition steht im Kontrast zur jüngsten Fragmentierung — und signalisiert, dass großskaliges Pre-Training zu teuer geworden ist, um es isoliert zu behandeln.
GPT-5.4 mini bestätigt einen starken Trend: Modelle im „kleinen Format“ sind nicht länger abgespeckte Versionen, sondern konkurrenzfähige Alternativen. Mit 54,4 % auf SWE-Bench Pro gegenüber 57,7 % beim Vollmodell und 19-fach niedrigeren Kosten definiert GPT-5.4 mini das Verhältnis von Leistung zu Preis für Coding-Workflows neu.
Der 17. März zeigt auch den Aufstieg lokaler und Desktop-Agenten: Manus „My Computer“ verlässt die Cloud und greift auf die lokale Maschine zu, Perplexity Computer übernimmt Comet ohne MCP, und Claude Code verdoppelt sein Standard-Generierungsfenster für Opus 4.6. Die Ära des Agenten, der nur Vorschläge macht, weicht der Ära des Agenten, der ausführt.
Quellen
- GPT-5.4 mini und nano vorstellen – OpenAI
- Warum Codex Security keinen SAST-Report enthält – OpenAI
- Mistral × NVIDIA – X-Ankündigung
- Perplexity tritt der NVIDIA Nemotron Coalition bei
- NVIDIA Nemotron Coalition
- NVIDIA Dynamo 1.0 – X
- NVIDIA Physical AI Data Factory Blueprint – X
- Cohere + NVIDIA souveräne KI
- Perplexity Comet Enterprise
- CHANGELOG Claude Code v2.1.77
- Thariq – Skills-Artikel
- Google Personal Intelligence-Erweiterung
- Erweiterung der AlphaFold-Datenbank – X
- xAI TTS API – X
- Grok Imagine #1 Design Arena – X
- Perplexity Computer steuert Comet – X
- Perplexity Computer Android – X
- Manus My Computer
- Manus Google Workspace CLI
- GitHub Copilot /fleet – X
- GitHub + Alpha-Omega 12,5 Mio. $
- Linux Foundation – Open-Source-Sicherheitsfonds
- Z.ai GLM-5-Turbo – X
- Kimi Attention Residuals – X
- Kimi Attention Residuals – arXiv
- ElevenLabs × Deloitte
- Tongyi Fun-CineForge – X
Dieses Dokument wurde aus der fr-Version in die Sprache de unter Verwendung des Modells gpt-5.4-mini übersetzt. Für weitere Informationen zum Übersetzungsprozess besuchen Sie https://gitlab.com/jls42/ai-powered-markdown-translator