OpenAI startet GPT-5.5, Anthropic öffnet das Gedächtnis für Managed Agents, Kimi K2.6 Agent Swarm

Der 23. April 2026 markiert einen dichten Tag: OpenAI startet GPT-5.5 mit 85 % auf ARC-AGI-2 und einem API-Tarif von $5/M tokens für Eingaben, während Anthropic die persistente Erinnerung für seine Managed Agents in die Beta öffnet und einen Post-Mortem zu Claude Code veröffentlicht. Parallel dazu liefert GitHub Copilot sieben Updates in drei Tagen, Kimi K2.6 setzt einen Schwarm (swarm) aus 300 Unteragenten ein, und SpaceX besiegelt eine Coding-Partnerschaft mit Cursor.

GPT-5.5: OpenAIs Frontier-Modell

23. April — OpenAI startet GPT-5.5, sein bisher leistungsstärkstes Modell, entwickelt für reale Arbeit und Agenten. Es verbessert agentisches Codieren, Computer-Nutzung (computer use), Wissensarbeit und wissenschaftliche Forschung deutlich und behält dabei die Latenz von GPT-5.4 bei.

Verfügbarkeit und Preisgestaltung

GPT-5.5 ist sofort für Abonnenten von ChatGPT Plus, Pro, Business und Enterprise verfügbar, sowie in Codex. Der API-Zugang kommt „sehr bald“.

Angebot	API-Zugang	Eingabe	Ausgabe
GPT-5.5 standard	Bald	$5 / M tokens	$30 / M tokens
GPT-5.5 Pro	Bald	$30 / M tokens	$180 / M tokens

Das Kontextfenster in Codex erreicht 400K tokens. Ein Fast-Modus — 1,5× schneller, 2,5× Kosten — ist verfügbar.

Benchmarks

Bewertung	GPT-5.5	GPT-5.4	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82.7%	75.1%	69.4%	68.5%
Expert-SWE (intern)	73.1%	68.5%	—	—
SWE-Bench Pro	58.6%	57.7%	64.3%	54.2%
GDPval	84.9%	83.0%	80.3%	67.3%
OSWorld-Verified	78.7%	75.0%	78.0%	—
ARC-AGI-2	85.0%	73.3%	75.8%	77.1%
FrontierMath Tier 4	35.4%	27.1%	22.9%	16.7%
CyberGym	81.8%	79.0%	73.1%	—
BixBench (Bioinformatik)	80.5%	74.0%	—	—

GPT-5.5 liegt bei der Mehrheit der Benchmarks vorn, mit einer bemerkenswerten Ausnahme: SWE-Bench Pro, wo Claude Opus 4.7 den Vorteil behält (64.3 % vs. 58.6 %).

Infrastruktur und Sicherheit

Das Modell wurde gemeinsam mit NVIDIA GB200/GB300 NVL72 entwickelt. Codex nutzte GPT-5.5, um seine eigene Infrastruktur zu optimieren, und gewann dadurch +20 % Geschwindigkeit bei der Token-Generierung. Auf der Cybersecurity-Seite wird GPT-5.5 im Preparedness Framework von OpenAI als High eingestuft (nicht Critical); das Trusted Access Cyber-Programm wurde darauf ausgeweitet.

Wissenschaftliche Forschung

Über Code hinaus half GPT-5.5 dabei, einen neuen Satz über Ramsey-Zahlen (Kombinatorik) zu beweisen, der formal in Lean verifiziert wurde. Außerdem analysierte es einen genomischen Datensatz mit 62 Proben und 28 000 Genen in wenigen Minuten — eine Aufgabe, für die ein Forscherteam Monate gebraucht hätte.

« GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use. »

🇩🇪 GPT-5.5 ist deutlich intelligenter und hartnäckiger als GPT-5.4, mit besserer Coding-Performance und zuverlässigerem Einsatz von tools. — Michael Truell, Mitgründer und CEO von Cursor

🔗 GPT-5.5-Ankündigung

Die Welle persistenter Agenten

Drei große Ankündigungen bündeln sich am 23. April rund um den persistierenden Agenten, der autonom über lange Zeiträume handeln und den Kontext von Sitzung zu Sitzung behalten kann.

OpenAI Workspace Agents in ChatGPT

22. April — OpenAI stellt die Workspace Agents vor: geteilte Agenten, die ein Team einmal erstellt, gemeinsam in ChatGPT oder Slack nutzt und schrittweise verbessert. Angetrieben von Codex in der Cloud können sie komplexe Aufgaben ausführen, selbst wenn der Nutzer offline ist. Die Workspace Agents ersetzen schrittweise die GPTs, die während der Übergangsphase weiterhin verfügbar bleiben.

Agententyp	Funktion
Software-Checker	Prüft Anfragen, vergleicht Richtlinien, erstellt IT-Tickets
Produkt-Feedback-Router	Überwacht Slack/Support/Foren → priorisierte Tickets
Berichtsgenerator	Extrahiert freitags Daten, erstellt Diagramme, Zusammenfassung
Prospektions-Agent	Recherchiert Leads, bewertet sie, verfasst E-Mails, aktualisiert CRM
Verantwortlicher für Drittparteirisiken	Bewertet Lieferanten, erstellt strukturierten Bericht

Verfügbar als Research Preview für Business, Enterprise, Edu und Teachers; kostenlos bis zum 6. Mai 2026, danach Abrechnung per Credits.

Laut Ankur Bhatt (AI Engineering, Rippling) läuft das, was früher 5 bis 6 Stunden pro Woche für Vertriebsmitarbeiter beanspruchte, jetzt automatisch im Hintergrund bei jeder Opportunity.

🔗 Workspace Agents

Anthropic — Speicher für die Claude Managed Agents

23. April — Der Speicher für die Claude Managed Agents ist als öffentliche Beta auf der Claude Platform verfügbar. Die Agenten können nun von Sitzung zu Sitzung lernen, dank einer Memory-Schicht, die direkt auf einem Dateisystem aufgesetzt ist: Die Agenten nutzen dieselben bash- und Code-Ausführungsmöglichkeiten, die sie bereits für agentische Aufgaben verwenden.

Funktion	Detail
Teilbare Stores	Mehrere Agenten, unterschiedliche Zugriffsumfänge (nur lesen / lesen-schreiben)
Gleichzeitiger Zugriff	Ohne Überschreiben zwischen parallelen Sitzungen
Audit-Protokoll	Welche Sitzung, welcher Agent, welcher Speicher
Rückgängigmachung	Für jede frühere Version
Exportierbarkeit	Speicher über die API verwaltbar

Die Kundenergebnisse zeigen die konkrete Wirkung:

Kunde	Ergebnis
Rakuten	-97 % Fehler im ersten Durchlauf, -27 % Kosten, -34 % Latenz
Wisedocs	+30 % Geschwindigkeit bei der Dokumentenprüfung
Netflix	Kontinuität des Kontexts zwischen Sitzungen ohne manuelles Update
Ando	Plattformspeicher ohne dedizierte Infrastruktur

Memory in Claude Managed Agents lets us put continuous learning into production at scale. Our agents distill lessons from every session, delivering 97% fewer first-pass errors at 27% lower cost and 34% lower latency.

🇩🇪 Der Speicher in Claude Managed Agents ermöglicht es uns, kontinuierliches Lernen in großem Maßstab in die Produktion zu bringen. Unsere Agenten destillieren die Lehren aus jeder Sitzung und liefern 97 % weniger Fehler im ersten Durchlauf, 27 % geringere Kosten und 34 % geringere Latenz. — Yusuke Kaji, General Manager AI for Business, Rakuten

🔗 Speicher für Managed Agents

Claude Code: Qualitäts-Post-Mortem und zwei neue Versionen

Post-Mortem und Zurücksetzen der Limits

23. April — Das Claude-Code-Team veröffentlichte ein Post-Mortem zu drei Qualitätsproblemen, die im vergangenen Monat gemeldet wurden. Alle sind in v2.1.116+ behoben. Die Nutzungslimits wurden für alle Abonnenten zurückgesetzt.

Over the past month, some of you reported Claude Code’s quality had slipped. We investigated, and published a post-mortem on the three issues we found. All are fixed in v2.1.116+ and we’ve reset usage limits for all subscribers.

🇩🇪 Im vergangenen Monat meldeten einige von euch, dass die Qualität von Claude Code nachgelassen hatte. Wir haben dies untersucht und ein Post-Mortem zu den drei gefundenen Problemen veröffentlicht. Alle sind in v2.1.116+ behoben, und wir haben die Nutzungslimits für alle Abonnenten zurückgesetzt. — @ClaudeDevs

v2.1.117 und v2.1.118

Version	Hauptfunktionen
v2.1.118	Visueller Vim-Modus (`v`/`V`) mit Auswahl und Operatoren; vereinheitlichtes `/usage` (fusioniert `/cost` und `/stats`); benutzerdefinierte Themes in `/theme`; Hooks, die MCP-Tools über `type: "mcp_tool"` aufrufen; striktes `DISABLE_UPDATES`; Vererbung von Managed Settings unter Windows via WSL
v2.1.117	Standardaufwand auf `high` für Pro/Max auf Opus 4.6 und Sonnet 4.6 gesetzt (war `medium`); Unteragenten-Fork auf externen Builds aktivierbar; `glob`/`Grep` ersetzt durch eingebettete `bfs`/`ugrep` für schnellere Recherchen; Fix für Opus-4.7-Sitzungen (1M-Kontext korrekt berechnet); Fix für Bedrock+Opus 4.7 mit deaktiviertem thinking

🔗 CHANGELOG Claude Code

Neue Claude-Connectors für den Alltag

23. April — Anthropic erweitert sein Connector-Verzeichnis um Consumer-Anwendungen. Seit Juli 2025 waren bereits mehr als 200 Connectoren für professionelle Tools verfügbar; dieses Update ergänzt 15 Dienste für den Alltag.

Anwendung	Kategorie
AllTrails	Wandern
Audible	Hörbücher
Booking.com	Reisen
Instacart	Einkäufe online
Intuit Credit Karma	Finanzen
Intuit TurboTax	Steuern
Resy	Restaurantreservierungen
Spotify	Musik
StubHub	Ticketverkauf
Taskrabbit	Dienstleistungen im Haushalt
Thumbtack	Lokale Dienstleister
TripAdvisor	Reisen
Uber	Transport
Uber Eats	Essenslieferung
Viator	Touristische Aktivitäten

Claude schlägt nun automatisch die passenden Connectoren je nach Gesprächskontext vor. Verfügbar auf allen Plänen (einschließlich kostenlos), Web, Desktop und Mobile (Mobile in Beta). Kein Paid Placement und keine gesponserten Antworten; die Daten einer App werden nicht zum Trainieren der Modelle verwendet.

🔗 Connectoren für den Alltag

GitHub Copilot — Sieben Updates in drei Tagen

GitHub Copilot veröffentlichte zwischen dem 22. und 23. April sieben Einträge in seinem Changelog.

Chat für Pull Requests (3 neue Funktionen)

23. April — Copilot Chat integriert jetzt drei Fähigkeiten für Pull Requests, erreichbar über github.com/copilot oder den Copilot-Button auf Diffs (Public Preview):

PR-Verständnis (pull request understanding): Kommentare, Änderungen, Commits und Reviews als integrierter Kontext
PR-Review: strukturierte Review auf Anfrage
PR-Zusammenfassung: knappe Zusammenfassung der Änderungen

🔗 Copilot Chat PR improvements

Agent-Sitzungen aus Issues und Projekten steuerbar

23. April — Der Cloud Agent ist jetzt direkt aus GitHub-Issues und Projekt-Boards steuerbar: Sitzungsindikator im Issue-Kopf, Fortschritts-Seitenpanel, Sitzungen standardmäßig in allen Projektansichten aktiviert.

🔗 Agent sessions depuis issues

Strukturierte Debugging von Stack Traces im Web

23. April — Copilot Chat auf github.com führt jetzt die Analyse von Stack Traces in sechs strukturierten Schritten durch: was fehlgeschlagen ist, warum, die Grundursache, Belege aus dem Code, das Vertrauensniveau und die nächsten Prüfungen.

🔗 Débogage stack traces

BYOK VS Code verfügbar (GA)

22. April — Bring Your Own Key (bringen Sie Ihren eigenen API-Schlüssel mit) ist für Copilot-Business- und Enterprise-Nutzer in VS Code allgemein verfügbar. Anthropic, Gemini, OpenAI, OpenRouter, Azure werden unterstützt, ebenso lokale Modelle über Ollama und Foundry Local. Die Abrechnung erfolgt direkt über den gewählten Anbieter, außerhalb der Copilot-Quoten.

🔗 BYOK VS Code GA

C++ Language Server in öffentlicher Preview für Copilot CLI

22. April — Der Microsoft C++ Language Server (IntelliSense-Engine von Visual Studio/VS Code) ist als öffentliche Preview für Copilot CLI verfügbar. Er liefert präzise semantische Daten (Symboldefinitionen, Referenzen, Aufrufhierarchien, Typen) als Ersatz für iteratives grep-basiertes Suchen. Voraussetzungen: Copilot-CLI-Authentifizierung + compile_commands.json.

🔗 C++ Language Server

Neue Business-Self-Serve-Anmeldungen ausgesetzt

22. April — GitHub setzt neue Self-Serve-Anmeldungen für Copilot Business auf den Plänen GitHub Free und GitHub Team aus. Bestehende Kunden sind nicht betroffen.

🔗 Pause Business self-serve

Feld `used_copilot_cloud_agent` in den API-Metriken

23. April — Im Zuge des Rebrandings von „coding agent“ zu „cloud agent“ fügt die Metrik-API das Feld used_copilot_cloud_agent in den Benutzerberichten hinzu (rollierende 1- und 28-Tage-Fenster). Das alte Feld used_copilot_coding_agent bleibt bis zum 1. August 2026 erhalten.

🔗 Cloud-Agent-Metriken

Gemini CLI v0.39.0 und Deep Think für alle Ultra-Abonnenten

Gemini CLI v0.39.0

23. April — Google veröffentlicht Gemini CLI v0.39.0, eine stabile Version mit dem Label „Latest“. Das Highlight ist der neue Befehl /memory inbox, um die vom CLI während Arbeitssitzungen automatisch extrahierten Skills zu überprüfen und zu validieren.

Funktion	Beschreibung
`/memory inbox`	Überprüfung automatisch extrahierter Skills
vereinheitlichtes `invoke_subagent`	Umgestaltetes Unteragenten-Tool in einer einheitlichen Oberfläche
Kompaktes Formatieren	Bessere Lesbarkeit im kompakten Modus
Plan Mode — Bestätigungen	Vor der Aktivierung von Skills ist eine Bestätigung erforderlich
Leichterer Start	Leichter Parent-Prozess für schnelleres Starten
JSONL-Streaming-Migration	Speichern von Chat-Sitzungen in JSONL

Neu hinzugefügte Tastenkürzel: Ctrl+Backspace zum wortweisen Löschen (Windows Terminal), Ctrl+Shift+G.

🔗 Gemini CLI v0.39.0

Deep Think für alle Ultra-Abonnenten geöffnet

22. April — Google öffnet den Modus Deep Think (vertieftes Denken, extended thinking) für alle Gemini-Ultra-Abonnenten. Dieser Modus war zuvor nur eingeschränkt verfügbar; nun ist er direkt über das Tool-Menü der Gemini-App (Web und Mobile) zugänglich.

🔗 Tweet @GeminiApp

Kimi K2.6: Schwarm aus 300 Unteragenten und Open-Weights-Benchmarks

Agent Swarm — 300 parallele Unteragenten

23. April — Moonshot AI startet Kimi K2.6 Agent Swarm: ein System, das 300 Unteragenten parallel über 4 000 Schritte pro Ausführung einsetzen kann, gegenüber 100 Agenten und 1 500 Schritten bei K2.5.

Fähigkeit	K2.5	K2.6
Parallele Unteragenten	100	300
Schritte pro Ausführung	1 500	4 000
Ausgabetypen	Chat-Text	100+ echte Dateien, Reviews mit 100 000 Wörtern, Datensätze mit 20 000 Zeilen

Die Unteragenten kombinieren heterogene Fähigkeiten: Webrecherche, Datenanalyse, Codierung, lange Texte und visuelle Generierung. Verfügbar auf kimi.com/agent-swarm.

🔗 Tweet @Kimi_Moonshot

Benchmarks: Nummer 1 bei Open-Weights

23. April — Kimi K2.6 erreicht die Spitzenposition unter den Open-Weights-Modellen bei zwei Benchmarks: - Design Arena : gleiche Leistungsspanne wie Claude Opus 4.7

MathArena open (Think-Modus) : vor GLM 5.1

🔗 Design Arena

SpaceXAI × Cursor und Grok Imagine

Partnerschaft SpaceXAI × Cursor

22. April — SpaceXAI (Entität aus der Annäherung von xAI/SpaceX) und Cursor kündigen eine Partnerschaft an, um „die leistungsfähigste Codierungs- und Wissensarbeits-KI der Welt“ zu schaffen. SpaceX bringt den Supercomputer Colossus ein (entspricht einer Million H100); Cursor gewährt ihm das Recht, das Unternehmen später im Jahr 2026 für 60 Milliarden $ zu erwerben oder lediglich 10 Milliarden $ für die Zusammenarbeit zu zahlen.

🔗 Tweet @SpaceX

Grok Imagine — Teilbare benutzerdefinierte Vorlagen

22. April — SuperGrok- und Premium+-Abonnenten können nun benutzerdefinierte Vorlagen in Grok Imagine erstellen und sie öffentlich teilen.

🔗 Tweet @imagine

NVIDIA × Google Cloud Next

22. April — Auf der Google Cloud Next (Las Vegas) kündigen NVIDIA und Google Cloud mehrere wichtige Fortschritte rund um die agentische KI-Infrastruktur an.

Ankündigung	Detail
A5X-Instanzen (Vera Rubin NVL72)	Bis zu 960.000 Rubin GPUs in einem Multisite-Cluster, 10× günstiger pro token, 10× mehr Durchsatz pro Megawatt
Gemini auf Google Distributed Cloud	Preview mit Blackwell und Blackwell Ultra GPUs — Datensouveränität
Confidential VMs Blackwell	Erstes Blackwell-Angebot für vertrauliches Rechnen (confidential computing) in der öffentlichen Cloud
Nemotron 3 Super	Verfügbar auf der Gemini Enterprise Agent Platform
NeMo RL API	Verwaltetes Verstärkungslernen (Reinforcement Learning) in großem Maßstab

🔗 NVIDIA × Google Cloud-Blog

Kling AI Video 3.0 — Nativer 4K-Modus

23. April — Kling AI führt in seiner Video-3.0-Reihe den nativen 4K-Modus ein. Die 4K-Generierung erfolgt mit einem einzigen Klick, ohne zusätzlichen Upscaling-Schritt. Die visuelle Konsistenz (Figuren, Texte, Stile, Beleuchtung) wird in nativer Auflösung für High-End-Produktionen gewährleistet. Ebenfalls über fal.ai für Unternehmen verfügbar.

Kling AI organisiert gleichzeitig einen 4K Short Film Creative Contest, einen weltweiten Wettbewerb, der Kreative dazu einlädt, Kurzfilme einzureichen, die mit dem neuen Modus erstellt wurden.

🔗 Tweet @Kling_ai

ChatGPT for Clinicians und OpenAI Privacy Filter

ChatGPT for Clinicians + HealthBench Professional

22. April — OpenAI startet ChatGPT for Clinicians, eine kostenlose Version für verifizierte Gesundheitsfachkräfte in den USA (Ärzte, Advanced Practice Nurses, medizinische Assistenten, Apotheker). Der Dienst umfasst Zugriff auf Frontier-Modelle für komplexe klinische Fragen, Skills für repetitive Workflows (Überweisungsschreiben, Vorabgenehmigungen), zitierte klinische Recherche in Echtzeit und die automatische Generierung von CME-Fortbildungspunkten. HIPAA-Verarbeitung ist optional per Vereinbarung verfügbar.

OpenAI veröffentlicht außerdem HealthBench Professional, einen offenen Benchmark zur Bewertung von KI an realen klinischen Aufgaben (über 700.000 von Ärzten bewertete Antworten). GPT-5.4 in ChatGPT for Clinicians übertrifft Menschen auf diesem Benchmark unter Zeitbedingungen ohne Begrenzung mit Webzugriff.

🔗 ChatGPT for Clinicians

OpenAI Privacy Filter

22. April — OpenAI veröffentlicht Privacy Filter, ein Open-Weight-Modell (Apache 2.0) zum Erkennen und Maskieren personenbezogener Informationen (Personally Identifiable Information, PII) in Texten. Das Modell läuft lokal (keine Daten werden an einen Server gesendet), unterstützt 128K tokens Kontext und erreicht einen F1-Score von 97,43 % auf dem PII-Masking-300k-Benchmark.

Eigenschaft	Wert
Architektur	Bidirektionaler token-Klassifikator (eingeschränktes Viterbi-Decoding)
Größe	1,5 Mrd. Gesamtparameter, 50 Mio. aktive
Kontext	128.000 tokens
Lizenz	Apache 2.0 (Hugging Face + GitHub)
F1	97,43 % auf korrigiertem PII-Masking-300k

Abgedeckte PII-Kategorien: private_person, private_address, private_email, private_phone, private_url, private_date, account_number, secret (Passwörter und API-Schlüssel).

🔗 OpenAI Privacy Filter

Perplexity und Cohere

Perplexity integriert Kimi K2.6

23. April — Kimi K2.6 von Moonshot AI ist nun für alle Pro- und Max-Abonnenten von Perplexity verfügbar.

🔗 Tweet @perplexity_ai

Cohere — W4A8 produktionsreif in vLLM

22. April — Cohere kündigt die Integration seiner W4A8-Inferenz (4-Bit-Quantisierung für Gewichte, 8-Bit für Aktivierungen) in vLLM an. Ergebnisse auf Hopper-GPUs gegenüber W4A16: +58 % bei der Zeit bis zum ersten token (Time To First Token) und +45 % bei der Zeit pro Ausgabetoken (Time Per Output Token). Die Integration zielt vorrangig auf großskalige MoE-Modelle Command A in der Produktion.

🔗 Cohere W4A8-Blog

Kurzmeldungen

Suno Nummer 1 im Musik-App Store

21. April — Suno, die Plattform für KI-Musikgenerierung, erreicht den ersten Platz im App Store in der Kategorie Musik. CEO Mikey Shulman erklärt: „Die Zukunft der Musik ist eine, in der alle Freude daran haben, zu erschaffen.“

🔗 Tweet @suno

Anthropic Economic Index Survey

22. April — Anthropic startet die Anthropic Economic Index Survey, eine monatliche Umfrage, die über Anthropic Interviewer bei einer zufälligen Stichprobe von Claude-Nutzern durchgeführt wird. Ziel ist es, qualitative Daten über die wirtschaftlichen Auswirkungen von KI zu erfassen: delegierte Aufgaben, Produktivitätsgewinne, Veränderungen von Rollen. Die Ergebnisse fließen in künftige Anthropic-Economic-Index-Berichte ein.

🔗 Umfrageankündigung

Anthropic — MCP-Agenten in Produktion: die Zahlen

22. April — Ein technischer Artikel von Anthropic dokumentiert die Vorteile von MCP für Produktionsagenten: MCP SDKs überschreiten 300 Millionen Downloads pro Monat, tool search reduziert die Tokens für Tool-Definitionen um 85 %, und programmatic tool calling senkt den token-Verbrauch um 37 % bei komplexen mehrstufigen Workflows.

🔗 MCP-Produktionsagenten-Blog

OpenAI — WebSockets in der Responses-API: 40 % weniger Latenz

22. April — Ein Rückblickartikel von OpenAI erklärt, wie der WebSocket-Modus in der Responses-API die Latenz von Agentenschleifen um 40 % senkt. Die persistente Verbindung hält einen Cache im Speicher für den Zustand vorheriger Antworten vor und vermeidet es, bei jedem Aufruf den gesamten Verlauf erneut zu verarbeiten. Bereits in Produktion: Codex, Vercel AI SDK, Cline (+39 %), Cursor (+30 %).

🔗 WebSockets-Artikel

Perplexity Research — Training von Such-augmentierten Modellen

22. April — Perplexity veröffentlicht eine Studie über seine SFT + RL (Supervised Fine-Tuning + Reinforcement Learning)-Pipeline zur Verbesserung der Qualität von Suchantworten. Zentrales Ergebnis: Nachtrainierte Qwen-Modelle erreichen die Faktentreue von GPT-Modellen zu geringeren Kosten.

🔗 Perplexity Research

Was das bedeutet

Der 23. April 2026 zeigt zwei konvergierende Trends. Einerseits bestätigt GPT-5.5, dass OpenAI die Spitze bei agentischen Benchmarks (Terminal-Bench, ARC-AGI-2, OSWorld) nach mehreren Monaten zurückerobert hat, in denen Claude Opus 4.7 dominierte. Die Lücke bleibt bei SWE-Bench Pro eng, wo Anthropic den Vorteil behält — ein Zeichen dafür, dass beide Labore sich auf dieselben prioritären Anwendungsfälle einigen.

Andererseits markiert der Tag den Eintritt in die Ära der persistenten Agenten mit Gedächtnis: OpenAI Workspace Agents, Anthropic Managed Agents Memory und Kimi K2.6 Agent Swarm kommen gleichzeitig mit unterschiedlichen Ansätzen an (Slack-Integration, filesystem-based, Schwarm aus Unteragenten), aber mit demselben Ziel — dass sich der Agent erinnert, lernt und ohne ständige Aufsicht handelt. Die Rakuten-Zahlen (-97 % Fehler, -27 % Kosten) geben eine erste industrielle Messgröße für die Wirkung.

GitHub Copilot setzt seine Strategie der tiefen Integration in GitHub.com fort (PR-Chat, Agent-Sitzungen aus Issues, strukturierte Stack Traces) und öffnet sich zugleich über BYOK nach außen. Die BYOK-VS-Code-GA signalisiert, dass Copilot sich ebenso als Oberfläche wie als Modell positioniert.

Quellen

Dieses Dokument wurde von der Version fr in die Sprache de unter Verwendung des Modells gpt-5.4-mini übersetzt. Für weitere Informationen über den Übersetzungsprozess siehe https://gitlab.com/jls42/ai-powered-markdown-translator