Suchen

OpenAI startet GPT-5.5, Anthropic öffnet das Gedächtnis für Managed Agents, Kimi K2.6 Agent Swarm

OpenAI startet GPT-5.5, Anthropic öffnet das Gedächtnis für Managed Agents, Kimi K2.6 Agent Swarm

Der 23. April 2026 markiert einen dichten Tag: OpenAI startet GPT-5.5 mit 85 % auf ARC-AGI-2 und einem API-Tarif von $5/M tokens für Eingaben, während Anthropic die persistente Erinnerung für seine Managed Agents in die Beta öffnet und einen Post-Mortem zu Claude Code veröffentlicht. Parallel dazu liefert GitHub Copilot sieben Updates in drei Tagen, Kimi K2.6 setzt einen Schwarm (swarm) aus 300 Unteragenten ein, und SpaceX besiegelt eine Coding-Partnerschaft mit Cursor.


GPT-5.5: OpenAIs Frontier-Modell

23. April — OpenAI startet GPT-5.5, sein bisher leistungsstärkstes Modell, entwickelt für reale Arbeit und Agenten. Es verbessert agentisches Codieren, Computer-Nutzung (computer use), Wissensarbeit und wissenschaftliche Forschung deutlich und behält dabei die Latenz von GPT-5.4 bei.

Verfügbarkeit und Preisgestaltung

GPT-5.5 ist sofort für Abonnenten von ChatGPT Plus, Pro, Business und Enterprise verfügbar, sowie in Codex. Der API-Zugang kommt „sehr bald“.

AngebotAPI-ZugangEingabeAusgabe
GPT-5.5 standardBald$5 / M tokens$30 / M tokens
GPT-5.5 ProBald$30 / M tokens$180 / M tokens

Das Kontextfenster in Codex erreicht 400K tokens. Ein Fast-Modus — 1,5× schneller, 2,5× Kosten — ist verfügbar.

Benchmarks

BewertungGPT-5.5GPT-5.4Claude Opus 4.7Gemini 3.1 Pro
Terminal-Bench 2.082.7%75.1%69.4%68.5%
Expert-SWE (intern)73.1%68.5%
SWE-Bench Pro58.6%57.7%64.3%54.2%
GDPval84.9%83.0%80.3%67.3%
OSWorld-Verified78.7%75.0%78.0%
ARC-AGI-285.0%73.3%75.8%77.1%
FrontierMath Tier 435.4%27.1%22.9%16.7%
CyberGym81.8%79.0%73.1%
BixBench (Bioinformatik)80.5%74.0%

GPT-5.5 liegt bei der Mehrheit der Benchmarks vorn, mit einer bemerkenswerten Ausnahme: SWE-Bench Pro, wo Claude Opus 4.7 den Vorteil behält (64.3 % vs. 58.6 %).

Infrastruktur und Sicherheit

Das Modell wurde gemeinsam mit NVIDIA GB200/GB300 NVL72 entwickelt. Codex nutzte GPT-5.5, um seine eigene Infrastruktur zu optimieren, und gewann dadurch +20 % Geschwindigkeit bei der Token-Generierung. Auf der Cybersecurity-Seite wird GPT-5.5 im Preparedness Framework von OpenAI als High eingestuft (nicht Critical); das Trusted Access Cyber-Programm wurde darauf ausgeweitet.

Wissenschaftliche Forschung

Über Code hinaus half GPT-5.5 dabei, einen neuen Satz über Ramsey-Zahlen (Kombinatorik) zu beweisen, der formal in Lean verifiziert wurde. Außerdem analysierte es einen genomischen Datensatz mit 62 Proben und 28 000 Genen in wenigen Minuten — eine Aufgabe, für die ein Forscherteam Monate gebraucht hätte.

« GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use. »

🇩🇪 GPT-5.5 ist deutlich intelligenter und hartnäckiger als GPT-5.4, mit besserer Coding-Performance und zuverlässigerem Einsatz von tools. — Michael Truell, Mitgründer und CEO von Cursor

🔗 GPT-5.5-Ankündigung


Die Welle persistenter Agenten

Drei große Ankündigungen bündeln sich am 23. April rund um den persistierenden Agenten, der autonom über lange Zeiträume handeln und den Kontext von Sitzung zu Sitzung behalten kann.

OpenAI Workspace Agents in ChatGPT

22. April — OpenAI stellt die Workspace Agents vor: geteilte Agenten, die ein Team einmal erstellt, gemeinsam in ChatGPT oder Slack nutzt und schrittweise verbessert. Angetrieben von Codex in der Cloud können sie komplexe Aufgaben ausführen, selbst wenn der Nutzer offline ist. Die Workspace Agents ersetzen schrittweise die GPTs, die während der Übergangsphase weiterhin verfügbar bleiben.

AgententypFunktion
Software-CheckerPrüft Anfragen, vergleicht Richtlinien, erstellt IT-Tickets
Produkt-Feedback-RouterÜberwacht Slack/Support/Foren → priorisierte Tickets
BerichtsgeneratorExtrahiert freitags Daten, erstellt Diagramme, Zusammenfassung
Prospektions-AgentRecherchiert Leads, bewertet sie, verfasst E-Mails, aktualisiert CRM
Verantwortlicher für DrittparteirisikenBewertet Lieferanten, erstellt strukturierten Bericht

Verfügbar als Research Preview für Business, Enterprise, Edu und Teachers; kostenlos bis zum 6. Mai 2026, danach Abrechnung per Credits.

Laut Ankur Bhatt (AI Engineering, Rippling) läuft das, was früher 5 bis 6 Stunden pro Woche für Vertriebsmitarbeiter beanspruchte, jetzt automatisch im Hintergrund bei jeder Opportunity.

🔗 Workspace Agents


Anthropic — Speicher für die Claude Managed Agents

23. April — Der Speicher für die Claude Managed Agents ist als öffentliche Beta auf der Claude Platform verfügbar. Die Agenten können nun von Sitzung zu Sitzung lernen, dank einer Memory-Schicht, die direkt auf einem Dateisystem aufgesetzt ist: Die Agenten nutzen dieselben bash- und Code-Ausführungsmöglichkeiten, die sie bereits für agentische Aufgaben verwenden.

FunktionDetail
Teilbare StoresMehrere Agenten, unterschiedliche Zugriffsumfänge (nur lesen / lesen-schreiben)
Gleichzeitiger ZugriffOhne Überschreiben zwischen parallelen Sitzungen
Audit-ProtokollWelche Sitzung, welcher Agent, welcher Speicher
RückgängigmachungFür jede frühere Version
ExportierbarkeitSpeicher über die API verwaltbar

Die Kundenergebnisse zeigen die konkrete Wirkung:

KundeErgebnis
Rakuten-97 % Fehler im ersten Durchlauf, -27 % Kosten, -34 % Latenz
Wisedocs+30 % Geschwindigkeit bei der Dokumentenprüfung
NetflixKontinuität des Kontexts zwischen Sitzungen ohne manuelles Update
AndoPlattformspeicher ohne dedizierte Infrastruktur

Memory in Claude Managed Agents lets us put continuous learning into production at scale. Our agents distill lessons from every session, delivering 97% fewer first-pass errors at 27% lower cost and 34% lower latency.

🇩🇪 Der Speicher in Claude Managed Agents ermöglicht es uns, kontinuierliches Lernen in großem Maßstab in die Produktion zu bringen. Unsere Agenten destillieren die Lehren aus jeder Sitzung und liefern 97 % weniger Fehler im ersten Durchlauf, 27 % geringere Kosten und 34 % geringere Latenz. — Yusuke Kaji, General Manager AI for Business, Rakuten

🔗 Speicher für Managed Agents


Claude Code: Qualitäts-Post-Mortem und zwei neue Versionen

Post-Mortem und Zurücksetzen der Limits

23. April — Das Claude-Code-Team veröffentlichte ein Post-Mortem zu drei Qualitätsproblemen, die im vergangenen Monat gemeldet wurden. Alle sind in v2.1.116+ behoben. Die Nutzungslimits wurden für alle Abonnenten zurückgesetzt.

Over the past month, some of you reported Claude Code’s quality had slipped. We investigated, and published a post-mortem on the three issues we found. All are fixed in v2.1.116+ and we’ve reset usage limits for all subscribers.

🇩🇪 Im vergangenen Monat meldeten einige von euch, dass die Qualität von Claude Code nachgelassen hatte. Wir haben dies untersucht und ein Post-Mortem zu den drei gefundenen Problemen veröffentlicht. Alle sind in v2.1.116+ behoben, und wir haben die Nutzungslimits für alle Abonnenten zurückgesetzt.@ClaudeDevs

v2.1.117 und v2.1.118

VersionHauptfunktionen
v2.1.118Visueller Vim-Modus (v/V) mit Auswahl und Operatoren; vereinheitlichtes /usage (fusioniert /cost und /stats); benutzerdefinierte Themes in /theme; Hooks, die MCP-Tools über type: "mcp_tool" aufrufen; striktes DISABLE_UPDATES; Vererbung von Managed Settings unter Windows via WSL
v2.1.117Standardaufwand auf high für Pro/Max auf Opus 4.6 und Sonnet 4.6 gesetzt (war medium); Unteragenten-Fork auf externen Builds aktivierbar; glob/Grep ersetzt durch eingebettete bfs/ugrep für schnellere Recherchen; Fix für Opus-4.7-Sitzungen (1M-Kontext korrekt berechnet); Fix für Bedrock+Opus 4.7 mit deaktiviertem thinking

🔗 CHANGELOG Claude Code


Neue Claude-Connectors für den Alltag

23. April — Anthropic erweitert sein Connector-Verzeichnis um Consumer-Anwendungen. Seit Juli 2025 waren bereits mehr als 200 Connectoren für professionelle Tools verfügbar; dieses Update ergänzt 15 Dienste für den Alltag.

AnwendungKategorie
AllTrailsWandern
AudibleHörbücher
Booking.comReisen
InstacartEinkäufe online
Intuit Credit KarmaFinanzen
Intuit TurboTaxSteuern
ResyRestaurantreservierungen
SpotifyMusik
StubHubTicketverkauf
TaskrabbitDienstleistungen im Haushalt
ThumbtackLokale Dienstleister
TripAdvisorReisen
UberTransport
Uber EatsEssenslieferung
ViatorTouristische Aktivitäten

Claude schlägt nun automatisch die passenden Connectoren je nach Gesprächskontext vor. Verfügbar auf allen Plänen (einschließlich kostenlos), Web, Desktop und Mobile (Mobile in Beta). Kein Paid Placement und keine gesponserten Antworten; die Daten einer App werden nicht zum Trainieren der Modelle verwendet.

🔗 Connectoren für den Alltag


GitHub Copilot — Sieben Updates in drei Tagen

GitHub Copilot veröffentlichte zwischen dem 22. und 23. April sieben Einträge in seinem Changelog.

Chat für Pull Requests (3 neue Funktionen)

23. April — Copilot Chat integriert jetzt drei Fähigkeiten für Pull Requests, erreichbar über github.com/copilot oder den Copilot-Button auf Diffs (Public Preview):

  • PR-Verständnis (pull request understanding): Kommentare, Änderungen, Commits und Reviews als integrierter Kontext
  • PR-Review: strukturierte Review auf Anfrage
  • PR-Zusammenfassung: knappe Zusammenfassung der Änderungen

🔗 Copilot Chat PR improvements

Agent-Sitzungen aus Issues und Projekten steuerbar

23. April — Der Cloud Agent ist jetzt direkt aus GitHub-Issues und Projekt-Boards steuerbar: Sitzungsindikator im Issue-Kopf, Fortschritts-Seitenpanel, Sitzungen standardmäßig in allen Projektansichten aktiviert.

🔗 Agent sessions depuis issues

Strukturierte Debugging von Stack Traces im Web

23. April — Copilot Chat auf github.com führt jetzt die Analyse von Stack Traces in sechs strukturierten Schritten durch: was fehlgeschlagen ist, warum, die Grundursache, Belege aus dem Code, das Vertrauensniveau und die nächsten Prüfungen.

🔗 Débogage stack traces

BYOK VS Code verfügbar (GA)

22. April — Bring Your Own Key (bringen Sie Ihren eigenen API-Schlüssel mit) ist für Copilot-Business- und Enterprise-Nutzer in VS Code allgemein verfügbar. Anthropic, Gemini, OpenAI, OpenRouter, Azure werden unterstützt, ebenso lokale Modelle über Ollama und Foundry Local. Die Abrechnung erfolgt direkt über den gewählten Anbieter, außerhalb der Copilot-Quoten.

🔗 BYOK VS Code GA

C++ Language Server in öffentlicher Preview für Copilot CLI

22. April — Der Microsoft C++ Language Server (IntelliSense-Engine von Visual Studio/VS Code) ist als öffentliche Preview für Copilot CLI verfügbar. Er liefert präzise semantische Daten (Symboldefinitionen, Referenzen, Aufrufhierarchien, Typen) als Ersatz für iteratives grep-basiertes Suchen. Voraussetzungen: Copilot-CLI-Authentifizierung + compile_commands.json.

🔗 C++ Language Server

Neue Business-Self-Serve-Anmeldungen ausgesetzt

22. April — GitHub setzt neue Self-Serve-Anmeldungen für Copilot Business auf den Plänen GitHub Free und GitHub Team aus. Bestehende Kunden sind nicht betroffen.

🔗 Pause Business self-serve

Feld used_copilot_cloud_agent in den API-Metriken

23. April — Im Zuge des Rebrandings von „coding agent“ zu „cloud agent“ fügt die Metrik-API das Feld used_copilot_cloud_agent in den Benutzerberichten hinzu (rollierende 1- und 28-Tage-Fenster). Das alte Feld used_copilot_coding_agent bleibt bis zum 1. August 2026 erhalten.

🔗 Cloud-Agent-Metriken


Gemini CLI v0.39.0 und Deep Think für alle Ultra-Abonnenten

Gemini CLI v0.39.0

23. April — Google veröffentlicht Gemini CLI v0.39.0, eine stabile Version mit dem Label „Latest“. Das Highlight ist der neue Befehl /memory inbox, um die vom CLI während Arbeitssitzungen automatisch extrahierten Skills zu überprüfen und zu validieren.

FunktionBeschreibung
/memory inboxÜberprüfung automatisch extrahierter Skills
vereinheitlichtes invoke_subagentUmgestaltetes Unteragenten-Tool in einer einheitlichen Oberfläche
Kompaktes FormatierenBessere Lesbarkeit im kompakten Modus
Plan Mode — BestätigungenVor der Aktivierung von Skills ist eine Bestätigung erforderlich
Leichterer StartLeichter Parent-Prozess für schnelleres Starten
JSONL-Streaming-MigrationSpeichern von Chat-Sitzungen in JSONL

Neu hinzugefügte Tastenkürzel: Ctrl+Backspace zum wortweisen Löschen (Windows Terminal), Ctrl+Shift+G.

🔗 Gemini CLI v0.39.0

Deep Think für alle Ultra-Abonnenten geöffnet

22. April — Google öffnet den Modus Deep Think (vertieftes Denken, extended thinking) für alle Gemini-Ultra-Abonnenten. Dieser Modus war zuvor nur eingeschränkt verfügbar; nun ist er direkt über das Tool-Menü der Gemini-App (Web und Mobile) zugänglich.

🔗 Tweet @GeminiApp


Kimi K2.6: Schwarm aus 300 Unteragenten und Open-Weights-Benchmarks

Agent Swarm — 300 parallele Unteragenten

23. April — Moonshot AI startet Kimi K2.6 Agent Swarm: ein System, das 300 Unteragenten parallel über 4 000 Schritte pro Ausführung einsetzen kann, gegenüber 100 Agenten und 1 500 Schritten bei K2.5.

FähigkeitK2.5K2.6
Parallele Unteragenten100300
Schritte pro Ausführung1 5004 000
AusgabetypenChat-Text100+ echte Dateien, Reviews mit 100 000 Wörtern, Datensätze mit 20 000 Zeilen

Die Unteragenten kombinieren heterogene Fähigkeiten: Webrecherche, Datenanalyse, Codierung, lange Texte und visuelle Generierung. Verfügbar auf kimi.com/agent-swarm.

🔗 Tweet @Kimi_Moonshot

Benchmarks: Nummer 1 bei Open-Weights

23. April — Kimi K2.6 erreicht die Spitzenposition unter den Open-Weights-Modellen bei zwei Benchmarks: - Design Arena : gleiche Leistungsspanne wie Claude Opus 4.7

  • MathArena open (Think-Modus) : vor GLM 5.1

🔗 Design Arena


SpaceXAI × Cursor und Grok Imagine

Partnerschaft SpaceXAI × Cursor

22. April — SpaceXAI (Entität aus der Annäherung von xAI/SpaceX) und Cursor kündigen eine Partnerschaft an, um „die leistungsfähigste Codierungs- und Wissensarbeits-KI der Welt“ zu schaffen. SpaceX bringt den Supercomputer Colossus ein (entspricht einer Million H100); Cursor gewährt ihm das Recht, das Unternehmen später im Jahr 2026 für 60 Milliarden $ zu erwerben oder lediglich 10 Milliarden $ für die Zusammenarbeit zu zahlen.

🔗 Tweet @SpaceX

Grok Imagine — Teilbare benutzerdefinierte Vorlagen

22. April — SuperGrok- und Premium+-Abonnenten können nun benutzerdefinierte Vorlagen in Grok Imagine erstellen und sie öffentlich teilen.

🔗 Tweet @imagine


NVIDIA × Google Cloud Next

22. April — Auf der Google Cloud Next (Las Vegas) kündigen NVIDIA und Google Cloud mehrere wichtige Fortschritte rund um die agentische KI-Infrastruktur an.

AnkündigungDetail
A5X-Instanzen (Vera Rubin NVL72)Bis zu 960.000 Rubin GPUs in einem Multisite-Cluster, 10× günstiger pro token, 10× mehr Durchsatz pro Megawatt
Gemini auf Google Distributed CloudPreview mit Blackwell und Blackwell Ultra GPUs — Datensouveränität
Confidential VMs BlackwellErstes Blackwell-Angebot für vertrauliches Rechnen (confidential computing) in der öffentlichen Cloud
Nemotron 3 SuperVerfügbar auf der Gemini Enterprise Agent Platform
NeMo RL APIVerwaltetes Verstärkungslernen (Reinforcement Learning) in großem Maßstab

🔗 NVIDIA × Google Cloud-Blog


Kling AI Video 3.0 — Nativer 4K-Modus

23. April — Kling AI führt in seiner Video-3.0-Reihe den nativen 4K-Modus ein. Die 4K-Generierung erfolgt mit einem einzigen Klick, ohne zusätzlichen Upscaling-Schritt. Die visuelle Konsistenz (Figuren, Texte, Stile, Beleuchtung) wird in nativer Auflösung für High-End-Produktionen gewährleistet. Ebenfalls über fal.ai für Unternehmen verfügbar.

Kling AI organisiert gleichzeitig einen 4K Short Film Creative Contest, einen weltweiten Wettbewerb, der Kreative dazu einlädt, Kurzfilme einzureichen, die mit dem neuen Modus erstellt wurden.

🔗 Tweet @Kling_ai


ChatGPT for Clinicians und OpenAI Privacy Filter

ChatGPT for Clinicians + HealthBench Professional

22. April — OpenAI startet ChatGPT for Clinicians, eine kostenlose Version für verifizierte Gesundheitsfachkräfte in den USA (Ärzte, Advanced Practice Nurses, medizinische Assistenten, Apotheker). Der Dienst umfasst Zugriff auf Frontier-Modelle für komplexe klinische Fragen, Skills für repetitive Workflows (Überweisungsschreiben, Vorabgenehmigungen), zitierte klinische Recherche in Echtzeit und die automatische Generierung von CME-Fortbildungspunkten. HIPAA-Verarbeitung ist optional per Vereinbarung verfügbar.

OpenAI veröffentlicht außerdem HealthBench Professional, einen offenen Benchmark zur Bewertung von KI an realen klinischen Aufgaben (über 700.000 von Ärzten bewertete Antworten). GPT-5.4 in ChatGPT for Clinicians übertrifft Menschen auf diesem Benchmark unter Zeitbedingungen ohne Begrenzung mit Webzugriff.

🔗 ChatGPT for Clinicians

OpenAI Privacy Filter

22. April — OpenAI veröffentlicht Privacy Filter, ein Open-Weight-Modell (Apache 2.0) zum Erkennen und Maskieren personenbezogener Informationen (Personally Identifiable Information, PII) in Texten. Das Modell läuft lokal (keine Daten werden an einen Server gesendet), unterstützt 128K tokens Kontext und erreicht einen F1-Score von 97,43 % auf dem PII-Masking-300k-Benchmark.

EigenschaftWert
ArchitekturBidirektionaler token-Klassifikator (eingeschränktes Viterbi-Decoding)
Größe1,5 Mrd. Gesamtparameter, 50 Mio. aktive
Kontext128.000 tokens
LizenzApache 2.0 (Hugging Face + GitHub)
F197,43 % auf korrigiertem PII-Masking-300k

Abgedeckte PII-Kategorien: private_person, private_address, private_email, private_phone, private_url, private_date, account_number, secret (Passwörter und API-Schlüssel).

🔗 OpenAI Privacy Filter


Perplexity und Cohere

Perplexity integriert Kimi K2.6

23. April — Kimi K2.6 von Moonshot AI ist nun für alle Pro- und Max-Abonnenten von Perplexity verfügbar.

🔗 Tweet @perplexity_ai

Cohere — W4A8 produktionsreif in vLLM

22. April — Cohere kündigt die Integration seiner W4A8-Inferenz (4-Bit-Quantisierung für Gewichte, 8-Bit für Aktivierungen) in vLLM an. Ergebnisse auf Hopper-GPUs gegenüber W4A16: +58 % bei der Zeit bis zum ersten token (Time To First Token) und +45 % bei der Zeit pro Ausgabetoken (Time Per Output Token). Die Integration zielt vorrangig auf großskalige MoE-Modelle Command A in der Produktion.

🔗 Cohere W4A8-Blog


Kurzmeldungen

Suno Nummer 1 im Musik-App Store

21. April — Suno, die Plattform für KI-Musikgenerierung, erreicht den ersten Platz im App Store in der Kategorie Musik. CEO Mikey Shulman erklärt: „Die Zukunft der Musik ist eine, in der alle Freude daran haben, zu erschaffen.“

🔗 Tweet @suno

Anthropic Economic Index Survey

22. April — Anthropic startet die Anthropic Economic Index Survey, eine monatliche Umfrage, die über Anthropic Interviewer bei einer zufälligen Stichprobe von Claude-Nutzern durchgeführt wird. Ziel ist es, qualitative Daten über die wirtschaftlichen Auswirkungen von KI zu erfassen: delegierte Aufgaben, Produktivitätsgewinne, Veränderungen von Rollen. Die Ergebnisse fließen in künftige Anthropic-Economic-Index-Berichte ein.

🔗 Umfrageankündigung

Anthropic — MCP-Agenten in Produktion: die Zahlen

22. April — Ein technischer Artikel von Anthropic dokumentiert die Vorteile von MCP für Produktionsagenten: MCP SDKs überschreiten 300 Millionen Downloads pro Monat, tool search reduziert die Tokens für Tool-Definitionen um 85 %, und programmatic tool calling senkt den token-Verbrauch um 37 % bei komplexen mehrstufigen Workflows.

🔗 MCP-Produktionsagenten-Blog

OpenAI — WebSockets in der Responses-API: 40 % weniger Latenz

22. April — Ein Rückblickartikel von OpenAI erklärt, wie der WebSocket-Modus in der Responses-API die Latenz von Agentenschleifen um 40 % senkt. Die persistente Verbindung hält einen Cache im Speicher für den Zustand vorheriger Antworten vor und vermeidet es, bei jedem Aufruf den gesamten Verlauf erneut zu verarbeiten. Bereits in Produktion: Codex, Vercel AI SDK, Cline (+39 %), Cursor (+30 %).

🔗 WebSockets-Artikel

Perplexity Research — Training von Such-augmentierten Modellen

22. April — Perplexity veröffentlicht eine Studie über seine SFT + RL (Supervised Fine-Tuning + Reinforcement Learning)-Pipeline zur Verbesserung der Qualität von Suchantworten. Zentrales Ergebnis: Nachtrainierte Qwen-Modelle erreichen die Faktentreue von GPT-Modellen zu geringeren Kosten.

🔗 Perplexity Research


Was das bedeutet

Der 23. April 2026 zeigt zwei konvergierende Trends. Einerseits bestätigt GPT-5.5, dass OpenAI die Spitze bei agentischen Benchmarks (Terminal-Bench, ARC-AGI-2, OSWorld) nach mehreren Monaten zurückerobert hat, in denen Claude Opus 4.7 dominierte. Die Lücke bleibt bei SWE-Bench Pro eng, wo Anthropic den Vorteil behält — ein Zeichen dafür, dass beide Labore sich auf dieselben prioritären Anwendungsfälle einigen.

Andererseits markiert der Tag den Eintritt in die Ära der persistenten Agenten mit Gedächtnis: OpenAI Workspace Agents, Anthropic Managed Agents Memory und Kimi K2.6 Agent Swarm kommen gleichzeitig mit unterschiedlichen Ansätzen an (Slack-Integration, filesystem-based, Schwarm aus Unteragenten), aber mit demselben Ziel — dass sich der Agent erinnert, lernt und ohne ständige Aufsicht handelt. Die Rakuten-Zahlen (-97 % Fehler, -27 % Kosten) geben eine erste industrielle Messgröße für die Wirkung.

GitHub Copilot setzt seine Strategie der tiefen Integration in GitHub.com fort (PR-Chat, Agent-Sitzungen aus Issues, strukturierte Stack Traces) und öffnet sich zugleich über BYOK nach außen. Die BYOK-VS-Code-GA signalisiert, dass Copilot sich ebenso als Oberfläche wie als Modell positioniert.


Quellen

Dieses Dokument wurde von der Version fr in die Sprache de unter Verwendung des Modells gpt-5.4-mini übersetzt. Für weitere Informationen über den Übersetzungsprozess siehe https://gitlab.com/jls42/ai-powered-markdown-translator