DiffusionGemma 4x schneller, dynamische Claude-Code-Workflows in GA, Grok Voice #1 EVA-Bench

Der 10. Juni 2026 markiert einen ereignisreichen Tag: Google DeepMind startet DiffusionGemma, eine neue Textgenerierungsarchitektur auf Diffusionsbasis, die auf H100 1 000 Tokens pro Sekunde erreicht und von NVIDIA sofort für lokale Hardware optimiert wurde. Auf der Entwickler-Tooling-Seite bringt Anthropic die dynamischen Workflows von Claude Code in die allgemeine Verfügbarkeit mit einer Agenten-Rekursion von bis zu 5 Ebenen, und xAI positioniert Grok Voice Think Fast 1.0 als Nummer eins im EVA-Bench-Benchmark. GitHub, OpenAI, Perplexity und Cohere runden einen Tag voller Ankündigungen ab.

DiffusionGemma: parallele Generierung von 256-Token-Blöcken, 4x schneller auf GPU

10. Juni — Google DeepMind startet DiffusionGemma, ein experimentelles offenes Modell mit 26 Milliarden Parametern (Mixture-of-Experts-Architektur, Mixture of Experts), veröffentlicht unter Apache-2.0-Lizenz. Seine Besonderheit: Statt Token für Token wie ein klassisches autoregressives Modell zu erzeugen, generiert es ganze Blöcke von 256 Tokens gleichzeitig und wendet dabei dasselbe iterative Entstörungsprinzip wie Diffusionsmodelle für Bilder an.

Das Ergebnis: bis zu 4x schneller auf dedizierter GPU. Das Modell aktiviert bei der Inferenz nur 3,8 Milliarden Parameter, wodurch es nach Quantisierung in 18 GB VRAM passt — also auf leistungsstarker Consumer-GPU nutzbar ist. Die bidirektionale Aufmerksamkeit eröffnet Einsatzfälle, die für autoregressive Modelle schwierig sind: Inline-Bearbeitung, Code-Vervollständigung, Aminosäuresequenzen, mathematische Graphen.

NVIDIA hat DiffusionGemma sofort für seine GPUs optimiert und dabei Tensor-Kerne (Tensor Cores) genutzt, während autoregressive Architekturen durch die Speicherbandbreite ausgebremst werden. Die auf verschiedenen Systemen gemessenen Leistungen:

Hardware	Leistung
NVIDIA H100 (Server)	1 000 Tokens/s
NVIDIA DGX Station	bis zu 800 Tokens/s
NVIDIA DGX Spark (lokal)	150 Tokens/s
GeForce RTX 5090 (quantisiert)	700+ Tokens/s
GeForce RTX 4090 (quantisiert)	llama.cpp-Support folgt

Die Gewichte sind auf Hugging Face verfügbar, mit sofortiger Unterstützung in HF Transformers, vLLM und Unsloth. Das Modell kann außerdem kostenlos auf build.nvidia.com getestet werden.

Wichtig: Google weist ausdrücklich darauf hin, dass die Ausgabqualität weiterhin unter der von standardmäßigen Gemma-4-Modellen liegt. DiffusionGemma richtet sich an Entwickler, die lokale interaktive Workflows erkunden — schnelle Iteration, Inline-Bearbeitung — und nicht an die Produktion.

“DiffusionGemma is our new experimental open model with up to 4x faster output on dedicated GPUs. Instead of predicting word-by-word, it generates entire blocks of text simultaneously.”

🇩🇪 DiffusionGemma ist unser neues experimentelles offenes Modell, das auf dedizierter GPU eine bis zu 4-mal schnellere Ausgabe bietet. Statt Wörter Wort für Wort vorherzusagen, erzeugt es ganze Textblöcke gleichzeitig. — @GoogleDeepMind auf X

🔗 Google-DeepMind-Ankündigung · 🔗 NVIDIA-Optimierung

Claude Code v2.1.172: dynamische Workflows in allgemeiner Verfügbarkeit, rekursive Unteragenten bis zu 5 Ebenen

10. Juni — Anthropic kündigt an, dass die dynamischen Workflows (dynamic workflows) von Claude Code in die allgemeine Verfügbarkeit gehen. Sie wurden am 28. Mai in einer Forschungs-Vorschau vorgestellt und erlauben Claude, seine eigene Orchestrierung zu entwerfen und Dutzende bis Hunderte von Unteragenten parallel zu starten, um komplexe Aufgaben end-to-end zu bearbeiten.

Die am selben Tag veröffentlichte CLI-Version v2.1.172 führt die dazugehörige Schlüsselkapazität ein: Unteragenten können nun ihre eigenen Unteragenten erstellen, bis zu 5 Ebenen Verschachtelung. Das ist die technische Grundlage, die dynamische Workflows im großen Maßstab einsatzfähig macht.

Hauptanwendungsfälle:

Fehlersuche auf Repository-Gesamtebene, Sicherheitsprüfungen
Code-Migrationen mit Tausenden von Dateien (z. B. Zig→Rust-Portierung von Bun in 11 Tagen)
Gegnerische Verifikation eines Ergebnisses vor der Auslieferung

Verfügbarkeit und Bedingungen:

Element	Detail
Pläne	Max, Team, Enterprise (falls vom Admin aktiviert), Claude API
Cloud-Plattformen	Amazon Bedrock, Vertex AI, Microsoft Foundry
Aktivierung	Befehl `Create a workflow` oder Parameter `ultracode` (Aufwand `xhigh`)
Tiefe der Unteragenten	Bis zu 5 Ebenen
CLI-Version	v2.1.172

Hinweis: Dynamische Workflows verbrauchen deutlich mehr Tokens als eine Standard-Session von Claude Code. Claude Code zeigt vor dem ersten Start eine Bestätigung an. Enterprise-Admins können die Funktion über verwaltete Einstellungen deaktivieren.

Weitere Änderungen in v2.1.172: Behebung des Fehlers mit dauerhaft blockierten Sessions mit 1M-Kontext ohne Credits, Suchleiste im Browser /plugin, Amazon Bedrock liest jetzt die AWS-Region aus ~/.aws wenn AWS_REGION nicht gesetzt ist, zahlreiche Stabilitätskorrekturen für Hintergrundagenten.

🔗 Ankündigung @claudeai · 🔗 Blog zu Dynamic Workflows · 🔗 CHANGELOG

Grok Voice Think Fast 1.0 — Nummer eins auf EVA-Bench

10. Juni — xAI kündigt Grok Voice Think Fast 1.0 an, sein Sprachmodell, das sich auf der Pareto-Grenze des EVA-Bench-Rankings von ServiceNow AI Research positioniert. Die Pareto-Grenze bedeutet, dass kein anderes System in der Bewertung gleichzeitig seine Genauigkeit und die Qualität der Nutzererfahrung übertrifft.

xAI hebt drei Eigenschaften hervor: natürliches Timing, kontextgerechte Intonation und eine wahrgenommene menschliche Wärme. Das Modell ist über die xAI-Sprach-API unter x.ai/api/voice verfügbar, zu einem Preis, der deutlich unter dem der Wettbewerber liegen soll.

Metrik	Wert
EVA-Bench-Ranking	Pareto-Grenze (Nummer 1)
Verfügbarkeit	API `x.ai/api/voice`
Preispositionierung	Bruchteil des Preises der Wettbewerber (laut xAI)

“Grok Voice offers state-of-the-art performance with human-like timing, tone, and warmth. And it’s a fraction the price of competitors.”

🇩🇪 Grok Voice bietet Spitzenleistung mit einem menschlich anmutenden Timing, Ton und einer warmen Ausstrahlung. Und sein Preis beträgt nur einen Bruchteil dessen, was die Konkurrenz verlangt. — @xai auf X

🔗 EVA-Bench-Ergebnisse

NVIDIA Confidential Computing in Apple Private Cloud Compute (WWDC 2026)

9. Juni — Auf der WWDC 2026 angekündigt, markiert diese dreiseitige Apple–NVIDIA–Google-Integration einen strukturellen Meilenstein für die Vertraulichkeit von KI in der Cloud. Die NVIDIA-Blackwell-GPUs mit Confidential Computing sind nun in Apples Infrastruktur Private Cloud Compute (PCC) integriert, die über Apples Rechenzentren hinaus auf Google Cloud ausgeweitet wird.

Ziel: Apple-Intelligence-Anfragen serverseitig mit absoluter kryptografischer Vertraulichkeit zu verarbeiten — niemand, nicht einmal die Erbauer des Systems, kann auf Daten, Unterhaltungen oder Chats der Nutzer zugreifen.

Schutzmechanismen:

Hardware-verankertes Vertrauen (hardware-rooted trust): Verifizierung, dass die Infrastruktur nicht manipuliert wurde
Verschlüsselte Kommunikationspfade zwischen den Komponenten
Remote-Attestierung (remote attestation): Die Software prüft den Sicherheitszustand der Plattform vor jeder Übertragung sensibler Daten
Unterstützung beschleunigter Inferenz ohne Kompromisse bei der GPU-Leistung

Diese Architektur ermöglicht es Apple, Apple Intelligence auf Google Cloud auszuweiten und gleichzeitig seine Datenschutzverpflichtungen einzuhalten — eine in der Branche seltene Kombination. Für NVIDIA ist es eine großflächige Einführung von Blackwell Confidential Computing in einem Consumer-Deployment.

🔗 NVIDIA-Blog

Anthropic: geplante Agents, Secret-Vaults und regulatorischer Rahmen

Claude Managed Agents — geplante Deployments und Variablen-Vaults

9. Juni — Zwei neue Funktionen kommen in die öffentliche Beta von Claude Managed Agents, angekündigt auf der Code with Claude Tokyo:

Geplante Deployments (scheduled deployments): Agents können nun automatisch nach Zeitplan ausgeführt werden, ohne manuelles Eingreifen — tägliche Berichte, periodische Checks, regelmäßige Datenpipelines.

Variablen in Vaults (vaults): Agents greifen auf ihre Secrets und Konfigurationen über einen verwalteten Tresor zu, ohne Schlüssel im Code oder in Session-Konfigurationen offenzulegen.

Funktion	Status
Geplante Deployments	Öffentliche Beta
Variablen in Vaults	Öffentliche Beta
Plattform	Claude Managed Agents

🔗 Was gibt es Neues in Claude Managed Agents

Policy on the AI Exponential — regulatorischer Rahmen von Anthropic

10. Juni — Anthropic veröffentlicht Policy on the AI Exponential, einen politischen Rahmen begleitet von einem Essay von Dario Amodei. Die Feststellung: Die Fähigkeiten von KI entwickeln sich in einem exponentiellen Tempo, für das der Gesetzgebungsprozess nicht konzipiert wurde.

Das Dokument zielt auf Modelle, die mit mehr als 10²⁵ Fließkommaoperationen (FLOP) trainiert wurden, entwickelt von Unternehmen, die mehr als USD 500 Millionen an KI-bezogenen Einnahmen erzielen oder mehr als USD 1 Milliarde in KI-F&E ausgeben. Es identifiziert vier Kategorien katastrophaler Risiken: biologisches Risiko, Cyber-Risiko, Kontrollverlust über KI-Systeme und die Automatisierung der KI-F&E selbst.

Vorgeschlagene Verpflichtung	Beschreibung
Transparenz	Verpflichtende Tests, Veröffentlichung der Ergebnisse
Unabhängige Bewertung	Mindestens ein qualifizierter externer Gutachter
Sicherheit	Schutz der Gewichte vor staatlichen Akteuren
Staatliche Autorität	Befugnis, gefährliche Modelle zu blockieren oder zu verschieben

“AI is advancing at a pace our policymaking institutions were never built for—and the gap between the two is becoming the central challenge of the technology.”

🇩🇪 KI schreitet in einem Tempo voran, für das unsere legislativen Institutionen nicht entworfen wurden — und die Lücke zwischen beiden wird zur zentralen Herausforderung dieser Technologie. — @AnthropicAI auf X

🔗 Policy on the AI Exponential

GitHub Copilot: App für alle offen, sichtbare Agentensitzungen und Sicherheitsprüfung in der CLI

Copilot App — technische Vorschau ohne Warteliste für alle offen

10. Juni — Die technische Vorschau der GitHub-Copilot-App ist jetzt für alle Copilot-Pro-, Pro+-, Max-, Business- und Enterprise-Abonnenten verfügbar, ohne Warteliste. Diese für Agents konzipierte Desktop-App zentralisiert die Verwaltung von Agentensitzungen, die Erstellung von Pull Requests und die Steuerung von Entwicklungsaufgaben vom Desktop aus — vom Ticket zur PR an einem Ort.

🔗 Ankündigung @github

Copilot Chat zeigt jetzt Agentensitzungen an

10. Juni — GitHub verbessert den Übergang zwischen Copilot Chat und dem Cloud-Agent. Zwei neue Tools sind in Copilot Chat verfügbar: Get agent logs (Protokolle einer Agentensitzung zu einem Pull Request, direkt im Gespräch abfragbar) und Session search (Suche und Zusammenfassung vergangener Sitzungen nach Thema, Titel oder Datum). Der Status einer laufenden Sitzung wird nun in Echtzeit im Chat angezeigt.

🔗 Changelog

Copilot CLI — Befehl `/security-review` (experimentelle öffentliche Vorschau)

10. Juni — Ein neuer Slash-Befehl /security-review ist in einer experimentellen öffentlichen Vorschau in GitHub Copilot CLI verfügbar. Er analysiert lokale Codeänderungen direkt aus dem Terminal: Injektionen (SQL, Befehle), XSS, unsichere Datenverarbeitung, Path Traversal, schwache Kryptografie. Die Ergebnisse werden nach Schweregrad und Vertrauenswürdigkeit bewertet, mit Vorschlägen, die sich anwenden lassen, ohne das Terminal zu verlassen. Der Befehl ist unabhängig von GitHub code scanning und Dependabot — er ergänzt sie um eine leichte On-Demand-Analyse.

🔗 Changelog

Manus — Zoom Connector

9. Juni — Manus startet den Zoom-Connector, der es dem Agenten ermöglicht, den Inhalt von Besprechungen, auf die vom verbundenen Konto aus zugegriffen werden kann, automatisch zu analysieren: Zusammenfassungen, Transkripte, Aufzeichnungen, Notizen, Agenden, Whiteboards, Teilnehmerinformationen. Drei Hauptanwendungsfälle: Ad-hoc-Analyse eines Meetings, automatische wiederkehrende Überprüfung mit Bericht in Slack oder per E-Mail und Trendanalyse über mehrere Meetings hinweg. Einschränkung: Manus greift nur auf Ressourcen zu, die das verbundene Zoom-Konto sehen darf.

🔗 Manus Blog

xAI und Kimi: Partnerschaften und Swarm-Agents

Grok + eToro — Tori-Agent mit Echtzeit-X-Daten

10. Juni — xAI und eToro kündigen an, dass Tori, der KI-Agent von eToro (40 Millionen Nutzer in 75 Ländern), nun die xAI-Modelle und die Echtzeitdaten der X-Plattform integriert, um das Marktstimmungsbild (market sentiment) zu analysieren. Tori kann die Entwicklung der Stimmung in Echtzeit lesen, Live-Signale verfolgen und Informationen analysieren. Dieselbe Echtzeitintelligenz steht allen Entwicklern über die xAI-API-Konsole zur Verfügung.

🔗 xAI News

Kimi Agent Swarm — Vorhersage der 104 Spiele der Weltmeisterschaft 2026

9. Juni — Kimi (Moonshot AI) setzt 300 Unteragenten parallel ein, um die 104 Spiele der FIFA-Weltmeisterschaft 2026 vorherzusagen. Jeder Agent hat seinen eigenen analytischen Blickwinkel: Taktik, Form der Spieler, historische Daten, öffentliche Stimmung, Wetter, Psychologie, Quotenbewegungen. Das System verwendet Elo-/FIFA-Modelle, Poisson/Dixon-Coles, Monte-Carlo-Simulationen und dynamische bayesische Aktualisierung. Identifiziertes Signal: Die Titelwahrscheinlichkeit für Deutschland wird auf ~11,3 % geschätzt, gegenüber ~7,4 % auf den Wettmärkten.

🔗 Ankündigung @Kimi_Moonshot

OpenAI Codex: Migration von Claude Code und Ableton-Showcase

Codex app 26.608 — Migration von Claude Code und Plugin-Neugestaltung

9. Juni — Das Update Codex app 26.608 führt einen Migrations-Workflow (Migrate to Codex) ein, der das automatische Importieren der Konfiguration aus Claude Code und Claude Cowork ermöglicht, auch beim ersten Start der App. Die Plugin-Oberfläche wurde vollständig überarbeitet mit separaten Tabs, einem Marktplatz mit Kategorienfiltern und verbesserter Tastaturnavigation. Die Suche in den Einstellungen wurde auf Git und visuelle Anpassungen ausgeweitet.

Funktion	Detail
Migration Claude Code/Cowork	Automatischer Import, auch beim Onboarding
Plugins-Bildschirm	Tabs, Marktplatz, Kategorienfilter
Einstellungen-Suche	Ausgeweitet auf Git, visuelle Anpassungen

🔗 Codex Changelog

Perplexity und Cohere: Multi-Modell-Orchestrierung und Sprach-Benchmark

Perplexity Computer integriert Claude Fable 5 als Orchestrator

10. Juni — Perplexity kündigt die Integration von Claude Fable 5 als Orchestrierungsmodell in Perplexity Computer an, seiner mehrstufigen agentischen Oberfläche. Diese Integration ist den Abonnenten Pro und Max vorbehalten.

🔗 Ankündigung @perplexity_ai

Cohere Transcribe auf Platz 1 im Hugging-Face-Benchmark Far-Field ASR

10. Juni — Cohere Transcribe, Cohere’s Open-Source-Modell zur Spracherkennung, belegt den ersten Platz im neuen Far-Field-ASR-Benchmark von Hugging Face, der dafür konzipiert ist, die Robustheit in realen Audio-Umgebungen zu testen (Besprechungsräume, Kontaktzentren, Telefonanrufe).

Modell	WER Far-Field ASR
Cohere Transcribe	17,9
IBM Granite Speech	~19,8
NVIDIA Parakeet	~21,5

Das Modell bleibt unter Apache 2.0 lizenziert und kann lokal ausgeführt werden. Bereits im März 2026 lag es auch auf dem allgemeinen OpenASR-Leaderboard auf Platz 1.

🔗 Ankündigung @cohere

Gemini App: neue Funktionen für kleine Unternehmen

10. Juni — Bei der Google for Brazil-Veranstaltung in São Paulo kündigt Google zwei Gemini-App-Funktionen für kleine Unternehmen an, mit einem weltweiten Rollout im Juni 2026.

Google Business Profile-Verknüpfung: Nutzer verknüpfen ihr Profil direkt in der Gemini-App. Nach der Verbindung greift Gemini auf Kundenbewertungen, Fragen und Leistungsdaten zu, um personalisierte Empfehlungen zu liefern: monatliche Leistungsanalysen, das Verfassen von Antworten auf Bewertungen in der Markenstimme, Aktualisierung von Öffnungszeiten und Profil.

Business notebooks: ein zentraler Bereich, in dem das Unternehmen seine Gespräche, Quellen und das Google-Business-Profil organisiert. Gemini nutzt dies als Wissensbasis, um die Kontinuität der Unterhaltungen zu bewahren und proaktive Hinweise zu geben (unbeantwortete Kundenfrage, nicht eingetragene Feiertagszeiten).

🔗 Google-Blog

Kurzmeldungen

Gemini-Ausfall am 10. Juni — Produktdirektor Josh Woodward meldet um 19:31 Uhr einen Dienstausfall, wobei bereits Teilkorrekturen ausgerollt wurden. 🔗 @joshwoodward
GitHub Enterprise — 500 Kostenstellen — Das Limit an Kostenstellen pro Unternehmen wird von 250 auf 500 erhöht, automatisch und ohne erforderliche Konfiguration. 🔗 Changelog
Dependabot unterstützt Deno — Deno-Versionsupdates werden jetzt über einen deno-Eintrag in .github/dependabot.yml unterstützt (Sicherheitsupdates sind vorerst nicht abgedeckt). 🔗 Changelog
npm v12 — nicht abwärtskompatible Änderungen im Juli 2026 — Installationsskripte, Git-Abhängigkeiten und entfernte URLs werden standardmäßig blockiert. Empfehlung: Update auf npm 11.16.0+, um vorzusorgen. 🔗 Changelog
Alibaba Wan — Fisheye Lens — Neues Tool, das Standardbilder in kreisförmige Ultraweitwinkelansichten im Fish-Eye-Stil umwandelt, hinzugefügt zur Galerie der visuellen Fähigkeiten von Wan. 🔗 @Alibaba_Wan
Z-Image-Engineer-V6 — Austauschbarer Text-Encoder für Z-Image-Turbo (Tongyi Lab / Alibaba), der einfache Prompts in filmische Beschreibungen umwandelt. Verfügbar auf Hugging Face. 🔗 @Ali_TongyiLab
Qwen-Image-Edit-2511 + LoRA — Neuer gemeinschaftlicher Hugging-Face-Bereich für Qwen-Image-Edit-2511 mit vielseitiger LoRA-Matrix (Face Swap, Posen, virtueller Anprobe, Multi-View-Rendering). 🔗 @Ali_TongyiLab
ChatGPT für iOS 1.2026.153 — Neue Codex-Mobile-Funktionen — worktrees, /goal.
Codex in Ableton Live — @OpenAIDevs stellt den Musiker @sound4movement vor, der Codex verwendet, um Ableton Live automatisch anhand einer Track-Beschreibung zu konfigurieren. 🔗 @OpenAIDevs
Cohere Labs — KI und die Zukunft der Arbeit — Veröffentlichung eines Berichts über Beweislücken in der Debatte über die Auswirkungen von KI auf Beschäftigung, der eine neue Forschungsrichtung einläutet. 🔗 @cohere

Was das bedeutet

Neue Inferenzarchitekturen: das Ende von Token-für-Token? DiffusionGemma ist die erste öffentliche Demonstration in großem Maßstab einer offenen textuellen Diffusionsarchitektur, und das unmittelbare Interesse von NVIDIA — das das Modell noch am Tag seiner Veröffentlichung optimiert hat — bestätigt, dass diese Richtung auf industrieller Ebene ernst genommen wird. Der 4x-Gewinn auf dedizierter GPU ist keineswegs marginal: Er verlagert den Flaschenhals von der Speicherbandbreite (der Achillesferse autoregressiver Systeme) zu den Tensor-Recheneinheiten. Die aktuelle Grenze (Qualität unter Gemma 4) und die explizite Ausrichtung auf Entwickler statt auf Produktion zeigen, dass es sich um einen Forschungsansatz und nicht um einen unmittelbaren Ersatz handelt — aber der Pareto-Benchmark von Grok Voice auf EVA-Bench, in einem anderen Bereich (Sprache), zeigt, dass das Rennen um Effizienz inzwischen an mehreren architektonischen Fronten gleichzeitig stattfindet.

Agentische Autonomie: von der Verheißung zur Infrastruktur. Die GA der dynamischen Workflows von Claude Code mit Rekursion auf 5 Ebenen, kombiniert mit geplanten Deployments und Secret Vaults von Claude Managed Agents, macht einen Paradigmenwechsel greifbar: Agenten sind nicht mehr nur Einmalwerkzeuge, sondern persistente, planbare Prozesse mit sicherem Zugriff auf Geheimnisse. Die Initiative Kimi Agent Swarm (300 Sub-Agenten in 104 Matches) illustriert dieselbe Bewegung auf Seiten von Moonshot AI. Und dass Perplexity Computer Claude Fable 5 als Orchestrator integriert, signalisiert, dass der Wettbewerb bei Agenten ebenso sehr auf der Ebene der Werkzeuge wie auf der der Modelle selbst ausgetragen wird.

Vertraulichkeit und Vertrauen: die Achse Apple–NVIDIA–Google. Die Integration von NVIDIA Confidential Computing in Apple PCC auf Google Cloud ist strukturell bedeutsam: Sie zeigt, dass ein massentauglicher Rollout GPU-Beschleunigung, kryptografische Vertraulichkeitsgarantien und eine Cloud-Infrastruktur eines Drittanbieters kombinieren kann. Das ist keine Nische — Apple Intelligence erreicht Hunderte Millionen Geräte. Wenn sich diese Architektur durchsetzt, könnte sie zu einem De-facto-Standard für KI-Dienste werden, die sensible personenbezogene Daten verarbeiten.

Entwickler-Ökosystem: Konsolidierung und Wettbewerb beim Tooling. Dass Codex 26.608 einen Migrationspfad von Claude Code anbietet, ist nicht unerheblich: Es ist ein Eingeständnis, dass Entwickler ihre Konfiguration in konkurrierende Tools investiert haben und dass die Wechselkosten gesenkt werden müssen. GitHub Copilot beschleunigt seinerseits den „agent-native“-Ansatz (App ohne Warteliste, sichtbare Agent-Sitzungen im Chat, Sicherheitsprüfung in der CLI). Der 10. Juni zeichnet ein Ökosystem, in dem sich die Differenzierung weniger über die rohe Modellfähigkeit als über die Tiefe der Integration in alltägliche Entwickler-Workflows entscheidet.