Voice Mode in Claude Code, GPT-5.3 Instant für alle, Gemini 3.1 Flash-Lite in der Vorschau

Der 3. März 2026 ist ein dichter Tag: Claude Code schaltet seinen Voice Mode schrittweise frei, OpenAI stellt GPT-5.3 Instant für alle ChatGPT-Nutzenden bereit und reduziert die Halluzinationen deutlich, und Google bringt Gemini 3.1 Flash-Lite in der Vorschau — das kostengünstigste Modell der Gemini‑3‑Reihe. Parallel dazu teasert OpenAI bereits GPT-5.4, FLUX.2 [pro] ist 2× schneller bei gleicher Qualität, und Anthropic berichtet von einem “unprecedented” Wachstum, das die Systeme unter Druck gesetzt hat.

Voice Mode in Claude Code — push-to-talk, Rollout ~5%

3. März 2026 — Thariq (@trq212, Claude Code Team bei Anthropic) kündigt den schrittweisen Rollout des Voice Mode in Claude Code an. Die Funktion wurde von der Entwickler-Community seit Wochen sehnsüchtig erwartet.

So funktioniert es:

Aspekt	Detail
Aktivierung	Befehl `/voice` zum Ein- und Ausschalten
Push-to-talk	Leertaste gedrückt halten zum Sprechen, loslassen zum Senden
Transkription	Wird in Echtzeit im Terminal angezeigt
Begrüßungstext	Sichtbar auf dem Startbildschirm bei Aktivierung
Tokens	Die tokens der Sprachtranskription zählen nicht zu den Rate Limits

Boris Cherny (@bcherny, Lead Claude Code) bestätigt, dass er diesen Modus im Alltag nutzt: Er gibt an, “den Großteil seines CLI-Codes diese Woche” mit dem Voice Mode geschrieben zu haben. Sein Erfahrungsbericht legt nahe, dass die Funktion für echte Arbeitssessions bereit ist, nicht nur für Tests.

Verfügbarkeit: Aktiv für etwa 5% der Nutzenden am 3. März. Der schrittweise Rollout wird in den folgenden Wochen fortgesetzt. Die kostenlose Transkription (tokens außerhalb des Kontingents) ist eine bemerkenswerte Entscheidung, die eine übliche Hürde für diese Art von Funktion beseitigt.

Die Community fordert bereits eine bidirektionale Version — also auch gesprochene Antworten — sowie die allgemeine Verfügbarkeit von /remote-control. Beides steht weiterhin auf der Roadmap.

🔗 Tweet @trq212 — Einführung des Voice Mode 🔗 Tweet @bcherny — Erfahrungsbericht

GPT-5.3 Instant für alle — -26,8% Halluzinationen

3. März 2026 — OpenAI stellt GPT-5.3 Instant für alle ChatGPT-Nutzenden bereit. Dieses Modell ersetzt GPT-5.2 Instant als Standardmodell in ChatGPT und fokussiert stärker auf die alltägliche Qualität statt auf akademische Benchmarks.

Der konkrete Vorteil dieses Updates: die Reduktion von Halluzinationen.

Szenario	Reduktion Halluzinationen
Mit Webzugang (kritische Domänen: Medizin, Recht)	-26,8%
Ohne Webzugang	-19,7%
Nutzerfeedback (Fehlermeldungen)	-22,5% (mit Web), -9,6% (ohne)

Weitere dokumentierte Verbesserungen im OpenAI-Blog:

Weniger unnötige Ablehnungen: Verringerung der defensiven/moralisierenden Vorbemerkungen von GPT-5.2 — das Modell antwortet direkter ohne überflüssige Warnungen
Webrecherche: Besseres Gleichgewicht zwischen Webergebnissen und internem Wissen; weniger Linklisten, relevantere Synthesen
Flüssigerer Ton: Weniger Annahmen über den emotionalen Zustand des Nutzers
Kreatives Schreiben: Eindringlichere und immersivere Prosa

“GPT-5.3 Instant in ChatGPT is now rolling out to everyone. More accurate, less cringe.”

🇩🇪 GPT-5.3 Instant in ChatGPT wird jetzt für alle ausgerollt. Präziser, weniger peinlich. — @OpenAI auf X

API-Verfügbarkeit: Bezeichner gpt-5.3-chat-latest. GPT-5.2 Instant bleibt für 3 Monate unter “Legacy models” zugänglich und wird dann am 3. Juni 2026 entfernt. Updates für Thinking und Pro sind “coming soon”.

Bekannte Limitation: Der Ton in Japanisch und Koreanisch wirkt stellenweise steif — wird derzeit behoben.

🔗 Ankündigung GPT-5.3 Instant 🔗 System Card GPT-5.3 Instant

Gemini 3.1 Flash-Lite — Vorschau, 2,5× schneller, $0,25/1M tokens

3. März 2026 — Google stellt Gemini 3.1 Flash-Lite in der Vorschau über die API Gemini in Google AI Studio und Vertex AI vor. Es ist das kostengünstigste Modell der Gemini‑3‑Serie, konzipiert für Entwickler-Workloads mit hohem Volumen.

Preis und Leistung

Aspekt	Wert
Preis Input	$0,25 / 1M tokens
Preis Output	$1,50 / 1M tokens
Geschwindigkeit (TTFAT)	2,5× schneller vs Gemini 2.5 Flash
Output-Geschwindigkeit	+45% vs Gemini 2.5 Flash (Artificial Analysis)
Elo-Score (Arena.ai)	1432
GPQA Diamond	86,9%
MMMU Pro	76,8%

Diese Benchmarks platzieren Flash‑Lite über mehreren vorherigen, größeren Gemini-Modellen — was die Effizienzstrategie der 3.1‑Reihe bestätigt.

Adaptive Thinking Levels

Eine bemerkenswerte Eigenschaft: Die thinking levels (adaptive Denktiefen) sind nativ in AI Studio und Vertex AI integriert. Entwickler können die reasoning-Tiefe dynamisch je nach Aufgabenkomplexität anpassen — nützlich, um preiswerte einfache Tasks und komplexe Analysen in derselben Pipeline zu mischen, ohne das Modell zu wechseln.

Dokumentierte Anwendungsfälle

Großskalige mehrsprachige Übersetzung, Inhaltsmoderation, Generierung von E‑Commerce‑Interfaces, dynamische Dashboards, mehrstufige SaaS‑Agents. Unternehmen wie Latitude, Cartwheel und Whering sind bereits im Early Access.

🔗 Ankündigung Gemini 3.1 Flash-Lite 🔗 Tweet @GoogleAI

Teaser GPT-5.4 — “5.4 sooner than you Think.”

3. März 2026 — Eine Stunde nach der Ankündigung von GPT-5.3 Instant veröffentlicht OpenAI einen knappen Tweet: “5.4 sooner than you Think.” 800k Views, 13k Likes.

Die ungewöhnliche Großschreibung von “Think” wird von der Community bemerkt — möglicherweise ein Hinweis auf einen verbesserten Denkmodus in GPT-5.4. Weitere Details sind derzeit nicht verfügbar.

🔗 Teaser GPT-5.4 — @OpenAI

Skalierbarkeit Claude — Rekordtraffic, #1 App Store

3. März 2026 — Gegen Ende des Tages postet Thariq (@trq212) eine Meldung, in der er die Probleme bei der Skalierung anerkennt:

“We’ve seen unprecedented growth in Claude and Claude Code traffic this week that was genuinely hard to forecast. We appreciate you bearing with us as we scale.”

🇩🇪 Wir haben diese Woche ein beispielloses Wachstum des Traffics von Claude und Claude Code festgestellt, das wirklich schwer vorherzusagen war. Wir danken euch für eure Geduld, während wir unsere Infrastruktur anpassen. — @trq212 auf X

Kontext: Claude stand am 1. März auf Platz #1 im App Store (bestätigt von Mike Krieger, CPO @mikeyk), und der Start des Voice Mode hat einen zusätzlichen Traffic-Peak ausgelöst. Das npm‑Package @anthropic-ai/claude-code verzeichnet 9,5 Millionen wöchentliche Downloads.

🔗 Tweet @trq212 — Skalierbarkeit 🔗 Tweet @mikeyk — Claude #1 App Store

BFL FLUX.2 [pro] — 2× schneller, gleicher Preis, gleiche Qualität

3. März 2026 — Black Forest Labs kündigt ein größeres Update für FLUX.2 [pro] an: Das Modell ist nun 2× schneller, ohne Qualitätsverlust und ohne Preiserhöhung.

FLUX.2 [pro] deckt drei Modi ab: text-to-image, Bildbearbeitung und Multi‑Reference. Der Tweet von BFL beschreibt die Positionierung als “sweet spot of high quality + reasonable speed + broad capabilities” — insbesondere für Photorealismus (Produktfotos, Grafikdesign) und konsistente Charakterdarstellung.

🔗 Tweet @bfl_ml — FLUX.2 [pro] Update 🔗 Dokumentation FLUX.2

ElevenLabs auf dem MWC — netzwerkbasierter Sprachassistent und Partnerschaft mit Deloitte

2. März 2026 — ElevenLabs verkündet zwei Partnerschaften vom Mobile World Congress Barcelona.

ElevenLabs × Deutsche Telekom — Magenta AI Call Assistant

Deutsche Telekom stellt den Magenta AI Call Assistant vor — bezeichnet als erster netzintegrierter Sprach‑KI‑Assistent, der direkt im Telekomnetz läuft. Angetrieben wird er von der ElevenAgents‑Plattform von ElevenLabs; er funktioniert ohne zusätzliche App auf jedem anrufbereiten Gerät (Smartphones und Festnetztelefone).

Angekündigte Funktionen: Übersetzung in 50 Sprachen, intelligente Gesprächszusammenfassung, autonome Aktionen in Workflows.

ElevenLabs × Deloitte — Omnichannel‑Agents für Unternehmen

ElevenLabs und Deloitte geben ihre erste Partnerschaft bekannt. Ziel ist es, die ElevenLabs Agents Plattform mit Deloittes Beratungs-Know‑how zu kombinieren, um Unternehmen bei der Einführung omnichannelfähiger Sprachagents — Customer Experience, Vertrieb, interne Prozesse — zu unterstützen und diese in bestehende Enterprise‑Systeme zu integrieren. Es ist die erste Partnerschaft von ElevenLabs mit einer Big‑Four‑Beratung.

🔗 Tweet @elevenlabsio — Deutsche Telekom MWC 🔗 Blog ElevenLabs × Deloitte

Kurzmeldungen

Claude Code v2.1.64 (Pre‑Release “next”)

Version 2.1.64 von Claude Code wurde im Tag next auf npm veröffentlicht — noch nicht als latest promoted (das bleibt 2.1.63) und nicht in den offiziellen GitHub Releases gelistet. Das Changelog ist noch nicht verfügbar; vermutlich handelt es sich um ein Pre‑Release, das den Voice Mode enthält.

🔗 npm @anthropic-ai/claude-code

Qwen 3.5 GPTQ-Int4 — Quantisierung, vLLM und SGLang

3. März — Alibaba/Qwen veröffentlicht die GPTQ-Int4‑Gewichte der Qwen‑3.5‑Reihe mit nativer vLLM‑ und SGLang‑Unterstützung. Ergebnis: weniger VRAM‑Bedarf, schnellere Inferenz, einfachere lokale Deployments auf begrenzten GPU‑Setups.

🔗 Tweet @Alibaba_Qwen — GPTQ-Int4

Qwen 3.5 Small auf LM Studio, Ollama und MLX

2.–3. März — Die Qwen 3.5 Small Modelle (0.8B–9B) sind jetzt auf den drei Hauptplattformen für lokale Inferenz verfügbar: LM Studio (~7 GB VRAM für 9B), Ollama und MLX. Lokale Deployments sind damit bereits am Tag nach dem Launch einsatzbereit.

🔗 LM Studio · Ollama · MLX

Z.ai Startup Program — API‑Credits und Early Access zu GLM‑5

2. März — Z.ai startet sein Startup Program: kostenlose API‑Credits, priorisierte Rate Limits, Early‑Access zur API und eine dedizierte Community. Zielgruppe: AI‑native Startups, Agent‑Builder, SaaS‑Gründer. Das aktive Modell auf der Plattform ist GLM‑5.

🔗 Tweet @Zai_org — Startup Program

March Pixel Drop — Gemini in Apps, Circle to Search Multi‑Objekt, Scam Detection in Frankreich

3. März — Das Pixel Drop im März bringt mehrere KI‑Funktionen auf Pixel‑Geräte. Gemini kann nun Aufgaben direkt in Apps ausführen (Befehle, Buchungen etc. — in Beta). Circle to Search erkennt jetzt alle sichtbaren Objekte auf einem Bildschirm in einer einzigen Suche, mit einem “Try It On”‑Button zum virtuellen Anprobieren von Kleidung. Magic Cue schlägt Restaurants via Gemini direkt in Konversationen vor. Bei der Sicherheit rollt Scam Detection in Frankreich, Italien, Spanien, Mexiko, Deutschland und Japan aus. Die Pixel Watch erhält Erdbebenwarnungen und Satellite SOS in Europa und Kanada.

🔗 March Pixel Drop — Google Blog

GPT-5.3 Instant System Card

Die System Card zu GPT-5.3 Instant wurde gleichzeitig veröffentlicht. Der Sicherheitsansatz entspricht dem von GPT-5.2 Instant — das Modell ist außerdem unter gpt-5.3-instant referenziert.

🔗 System Card GPT-5.3 Instant

Was das bedeutet

Der Voice Mode in Claude Code ist die strukturbildendste Entscheidung des Tages für Entwickler. Die kostenlose Transkription (außerhalb des Kontingents) entfernt die wirtschaftliche Haupthürde für solche Funktionen — das ist eine bewusste Entscheidung, die auf maximale Adoption abzielt, kein Detail. Die Leertaste als Push‑to‑Talk in einem Terminal ist eine minimalistische, zum Tool passende Schnittstelle.

Bei den Modellen zeigen GPT-5.3 Instant und Gemini 3.1 Flash‑Lite zwei unterschiedliche Strategien: OpenAI verbessert das Alltags‑Erlebnis für die breite Öffentlichkeit (weniger Halluzinationen, weniger unnötige Ablehnungen), Google optimiert das Kosten/Leistungs‑Verhältnis für Entwickler mit hohem API‑Volumen (2,5× schneller, aggressive Preisgestaltung). Der GPT‑5.4‑Teaser, der eine Stunde nach dem GPT‑5.3‑Launch erschien, deutet auf ein hohes Release‑Tempo bei OpenAI im März 2026 hin.

Die Erwähnung des “unprecedented” Traffics bei Anthropic zusammen mit dem #1‑App‑Store‑Platz bestätigt, dass Claude Code und die Claude‑App den Sprung aus der Nische zu einem deutlich breiteren Publikum geschafft haben. Skalierungsprobleme sind ein Zeichen dafür, dass die Adoption die Prognosen übersteigt, nicht notwendigerweise ein technisches Versagen.

Quellen - Tweet @trq212 — Voice Mode wird eingeführt

Dieses Dokument wurde aus der fr-Version in die Sprache en mithilfe des Modells gpt-5-mini übersetzt. Für weitere Informationen über den Übersetzungsprozess konsultieren Sie https://gitlab.com/jls42/ai-powered-markdown-translator