Doppelstart auf dem Gipfel: Anthropic veröffentlicht Claude Opus 4.6 mit 1M Token-Kontext und Agent Teams, während OpenAI mit GPT-5.3-Codex und einer Enterprise-Plattform antwortet. Google pusht Gemini 3 an allen Fronten, und GitHub erfüllt endlich eine 8 Jahre alte Anfrage.
Claude Opus 4.6: SOTA in Agentic Coding und 1M Kontext
5. Februar — Anthropic veröffentlicht Claude Opus 4.6, ein großes Update seines intelligentesten Modells. Das Modell macht Fortschritte in Planung, langen Sitzungen, Code-Review und bietet erstmals einen 1-Millionen-Token-Kontext in der Beta für ein Opus-Modell.
| Benchmark | Score | Detail |
|---|---|---|
| Terminal-Bench 2.0 | SOTA | Höchster Agentic Coding Score |
| Humanity’s Last Exam | SOTA | Multidisziplinäres Denken |
| GDPval-AA | +144 Elo vs GPT-5.2 | Professionelle Arbeit (Finanzen, Recht) |
| BrowseComp | SOTA | Komplexe Informationsbeschaffung |
| MRCR v2 (8-needle 1M) | 76% | vs 18.5% für Sonnet 4.5 |
API- und Produkt-Neuheiten
| Feature | Beschreibung |
|---|---|
| Agent teams | Mehrere Claude Code Agenten parallel (Research Preview) |
| Adaptive thinking | Das Modell wählt, wann tiefes Denken genutzt wird |
| Effort controls | 4 Stufen: low, medium, high (Standard), max |
| Context compaction | Automatische Kontext-Zusammenfassung für lange Sitzungen |
| 128k output tokens | Längere Ausgaben in einer einzigen Anfrage |
| Claude in PowerPoint | Research Preview (Max, Team, Enterprise) |
Preisgestaltung: Unverändert bei 25 pro Million Token (Input/Output). Premium-Preise ab 200k Token (37.50).
Verfügbarkeit: claude.ai, API (claude-opus-4-6) und alle großen Cloud-Plattformen.
Engineering Blogs: Infrastruktur-Rauschen und C-Compiler
Anthropic veröffentlicht am selben Tag zwei technische Artikel. Der erste quantifiziert das Infrastruktur-Rauschen in Agentic Coding Benchmarks: Auf Terminal-Bench 2.0 kann allein die Ressourcenkonfiguration Lücken von 6 Prozentpunkten zwischen Setups erzeugen. Der zweite dokumentiert den Bau eines C-Compilers in Rust durch 16 parallele Claude-Agenten: 100.000 Zeilen Code, fähig den Linux 6.9 Kernel auf x86, ARM und RISC-V zu kompilieren, in ~2.000 Claude Code Sitzungen für ~$20.000.
Opus 4.6 in GitHub Copilot
Am selben Tag wird Claude Opus 4.6 in GA in GitHub Copilot via Agent HQ verfügbar, nach der am Vortag angekündigten Public Preview.
🔗 Opus 4.6 Ankündigung | Infrastructure noise | Building a C compiler
GPT-5.3-Codex: Coding Frontier + Profi-Wissen
5. Februar — OpenAI veröffentlicht GPT-5.3-Codex, das die Coding-Leistung von GPT-5.2-Codex mit den Denkfähigkeiten von GPT-5.2 verschmilzt, alles 25% schneller.
| Benchmark | Score |
|---|---|
| SWE-Bench Pro (Public) | 56.8% |
| Terminal-Bench 2.0 | 77.3% |
| OSWorld-Verified | 64.7% |
| GDPval (Siege oder Unentschieden) | 70.9% |
| Cybersecurity CTF | 77.6% |
| SWE-Lancer IC Diamond | 81.4% |
GPT-5.3-Codex ist das erste Modell, das zu seiner eigenen Erstellung beigetragen hat: Das Team nutzte Vorabversionen, um das Training zu debuggen, das Deployment zu verwalten und Testergebnisse zu analysieren.
Jenseits von Code
Das Modell erstellt Präsentationen, Tabellenkalkulationen, Datenanalysen und bewältigt Produktivitätsaufgaben in einer Desktop-Umgebung (64.7% auf OSWorld-Verified).
Cybersicherheit: Hohe Leistungsfähigkeit
GPT-5.3-Codex ist das erste Modell, das im Rahmen von OpenAIs Preparedness-Framework als High Capability für Cybersicherheit eingestuft wurde, und das erste, das speziell darauf trainiert wurde, Software-Schwachstellen zu identifizieren.
🔗 GPT-5.3-Codex Blog | System Card
OpenAI: Frontier, MCP Apps, Sicherheit und Biotech
OpenAI Frontier: Enterprise Agent Plattform
5. Februar — OpenAI startet Frontier, eine Plattform zur Entwicklung, Bereitstellung und Verwaltung von KI-Agenten im Unternehmen. Agenten erhalten gemeinsamen geschäftlichen Kontext, Berechtigungen und lernen aus Erfahrung.
| Aspekt | Detail |
|---|---|
| Erste Kunden | HP, Intuit, Oracle, State Farm, Thermo Fisher, Uber |
| KI-Partner | Abridge, Clay, Ambience, Decagon, Harvey, Sierra |
| Ansatz | Forward Deployed Engineers (FDE) in Teams integriert |
| Standards | Offene Standards, kompatibel mit bestehenden Systemen |
ChatGPT: MCP Apps in Beta
5. Februar — Die MCP Apps kommen in die Beta in ChatGPT Business, Enterprise und Edu. Neue Partner-Konnektoren: Amplitude, Fireflies, Vercel, Monday.com, Stripe, Hex, Egnyte und andere. Organisationen können benutzerdefinierte MCP-Apps über den Entwicklermodus erstellen.
Trusted Access for Cyber
5. Februar — OpenAI startet Trusted Access for Cyber, ein vertrauensbasiertes Zugangspilotprogramm für fortgeschrittene Cyber-Fähigkeiten. Nutzer können ihre Identität unter chatgpt.com/cyber verifizieren. 10 Millionen Dollar an API-Credits werden über das Cybersecurity Grant Program für Cyberabwehr bereitgestellt.
GPT-5 senkt Kosten für Proteinsynthese
5. Februar — In Partnerschaft mit Ginkgo Bioworks verbindet OpenAI GPT-5 mit einem Roboterlabor, um die zellfreie Proteinsynthese (CFPS) zu optimieren. Ergebnis: 40% Senkung der Produktionskosten und 57% Verbesserung bei den Reagenzienkosten, nach 36.000 getesteten Zusammensetzungen auf 580 automatisierten Platten in sechs Experimentierrunden.
🔗 OpenAI Frontier | MCP Apps | Trusted Access for Cyber | GPT-5 Proteine
Google: Gemini 3, Super Bowl und NotebookLM
Gemini 3: Updates und Super Bowl
5.-6. Februar — Google pusht Gemini 3 an allen Fronten. Gemini 3 Flash, kürzlich gestartet, bietet Pro-Level-Denken bei Flash-Geschwindigkeit: 90.4% auf GPQA Diamond und 33.7% auf Humanity’s Last Exam (ohne Tools). Gemini 3 wird das Standardmodell für AI Overviews in der Google-Suche.
Google bereitet auch einen 60-sekündigen Gemini-Spot für den Super Bowl LX (8. Februar) vor — der Spot “New Home” zeigt ein Kind, das mit Hilfe von Gemini einen Umzug vorbereitet, und illustriert die Suchfunktionen in Google Photos und die Bildgenerierung.
NotebookLM: Infographics und Slide Decks
NotebookLM, jetzt auf Gemini 3 basierend, rollt Infographics und Slide Decks für Free- und Pro-Nutzer aus. Slide Decks sind bereits das zweitbeliebteste Output-Studio. Ultra-Nutzer können das Wasserzeichen entfernen.
🔗 Gemini 3 Flash | Gemini 3 App | NotebookLM Infographics
GitHub: Angepinnte Kommentare in Issues
5. Februar — GitHub führt angepinnte Kommentare in Issues ein. Es ist jetzt möglich, einen Kommentar über das Kontextmenü oben in einem Issue anzupinnen. Ein seit 2017 gefordertes Feature, um Entscheidungen, Updates und wichtige nächste Schritte in langen Threads hervorzuheben.
Was das bedeutet
Der 5. Februar 2026 wird als ein markanter Tag in Erinnerung bleiben: Anthropic und OpenAI starten gleichzeitig ihre fortschrittlichsten Coding-Modelle. Claude Opus 4.6 dominiert Benchmarks für professionelle Arbeit und Informationsbeschaffung, während GPT-5.3-Codex im Terminal-Coding und der Computernutzung glänzt. Beide Modelle beanspruchen SOTA (State Of The Art) auf Terminal-Bench 2.0 — Anthropics Artikel über Infrastruktur-Rauschen ergibt absolut Sinn.
Jenseits der Modelle verschärft sich der Plattformkampf: OpenAI Frontier greift das Enterprise-Segment mit bei Oracle und Uber eingesetzten Agenten an, während Anthropic auf das Entwickler-Ökosystem setzt (GitHub, Xcode, Claude Code). Google rückt an allen Fronten mit Gemini 3 in der Suche, Chrome und NotebookLM vor und bereitet den Super Bowl vor, um Gemini im Mainstream zu verankern.
Quellen
- Introducing Claude Opus 4.6
- Quantifying infrastructure noise
- Building a C compiler with parallel Claudes
- Introducing GPT-5.3-Codex
- GPT-5.3-Codex System Card
- Introducing OpenAI Frontier
- Introducing apps in ChatGPT
- Trusted Access for Cyber
- GPT-5 lowers protein synthesis cost
- Gemini 3 Flash
- NotebookLM Infographics
- Pinned comments on GitHub Issues