Arbeitsreiche Woche für KI-Agenten
Vom 21. bis 23. Januar 2026 gab es mehrere wichtige Ankündigungen im Bereich Coding Agents und Infrastruktur. Anthropic führt Claude in Excel ein und veröffentlicht drei Artikel über Multi-Agenten-Systeme, OpenAI detailliert die interne Architektur von Codex und seine PostgreSQL-Infrastruktur, Qwen veröffentlicht sein Text-to-Speech-Modell als Open-Source, und Runway fügt Image to Video zu Gen-4.5 hinzu.
Anthropic: Claude in Excel und Claude Code
Claude in Excel
23. Januar — Claude ist jetzt in Microsoft Excel als Beta verfügbar. Die Integration ermöglicht die Analyse kompletter Excel-Arbeitsmappen mit ihren verschachtelten Formeln und Abhängigkeiten zwischen Registerkarten.
Funktionen:
- Verständnis der gesamten Arbeitsmappe (Formeln, registerübergreifende Abhängigkeiten)
- Erklärungen mit Zitaten auf Zellebene
- Aktualisierung von Annahmen unter Beibehaltung der Formeln
Verfügbar für Abonnenten von Claude Pro, Max, Team und Enterprise.
Claude Code v2.1.19: Tasks-System
23. Januar — Version 2.1.19 führt Tasks ein, ein neues Aufgabenverwaltungssystem für komplexe Multi-Session-Projekte.
We’re turning Todos into Tasks in Claude Code. Tasks are a new primitive that help Claude Code track and complete more complicated projects and collaborate on them across multiple sessions or subagents.
🇩🇪 Wir wandeln Todos in Tasks in Claude Code um. Tasks sind ein neues Primitiv, das Claude Code hilft, kompliziertere Projekte zu verfolgen und abzuschließen und über mehrere Sitzungen oder Subagenten hinweg an ihnen zusammenzuarbeiten. — Thariq (@trq212), Claude Code Team Anthropic
Tasks-Funktionen:
| Aspekt | Detail |
|---|---|
| Speicher | ~/.claude/tasks (Dateien, ermöglicht den Aufbau von Tools darauf) |
| Zusammenarbeit | CLAUDE_CODE_TASK_LIST_ID=name claude zum Teilen zwischen Sitzungen |
| Abhängigkeiten | Tasks mit Abhängigkeiten und Blockern, die in Metadaten gespeichert sind |
| Broadcast | Aktualisierung einer Task wird an alle Sitzungen auf derselben Task List gesendet |
| Kompatibilität | Funktioniert mit claude -p und AgentSDK |
Wozu es dient: Bei einem komplexen Projekt (Refactoring mehrerer Dateien, Migration, langes Feature) kann Claude die Arbeit in Tasks aufteilen, verfolgen, was erledigt ist und was noch aussteht. Tasks werden auf der Festplatte gespeichert – sie überdauern Kontext-Kompaktierung, Sitzungsschließung und Neustart. Mehrere Sitzungen oder Subagenten können in Echtzeit an derselben Aufgabenliste zusammenarbeiten.
In der Praxis: Claude erstellt Tasks (TaskCreate), listet sie auf (TaskList) und aktualisiert ihren Status (TaskUpdate: pending → in_progress → completed). Beispiel bei einem Authentifizierungs-Refactoring:
#1 [completed] Session-Speicher auf Redis migrieren
#2 [in_progress] Refresh-Token-Rotation implementieren
#3 [pending] OAuth-Integrationstests hinzufügen
#4 [pending] API-Dokumentation aktualisieren
Die Tasks werden in ~/.claude/tasks/ gespeichert und können über CLAUDE_CODE_TASK_LIST_ID zwischen Sitzungen geteilt werden.
Weitere Neuheiten v2.1.19:
- Kurzschreibweise
$0,$1für Argumente in benutzerdefinierten Befehlen - VSCode Session Forking und Zurückspulen für alle
- Skills ohne Berechtigungen werden ohne Genehmigung ausgeführt
CLAUDE_CODE_ENABLE_TASKS=falsezum vorübergehenden Deaktivieren
🔗 CHANGELOG Claude Code | Thread @trq212
Claude Code v2.1.18: Anpassbare Tastenkombinationen
Vorherige Version, die die Möglichkeit hinzufügt, Tastenkombinationen pro Kontext zu konfigurieren und Chord-Sequenzen zu erstellen.
Befehl: /keybindings
⚠️ Hinweis: Diese Funktion ist derzeit in der Vorschau und nicht für alle Benutzer verfügbar.
Petri 2.0: Automatisierte Alignment-Audits
22. Januar — Anthropic veröffentlicht Petri 2.0, ein Update seines Tools für automatisierte Verhaltensaudits für Sprachmodelle.
Wozu es dient: Petri testet, ob ein LLM sich problematisch verhalten könnte – Manipulation, Täuschung, Regelumgehung. Das Tool generiert realistische Szenarien und beobachtet die Antworten des Modells, um unerwünschtes Verhalten zu erkennen, bevor es in der Produktion auftritt.
| Verbesserung | Beschreibung |
|---|---|
| 70 neue Szenarien | Erweiterte Seed-Bibliothek zur Abdeckung von mehr Randfällen |
| Eval-Awareness-Mitigationen | Das Modell darf nicht wissen, dass es getestet wird – sonst passt es sein Verhalten an. Petri 2.0 verbessert den Realismus der Szenarien, um diese Erkennung zu vermeiden. |
| Frontier-Vergleiche | Bewertungsergebnisse für aktuelle Modelle (Claude, GPT, Gemini) |
Blog: Wann man Multi-Agenten-Systeme nutzen sollte (oder nicht)
23. Januar — Anthropic veröffentlicht einen pragmatischen Leitfaden zu Multi-Agenten-Architekturen. Die Hauptbotschaft: Nutzen Sie Multi-Agent nicht standardmäßig.
We’ve seen teams invest months building elaborate multi-agent architectures only to discover that improved prompting on a single agent achieved equivalent results.
🇩🇪 Wir haben Teams gesehen, die Monate in den Aufbau aufwendiger Multi-Agenten-Architekturen investiert haben, nur um festzustellen, dass verbessertes Prompting bei einem einzigen Agenten gleichwertige Ergebnisse erzielte.
Der Artikel identifiziert 3 Fälle, in denen Multi-Agent wirklich einen Mehrwert bietet:
| Fall | Problem | Multi-Agenten-Lösung |
|---|---|---|
| Kontext-Verschmutzung | Ein Agent generiert umfangreiche Daten, von denen später nur eine Zusammenfassung nützlich ist | Ein Sub-Agent ruft 2000 Token Verlauf ab, gibt nur “Bestellung geliefert” an den Hauptagenten zurück |
| Parallelisierung | Mehrere unabhängige Suchen durchzuführen | Starten Sie 5 Agenten parallel auf 5 verschiedenen Quellen, anstatt sie sequenziell zu verarbeiten |
| Spezialisierung | Zu viele Tools (20+) in einem einzigen Agenten verschlechtern seine Fähigkeit, das richtige zu wählen | Aufteilen in spezialisierte Agenten: einer für CRM, einer für Marketing, einer für Messaging |
Die Falle, die es zu vermeiden gilt: Aufteilung nach Arbeitstyp (ein Agent plant, ein anderer implementiert, ein anderer testet). Jede Übergabe verliert Kontext und verschlechtert die Qualität. Es ist besser, wenn ein einziger Agent eine Funktion von Anfang bis Ende bearbeitet.
Reale Kosten: 3-10x mehr Token als ein einzelner Agent für die gleiche Aufgabe.
Weitere Artikel der Serie:
Building agents with Skills (22. Jan)
Anstatt nach Domäne spezialisierte Agenten zu bauen, schlägt Anthropic vor, Skills zu bauen: Sammlungen von Dateien (Workflows, Skripte, Best Practices), die ein generalistischer Agent bei Bedarf lädt.
Progressive Offenlegung in 3 Ebenen:
| Ebene | Inhalt | Größe |
|---|---|---|
| 1 | Metadaten (Name, Beschreibung) | ~50 Token |
| 2 | Vollständige SKILL.md-Datei | ~500 Token |
| 3 | Referenzdokumentation | 2000+ Token |
Jede Ebene wird nur bei Bedarf geladen. Ergebnis: Ein Agent kann Hunderte von Skills haben, ohne seinen Kontext zu sättigen.
Eight trends 2026 (21. Jan)
Anthropic identifiziert 8 Trends für die Softwareentwicklung im Jahr 2026.
Kernaussage: Ingenieure gehen vom Schreiben von Code zur Koordination von Agenten über, die Code schreiben.
Wichtige Nuance: KI wird in ~60% der Arbeit eingesetzt, aber nur 0-20% können vollständig delegiert werden – menschliche Aufsicht bleibt unerlässlich.
| Unternehmen | Ergebnis |
|---|---|
| Rakuten | Claude Code auf vLLM-Codebasis (12,5 Mio. Zeilen), 7h autonome Arbeit |
| TELUS | 30% schneller, 500k Stunden eingespart |
| Zapier | 89% KI-Adoption, 800+ interne Agenten |
OpenAI: Codex-Architektur und Infrastruktur
Unrolling the Codex agent loop
23. Januar — OpenAI öffnet die Kulissen von Codex CLI. Erster Artikel einer Serie über die interne Funktionsweise ihres Software-Agenten.
Was wir lernen:
Der Agent-Loop ist theoretisch einfach: Benutzer sendet Anfrage → Modell generiert Antwort oder fordert Tool an → Agent führt Tool aus → Modell macht mit Ergebnis weiter → bis zur endgültigen Antwort. In der Praxis liegen die Feinheiten im Kontextmanagement.
Prompt Caching — der Schlüssel zur Leistung:
Jede Konversationsrunde fügt dem Prompt Inhalt hinzu. Ohne Optimierung ist dies quadratisch in gesendeten Token. Prompt Caching ermöglicht die Wiederverwendung von Berechnungen aus vorherigen Runden. Bedingung: Der neue Prompt muss ein exaktes Präfix des alten sein. OpenAI detailliert die Fallstricke, die den Cache brechen (Ändern der Reihenfolge von MCP-Tools, Ändern der Konfiguration mitten in der Konversation).
Automatische Kompaktierung:
Wenn der Kontext einen Schwellenwert überschreitet, ruft Codex /responses/compact auf, was eine komprimierte Version der Konversation zurückgibt. Das Modell behält ein latentes Verständnis über einen undurchsichtigen encrypted_content.
Zero Data Retention (ZDR):
Für Kunden, die nicht möchten, dass ihre Daten gespeichert werden, ermöglicht encrypted_content die Bewahrung der Argumentation des Modells zwischen Runden, ohne Daten serverseitig zu speichern.
Erster Artikel einer Serie – die nächsten werden CLI-Architektur, Tool-Implementierung und Sandboxing behandeln.
🔗 Unrolling the Codex agent loop | Codex GitHub
Scaling PostgreSQL: 800 Millionen ChatGPT-Nutzer
22. Januar — OpenAI detailliert, wie PostgreSQL ChatGPT und die API für 800 Millionen Nutzer mit Millionen von Anfragen pro Sekunde antreibt.
| Metrik | Wert |
|---|---|
| Nutzer | 800 Millionen |
| Durchsatz | Millionen von QPS |
| Replikate | ~50 Multi-Region Read Replicas |
| p99 Latenz | Zweistellige ms clientseitig |
| Verfügbarkeit | Five-nines (99,999%) |
Architektur:
- Single Primary Azure PostgreSQL Flexible Server
- PgBouncer für Connection Pooling (Verbindungslatenz: 50ms → 5ms)
- Schreibintensive Workloads migriert zu Azure Cosmos DB
- Cache Locking zum Schutz vor Cache-Miss-Stürmen
- Kaskadierende Replikation im Test, um 100 Replikate zu überschreiten
Einziger SEV-0 PostgreSQL in den letzten 12 Monaten: während des viralen Starts von ChatGPT ImageGen (100 Mio. neue Nutzer in einer Woche, Schreibverkehr x10).
Qwen: Qwen3-TTS Open-Source
22.-23. Januar — Alibaba veröffentlicht Qwen3-TTS als Open-Source unter Apache 2.0 Lizenz.
| Merkmal | Detail |
|---|---|
| Lizenz | Apache 2.0 |
| Voice Cloning | Ja |
| MLX-Audio Support | Verfügbar |
Installation:
uv pip install -U mlx-audio --prerelease=allow
Runway: Gen-4.5 Image to Video
21. Januar — Runway fügt die Funktion Image to Video zu Gen-4.5 hinzu.
| Funktion | Beschreibung |
|---|---|
| Image to Video | Transformation eines Bildes in ein kinematisches Video |
| Kamerasteuerung | Präzise Kamerasteuerung |
| Kohärente Erzählungen | Kohärente Erzählungen über die Zeit |
| Charakterkonsistenz | Charaktere, die konsistent bleiben |
Verfügbar für alle Runway-Bezahlpläne. Temporäre Aktion: 15% Rabatt.
Was das bedeutet
Diese Woche markiert eine Reifung der Coding-Agent-Tools. Die beiden Riesen (Anthropic und OpenAI) veröffentlichen detaillierte technische Dokumentationen zur Architektur ihrer Agenten – ein Zeichen dafür, dass der Markt von der “Demo”-Phase in die “Produktions”-Phase übergeht.
Auf der Infrastrukturseite zeigt der PostgreSQL-Artikel von OpenAI, dass eine Single-Primary-Architektur mit den richtigen Optimierungen im Maßstab von Hunderten von Millionen Nutzern bestehen kann.
Die Ankunft von Claude in Excel eröffnet eine neue Front: KI direkt integriert in die täglichen Produktivitätstools.