KI-News 23. Jan 2026: Claude in Excel, Tasks Claude Code, Codex Agent Loop

Arbeitsreiche Woche für KI-Agenten

Vom 21. bis 23. Januar 2026 gab es mehrere wichtige Ankündigungen im Bereich Coding Agents und Infrastruktur. Anthropic führt Claude in Excel ein und veröffentlicht drei Artikel über Multi-Agenten-Systeme, OpenAI detailliert die interne Architektur von Codex und seine PostgreSQL-Infrastruktur, Qwen veröffentlicht sein Text-to-Speech-Modell als Open-Source, und Runway fügt Image to Video zu Gen-4.5 hinzu.

Anthropic: Claude in Excel und Claude Code

Claude in Excel

23. Januar — Claude ist jetzt in Microsoft Excel als Beta verfügbar. Die Integration ermöglicht die Analyse kompletter Excel-Arbeitsmappen mit ihren verschachtelten Formeln und Abhängigkeiten zwischen Registerkarten.

Funktionen:

Verständnis der gesamten Arbeitsmappe (Formeln, registerübergreifende Abhängigkeiten)
Erklärungen mit Zitaten auf Zellebene
Aktualisierung von Annahmen unter Beibehaltung der Formeln

Verfügbar für Abonnenten von Claude Pro, Max, Team und Enterprise.

🔗 Claude in Excel

Claude Code v2.1.19: Tasks-System

23. Januar — Version 2.1.19 führt Tasks ein, ein neues Aufgabenverwaltungssystem für komplexe Multi-Session-Projekte.

We’re turning Todos into Tasks in Claude Code. Tasks are a new primitive that help Claude Code track and complete more complicated projects and collaborate on them across multiple sessions or subagents.

🇩🇪 Wir wandeln Todos in Tasks in Claude Code um. Tasks sind ein neues Primitiv, das Claude Code hilft, kompliziertere Projekte zu verfolgen und abzuschließen und über mehrere Sitzungen oder Subagenten hinweg an ihnen zusammenzuarbeiten. — Thariq (@trq212), Claude Code Team Anthropic

Tasks-Funktionen:

Aspekt	Detail
Speicher	`~/.claude/tasks` (Dateien, ermöglicht den Aufbau von Tools darauf)
Zusammenarbeit	`CLAUDE_CODE_TASK_LIST_ID=name claude` zum Teilen zwischen Sitzungen
Abhängigkeiten	Tasks mit Abhängigkeiten und Blockern, die in Metadaten gespeichert sind
Broadcast	Aktualisierung einer Task wird an alle Sitzungen auf derselben Task List gesendet
Kompatibilität	Funktioniert mit `claude -p` und AgentSDK

Wozu es dient: Bei einem komplexen Projekt (Refactoring mehrerer Dateien, Migration, langes Feature) kann Claude die Arbeit in Tasks aufteilen, verfolgen, was erledigt ist und was noch aussteht. Tasks werden auf der Festplatte gespeichert – sie überdauern Kontext-Kompaktierung, Sitzungsschließung und Neustart. Mehrere Sitzungen oder Subagenten können in Echtzeit an derselben Aufgabenliste zusammenarbeiten.

In der Praxis: Claude erstellt Tasks (TaskCreate), listet sie auf (TaskList) und aktualisiert ihren Status (TaskUpdate: pending → in_progress → completed). Beispiel bei einem Authentifizierungs-Refactoring:

#1 [completed] Session-Speicher auf Redis migrieren
#2 [in_progress] Refresh-Token-Rotation implementieren
#3 [pending] OAuth-Integrationstests hinzufügen
#4 [pending] API-Dokumentation aktualisieren

Die Tasks werden in ~/.claude/tasks/ gespeichert und können über CLAUDE_CODE_TASK_LIST_ID zwischen Sitzungen geteilt werden.

Weitere Neuheiten v2.1.19:

Kurzschreibweise $0, $1 für Argumente in benutzerdefinierten Befehlen
VSCode Session Forking und Zurückspulen für alle
Skills ohne Berechtigungen werden ohne Genehmigung ausgeführt
CLAUDE_CODE_ENABLE_TASKS=false zum vorübergehenden Deaktivieren

🔗 CHANGELOG Claude Code | Thread @trq212

Claude Code v2.1.18: Anpassbare Tastenkombinationen

Vorherige Version, die die Möglichkeit hinzufügt, Tastenkombinationen pro Kontext zu konfigurieren und Chord-Sequenzen zu erstellen.

Befehl: /keybindings

⚠️ Hinweis: Diese Funktion ist derzeit in der Vorschau und nicht für alle Benutzer verfügbar.

🔗 Dokumentation Keybindings

Petri 2.0: Automatisierte Alignment-Audits

22. Januar — Anthropic veröffentlicht Petri 2.0, ein Update seines Tools für automatisierte Verhaltensaudits für Sprachmodelle.

Wozu es dient: Petri testet, ob ein LLM sich problematisch verhalten könnte – Manipulation, Täuschung, Regelumgehung. Das Tool generiert realistische Szenarien und beobachtet die Antworten des Modells, um unerwünschtes Verhalten zu erkennen, bevor es in der Produktion auftritt.

Verbesserung	Beschreibung
70 neue Szenarien	Erweiterte Seed-Bibliothek zur Abdeckung von mehr Randfällen
Eval-Awareness-Mitigationen	Das Modell darf nicht wissen, dass es getestet wird – sonst passt es sein Verhalten an. Petri 2.0 verbessert den Realismus der Szenarien, um diese Erkennung zu vermeiden.
Frontier-Vergleiche	Bewertungsergebnisse für aktuelle Modelle (Claude, GPT, Gemini)

🔗 Petri 2.0 | GitHub

Blog: Wann man Multi-Agenten-Systeme nutzen sollte (oder nicht)

23. Januar — Anthropic veröffentlicht einen pragmatischen Leitfaden zu Multi-Agenten-Architekturen. Die Hauptbotschaft: Nutzen Sie Multi-Agent nicht standardmäßig.

We’ve seen teams invest months building elaborate multi-agent architectures only to discover that improved prompting on a single agent achieved equivalent results.

🇩🇪 Wir haben Teams gesehen, die Monate in den Aufbau aufwendiger Multi-Agenten-Architekturen investiert haben, nur um festzustellen, dass verbessertes Prompting bei einem einzigen Agenten gleichwertige Ergebnisse erzielte.

Der Artikel identifiziert 3 Fälle, in denen Multi-Agent wirklich einen Mehrwert bietet:

Fall	Problem	Multi-Agenten-Lösung
Kontext-Verschmutzung	Ein Agent generiert umfangreiche Daten, von denen später nur eine Zusammenfassung nützlich ist	Ein Sub-Agent ruft 2000 Token Verlauf ab, gibt nur “Bestellung geliefert” an den Hauptagenten zurück
Parallelisierung	Mehrere unabhängige Suchen durchzuführen	Starten Sie 5 Agenten parallel auf 5 verschiedenen Quellen, anstatt sie sequenziell zu verarbeiten
Spezialisierung	Zu viele Tools (20+) in einem einzigen Agenten verschlechtern seine Fähigkeit, das richtige zu wählen	Aufteilen in spezialisierte Agenten: einer für CRM, einer für Marketing, einer für Messaging

Die Falle, die es zu vermeiden gilt: Aufteilung nach Arbeitstyp (ein Agent plant, ein anderer implementiert, ein anderer testet). Jede Übergabe verliert Kontext und verschlechtert die Qualität. Es ist besser, wenn ein einziger Agent eine Funktion von Anfang bis Ende bearbeitet.

Reale Kosten: 3-10x mehr Token als ein einzelner Agent für die gleiche Aufgabe.

Weitere Artikel der Serie:

Building agents with Skills (22. Jan)

Anstatt nach Domäne spezialisierte Agenten zu bauen, schlägt Anthropic vor, Skills zu bauen: Sammlungen von Dateien (Workflows, Skripte, Best Practices), die ein generalistischer Agent bei Bedarf lädt.

Progressive Offenlegung in 3 Ebenen:

Ebene	Inhalt	Größe
1	Metadaten (Name, Beschreibung)	~50 Token
2	Vollständige SKILL.md-Datei	~500 Token
3	Referenzdokumentation	2000+ Token

Jede Ebene wird nur bei Bedarf geladen. Ergebnis: Ein Agent kann Hunderte von Skills haben, ohne seinen Kontext zu sättigen.

🔗 Building agents with Skills

Eight trends 2026 (21. Jan)

Anthropic identifiziert 8 Trends für die Softwareentwicklung im Jahr 2026.

Kernaussage: Ingenieure gehen vom Schreiben von Code zur Koordination von Agenten über, die Code schreiben.

Wichtige Nuance: KI wird in ~60% der Arbeit eingesetzt, aber nur 0-20% können vollständig delegiert werden – menschliche Aufsicht bleibt unerlässlich.

Unternehmen	Ergebnis
Rakuten	Claude Code auf vLLM-Codebasis (12,5 Mio. Zeilen), 7h autonome Arbeit
TELUS	30% schneller, 500k Stunden eingespart
Zapier	89% KI-Adoption, 800+ interne Agenten

🔗 Eight trends 2026

OpenAI: Codex-Architektur und Infrastruktur

Unrolling the Codex agent loop

23. Januar — OpenAI öffnet die Kulissen von Codex CLI. Erster Artikel einer Serie über die interne Funktionsweise ihres Software-Agenten.

Was wir lernen:

Der Agent-Loop ist theoretisch einfach: Benutzer sendet Anfrage → Modell generiert Antwort oder fordert Tool an → Agent führt Tool aus → Modell macht mit Ergebnis weiter → bis zur endgültigen Antwort. In der Praxis liegen die Feinheiten im Kontextmanagement.

Prompt Caching — der Schlüssel zur Leistung:

Jede Konversationsrunde fügt dem Prompt Inhalt hinzu. Ohne Optimierung ist dies quadratisch in gesendeten Token. Prompt Caching ermöglicht die Wiederverwendung von Berechnungen aus vorherigen Runden. Bedingung: Der neue Prompt muss ein exaktes Präfix des alten sein. OpenAI detailliert die Fallstricke, die den Cache brechen (Ändern der Reihenfolge von MCP-Tools, Ändern der Konfiguration mitten in der Konversation).

Automatische Kompaktierung:

Wenn der Kontext einen Schwellenwert überschreitet, ruft Codex /responses/compact auf, was eine komprimierte Version der Konversation zurückgibt. Das Modell behält ein latentes Verständnis über einen undurchsichtigen encrypted_content.

Zero Data Retention (ZDR):

Für Kunden, die nicht möchten, dass ihre Daten gespeichert werden, ermöglicht encrypted_content die Bewahrung der Argumentation des Modells zwischen Runden, ohne Daten serverseitig zu speichern.

Erster Artikel einer Serie – die nächsten werden CLI-Architektur, Tool-Implementierung und Sandboxing behandeln.

🔗 Unrolling the Codex agent loop | Codex GitHub

Scaling PostgreSQL: 800 Millionen ChatGPT-Nutzer

22. Januar — OpenAI detailliert, wie PostgreSQL ChatGPT und die API für 800 Millionen Nutzer mit Millionen von Anfragen pro Sekunde antreibt.

Metrik	Wert
Nutzer	800 Millionen
Durchsatz	Millionen von QPS
Replikate	~50 Multi-Region Read Replicas
p99 Latenz	Zweistellige ms clientseitig
Verfügbarkeit	Five-nines (99,999%)

Architektur:

Single Primary Azure PostgreSQL Flexible Server
PgBouncer für Connection Pooling (Verbindungslatenz: 50ms → 5ms)
Schreibintensive Workloads migriert zu Azure Cosmos DB
Cache Locking zum Schutz vor Cache-Miss-Stürmen
Kaskadierende Replikation im Test, um 100 Replikate zu überschreiten

Einziger SEV-0 PostgreSQL in den letzten 12 Monaten: während des viralen Starts von ChatGPT ImageGen (100 Mio. neue Nutzer in einer Woche, Schreibverkehr x10).

🔗 Scaling PostgreSQL

Qwen: Qwen3-TTS Open-Source

22.-23. Januar — Alibaba veröffentlicht Qwen3-TTS als Open-Source unter Apache 2.0 Lizenz.

Merkmal	Detail
Lizenz	Apache 2.0
Voice Cloning	Ja
MLX-Audio Support	Verfügbar

Installation:

uv pip install -U mlx-audio --prerelease=allow

🔗 Qwen3-TTS auf X

Runway: Gen-4.5 Image to Video

21. Januar — Runway fügt die Funktion Image to Video zu Gen-4.5 hinzu.

Funktion	Beschreibung
Image to Video	Transformation eines Bildes in ein kinematisches Video
Kamerasteuerung	Präzise Kamerasteuerung
Kohärente Erzählungen	Kohärente Erzählungen über die Zeit
Charakterkonsistenz	Charaktere, die konsistent bleiben

Verfügbar für alle Runway-Bezahlpläne. Temporäre Aktion: 15% Rabatt.

🔗 Runway auf X

Was das bedeutet

Diese Woche markiert eine Reifung der Coding-Agent-Tools. Die beiden Riesen (Anthropic und OpenAI) veröffentlichen detaillierte technische Dokumentationen zur Architektur ihrer Agenten – ein Zeichen dafür, dass der Markt von der “Demo”-Phase in die “Produktions”-Phase übergeht.

Auf der Infrastrukturseite zeigt der PostgreSQL-Artikel von OpenAI, dass eine Single-Primary-Architektur mit den richtigen Optimierungen im Maßstab von Hunderten von Millionen Nutzern bestehen kann.

Die Ankunft von Claude in Excel eröffnet eine neue Front: KI direkt integriert in die täglichen Produktivitätstools.