Suchen

KI-News 23. Jan 2026: Claude in Excel, Tasks Claude Code, Codex Agent Loop

KI-News 23. Jan 2026: Claude in Excel, Tasks Claude Code, Codex Agent Loop

Arbeitsreiche Woche für KI-Agenten

Vom 21. bis 23. Januar 2026 gab es mehrere wichtige Ankündigungen im Bereich Coding Agents und Infrastruktur. Anthropic führt Claude in Excel ein und veröffentlicht drei Artikel über Multi-Agenten-Systeme, OpenAI detailliert die interne Architektur von Codex und seine PostgreSQL-Infrastruktur, Qwen veröffentlicht sein Text-to-Speech-Modell als Open-Source, und Runway fügt Image to Video zu Gen-4.5 hinzu.


Anthropic: Claude in Excel und Claude Code

Claude in Excel

23. Januar — Claude ist jetzt in Microsoft Excel als Beta verfügbar. Die Integration ermöglicht die Analyse kompletter Excel-Arbeitsmappen mit ihren verschachtelten Formeln und Abhängigkeiten zwischen Registerkarten.

Funktionen:

  • Verständnis der gesamten Arbeitsmappe (Formeln, registerübergreifende Abhängigkeiten)
  • Erklärungen mit Zitaten auf Zellebene
  • Aktualisierung von Annahmen unter Beibehaltung der Formeln

Verfügbar für Abonnenten von Claude Pro, Max, Team und Enterprise.

🔗 Claude in Excel


Claude Code v2.1.19: Tasks-System

23. Januar — Version 2.1.19 führt Tasks ein, ein neues Aufgabenverwaltungssystem für komplexe Multi-Session-Projekte.

We’re turning Todos into Tasks in Claude Code. Tasks are a new primitive that help Claude Code track and complete more complicated projects and collaborate on them across multiple sessions or subagents.

🇩🇪 Wir wandeln Todos in Tasks in Claude Code um. Tasks sind ein neues Primitiv, das Claude Code hilft, kompliziertere Projekte zu verfolgen und abzuschließen und über mehrere Sitzungen oder Subagenten hinweg an ihnen zusammenzuarbeiten.Thariq (@trq212), Claude Code Team Anthropic

Tasks-Funktionen:

AspektDetail
Speicher~/.claude/tasks (Dateien, ermöglicht den Aufbau von Tools darauf)
ZusammenarbeitCLAUDE_CODE_TASK_LIST_ID=name claude zum Teilen zwischen Sitzungen
AbhängigkeitenTasks mit Abhängigkeiten und Blockern, die in Metadaten gespeichert sind
BroadcastAktualisierung einer Task wird an alle Sitzungen auf derselben Task List gesendet
KompatibilitätFunktioniert mit claude -p und AgentSDK

Wozu es dient: Bei einem komplexen Projekt (Refactoring mehrerer Dateien, Migration, langes Feature) kann Claude die Arbeit in Tasks aufteilen, verfolgen, was erledigt ist und was noch aussteht. Tasks werden auf der Festplatte gespeichert – sie überdauern Kontext-Kompaktierung, Sitzungsschließung und Neustart. Mehrere Sitzungen oder Subagenten können in Echtzeit an derselben Aufgabenliste zusammenarbeiten.

In der Praxis: Claude erstellt Tasks (TaskCreate), listet sie auf (TaskList) und aktualisiert ihren Status (TaskUpdate: pending → in_progress → completed). Beispiel bei einem Authentifizierungs-Refactoring:

#1 [completed] Session-Speicher auf Redis migrieren
#2 [in_progress] Refresh-Token-Rotation implementieren
#3 [pending] OAuth-Integrationstests hinzufügen
#4 [pending] API-Dokumentation aktualisieren

Die Tasks werden in ~/.claude/tasks/ gespeichert und können über CLAUDE_CODE_TASK_LIST_ID zwischen Sitzungen geteilt werden.

Weitere Neuheiten v2.1.19:

  • Kurzschreibweise $0, $1 für Argumente in benutzerdefinierten Befehlen
  • VSCode Session Forking und Zurückspulen für alle
  • Skills ohne Berechtigungen werden ohne Genehmigung ausgeführt
  • CLAUDE_CODE_ENABLE_TASKS=false zum vorübergehenden Deaktivieren

🔗 CHANGELOG Claude Code | Thread @trq212


Claude Code v2.1.18: Anpassbare Tastenkombinationen

Vorherige Version, die die Möglichkeit hinzufügt, Tastenkombinationen pro Kontext zu konfigurieren und Chord-Sequenzen zu erstellen.

Befehl: /keybindings

⚠️ Hinweis: Diese Funktion ist derzeit in der Vorschau und nicht für alle Benutzer verfügbar.

🔗 Dokumentation Keybindings


Petri 2.0: Automatisierte Alignment-Audits

22. Januar — Anthropic veröffentlicht Petri 2.0, ein Update seines Tools für automatisierte Verhaltensaudits für Sprachmodelle.

Wozu es dient: Petri testet, ob ein LLM sich problematisch verhalten könnte – Manipulation, Täuschung, Regelumgehung. Das Tool generiert realistische Szenarien und beobachtet die Antworten des Modells, um unerwünschtes Verhalten zu erkennen, bevor es in der Produktion auftritt.

VerbesserungBeschreibung
70 neue SzenarienErweiterte Seed-Bibliothek zur Abdeckung von mehr Randfällen
Eval-Awareness-MitigationenDas Modell darf nicht wissen, dass es getestet wird – sonst passt es sein Verhalten an. Petri 2.0 verbessert den Realismus der Szenarien, um diese Erkennung zu vermeiden.
Frontier-VergleicheBewertungsergebnisse für aktuelle Modelle (Claude, GPT, Gemini)

🔗 Petri 2.0 | GitHub


Blog: Wann man Multi-Agenten-Systeme nutzen sollte (oder nicht)

23. Januar — Anthropic veröffentlicht einen pragmatischen Leitfaden zu Multi-Agenten-Architekturen. Die Hauptbotschaft: Nutzen Sie Multi-Agent nicht standardmäßig.

We’ve seen teams invest months building elaborate multi-agent architectures only to discover that improved prompting on a single agent achieved equivalent results.

🇩🇪 Wir haben Teams gesehen, die Monate in den Aufbau aufwendiger Multi-Agenten-Architekturen investiert haben, nur um festzustellen, dass verbessertes Prompting bei einem einzigen Agenten gleichwertige Ergebnisse erzielte.

Der Artikel identifiziert 3 Fälle, in denen Multi-Agent wirklich einen Mehrwert bietet:

FallProblemMulti-Agenten-Lösung
Kontext-VerschmutzungEin Agent generiert umfangreiche Daten, von denen später nur eine Zusammenfassung nützlich istEin Sub-Agent ruft 2000 Token Verlauf ab, gibt nur “Bestellung geliefert” an den Hauptagenten zurück
ParallelisierungMehrere unabhängige Suchen durchzuführenStarten Sie 5 Agenten parallel auf 5 verschiedenen Quellen, anstatt sie sequenziell zu verarbeiten
SpezialisierungZu viele Tools (20+) in einem einzigen Agenten verschlechtern seine Fähigkeit, das richtige zu wählenAufteilen in spezialisierte Agenten: einer für CRM, einer für Marketing, einer für Messaging

Die Falle, die es zu vermeiden gilt: Aufteilung nach Arbeitstyp (ein Agent plant, ein anderer implementiert, ein anderer testet). Jede Übergabe verliert Kontext und verschlechtert die Qualität. Es ist besser, wenn ein einziger Agent eine Funktion von Anfang bis Ende bearbeitet.

Reale Kosten: 3-10x mehr Token als ein einzelner Agent für die gleiche Aufgabe.

Weitere Artikel der Serie:

Building agents with Skills (22. Jan)

Anstatt nach Domäne spezialisierte Agenten zu bauen, schlägt Anthropic vor, Skills zu bauen: Sammlungen von Dateien (Workflows, Skripte, Best Practices), die ein generalistischer Agent bei Bedarf lädt.

Progressive Offenlegung in 3 Ebenen:

EbeneInhaltGröße
1Metadaten (Name, Beschreibung)~50 Token
2Vollständige SKILL.md-Datei~500 Token
3Referenzdokumentation2000+ Token

Jede Ebene wird nur bei Bedarf geladen. Ergebnis: Ein Agent kann Hunderte von Skills haben, ohne seinen Kontext zu sättigen.

🔗 Building agents with Skills


Anthropic identifiziert 8 Trends für die Softwareentwicklung im Jahr 2026.

Kernaussage: Ingenieure gehen vom Schreiben von Code zur Koordination von Agenten über, die Code schreiben.

Wichtige Nuance: KI wird in ~60% der Arbeit eingesetzt, aber nur 0-20% können vollständig delegiert werden – menschliche Aufsicht bleibt unerlässlich.

UnternehmenErgebnis
RakutenClaude Code auf vLLM-Codebasis (12,5 Mio. Zeilen), 7h autonome Arbeit
TELUS30% schneller, 500k Stunden eingespart
Zapier89% KI-Adoption, 800+ interne Agenten

🔗 Eight trends 2026


OpenAI: Codex-Architektur und Infrastruktur

Unrolling the Codex agent loop

23. Januar — OpenAI öffnet die Kulissen von Codex CLI. Erster Artikel einer Serie über die interne Funktionsweise ihres Software-Agenten.

Was wir lernen:

Der Agent-Loop ist theoretisch einfach: Benutzer sendet Anfrage → Modell generiert Antwort oder fordert Tool an → Agent führt Tool aus → Modell macht mit Ergebnis weiter → bis zur endgültigen Antwort. In der Praxis liegen die Feinheiten im Kontextmanagement.

Prompt Caching — der Schlüssel zur Leistung:

Jede Konversationsrunde fügt dem Prompt Inhalt hinzu. Ohne Optimierung ist dies quadratisch in gesendeten Token. Prompt Caching ermöglicht die Wiederverwendung von Berechnungen aus vorherigen Runden. Bedingung: Der neue Prompt muss ein exaktes Präfix des alten sein. OpenAI detailliert die Fallstricke, die den Cache brechen (Ändern der Reihenfolge von MCP-Tools, Ändern der Konfiguration mitten in der Konversation).

Automatische Kompaktierung:

Wenn der Kontext einen Schwellenwert überschreitet, ruft Codex /responses/compact auf, was eine komprimierte Version der Konversation zurückgibt. Das Modell behält ein latentes Verständnis über einen undurchsichtigen encrypted_content.

Zero Data Retention (ZDR):

Für Kunden, die nicht möchten, dass ihre Daten gespeichert werden, ermöglicht encrypted_content die Bewahrung der Argumentation des Modells zwischen Runden, ohne Daten serverseitig zu speichern.

Erster Artikel einer Serie – die nächsten werden CLI-Architektur, Tool-Implementierung und Sandboxing behandeln.

🔗 Unrolling the Codex agent loop | Codex GitHub


Scaling PostgreSQL: 800 Millionen ChatGPT-Nutzer

22. Januar — OpenAI detailliert, wie PostgreSQL ChatGPT und die API für 800 Millionen Nutzer mit Millionen von Anfragen pro Sekunde antreibt.

MetrikWert
Nutzer800 Millionen
DurchsatzMillionen von QPS
Replikate~50 Multi-Region Read Replicas
p99 LatenzZweistellige ms clientseitig
VerfügbarkeitFive-nines (99,999%)

Architektur:

  • Single Primary Azure PostgreSQL Flexible Server
  • PgBouncer für Connection Pooling (Verbindungslatenz: 50ms → 5ms)
  • Schreibintensive Workloads migriert zu Azure Cosmos DB
  • Cache Locking zum Schutz vor Cache-Miss-Stürmen
  • Kaskadierende Replikation im Test, um 100 Replikate zu überschreiten

Einziger SEV-0 PostgreSQL in den letzten 12 Monaten: während des viralen Starts von ChatGPT ImageGen (100 Mio. neue Nutzer in einer Woche, Schreibverkehr x10).

🔗 Scaling PostgreSQL


Qwen: Qwen3-TTS Open-Source

22.-23. Januar — Alibaba veröffentlicht Qwen3-TTS als Open-Source unter Apache 2.0 Lizenz.

MerkmalDetail
LizenzApache 2.0
Voice CloningJa
MLX-Audio SupportVerfügbar

Installation:

uv pip install -U mlx-audio --prerelease=allow

🔗 Qwen3-TTS auf X


Runway: Gen-4.5 Image to Video

21. Januar — Runway fügt die Funktion Image to Video zu Gen-4.5 hinzu.

FunktionBeschreibung
Image to VideoTransformation eines Bildes in ein kinematisches Video
KamerasteuerungPräzise Kamerasteuerung
Kohärente ErzählungenKohärente Erzählungen über die Zeit
CharakterkonsistenzCharaktere, die konsistent bleiben

Verfügbar für alle Runway-Bezahlpläne. Temporäre Aktion: 15% Rabatt.

🔗 Runway auf X


Was das bedeutet

Diese Woche markiert eine Reifung der Coding-Agent-Tools. Die beiden Riesen (Anthropic und OpenAI) veröffentlichen detaillierte technische Dokumentationen zur Architektur ihrer Agenten – ein Zeichen dafür, dass der Markt von der “Demo”-Phase in die “Produktions”-Phase übergeht.

Auf der Infrastrukturseite zeigt der PostgreSQL-Artikel von OpenAI, dass eine Single-Primary-Architektur mit den richtigen Optimierungen im Maßstab von Hunderten von Millionen Nutzern bestehen kann.

Die Ankunft von Claude in Excel eröffnet eine neue Front: KI direkt integriert in die täglichen Produktivitätstools.


Quellen