Claude Sonnet 4.6, open-weight Qwen3.5-397B, Google startet Lyria 3

Anthropic landet mit Claude Sonnet 4.6 einen Volltreffer, einem Modell, das bei vielen Aufgaben mit Opus konkurriert, jedoch zum Preis von Sonnet. Parallel dazu veröffentlicht Qwen sein erstes Open-Weight-Modell Qwen3.5 mit 397 Milliarden Parametern, und Google integriert Lyria 3 – sein Modell zur Musikgenerierung – direkt in Gemini.

Claude Sonnet 4.6: Opus-Leistung zum Sonnet-Preis

17. Februar — Anthropic veröffentlicht Claude Sonnet 4.6, beschrieben als das bisher leistungsfähigste Sonnet. Das Modell stellt ein umfassendes Upgrade in den Bereichen Coding, Computernutzung (Computer Use), Langzeitkontext-Reasoning, Agentenplanung, intellektuelle Arbeit und Design dar. Es kommt mit einem 1-Millionen-Token-Kontextfenster in der Beta-Version.

Die Positionierung ist klar: Leistungen, die ein Opus-Modell erfordert hätten, sind nun zum Sonnet-Tarif verfügbar, also $3 /$ 15 pro Million Token (unverändert gegenüber Sonnet 4.5). Sonnet 4.6 wird zum Standardmodell in den Free- und Pro-Plänen in claude.ai und Claude Cowork.

Benchmarks und Nutzerfeedback

In Claude Code bevorzugten Tester Sonnet 4.6 gegenüber Sonnet 4.5 in etwa 70% der Fälle und berichteten von einer besseren Erfassung des Kontexts vor Codeänderungen und einer Konsolidierung geteilter Logik statt deren Duplizierung. Noch bemerkenswerter: Nutzer bevorzugten Sonnet 4.6 gegenüber Opus 4.5 (dem Frontier-Modell vom November 2025) in 59% der Fälle, unter Verweis auf weniger Over-Engineering, weniger „Faulheit“ und bessere Befolgung von Anweisungen.

Benchmark	Ergebnis
SWE-bench Verified	80.2% (mit Prompt-Modifikation)
OSWorld (Computer Use)	Großer Fortschritt über 16 Monate
OfficeQA	Entspricht Opus 4.6
Vending-Bench Arena	Aufstrebende Investitions-/Pivot-Strategie

Der Computer Use macht bedeutende Fortschritte: Sonnet 4.6 verbessert auch die Resistenz gegen Prompt Injections im Vergleich zu Sonnet 4.5 und erreicht ein Niveau, das mit Opus 4.6 vergleichbar ist.

Zugehörige Produkt-Updates

Die Ankündigung geht mit mehreren General-Availability-Releases in der Claude API einher: Code-Ausführung, Gedächtnis, programmatische Tool-Aufrufe, Tool-Suche und Beispiele für Tool-Nutzung. Die Websuche und Fetch-Tools integrieren nun eine dynamische Filterung — Claude schreibt und führt automatisch Code aus, um Suchergebnisse zu filtern, und behält nur relevante Inhalte im Kontext.

🔗 Verbesserte Websuche mit dynamischer Filterung

Für Claude in Excel-Nutzer unterstützt das Add-in nun MCP-Konnektoren (S&P Global, LSEG, Daloopa, PitchBook, Moody’s, FactSet), verfügbar in den Pro-, Max-, Team- und Enterprise-Plänen.

🔗 Offizielle Ankündigung

Anthropic misst die Autonomie von KI-Agenten unter realen Bedingungen

18. Februar — Anthropic veröffentlicht eine Studie, die Millionen von Mensch-Agent-Interaktionen über Claude Code und die öffentliche API analysiert, mit einem Ziel: zu verstehen, wie Menschen in der Praxis mit der Autonomie von Agenten umgehen.

Schlüsselergebnisse

Metrik	Wert
Maximale autonome Dauer (99.9. Perzentil)	~45 Minuten (verdoppelt in 3 Monaten)
Auto-Approve (erfahrene Nutzer)	40%+ (vs 20% für neue)
Anteil von Software Engineering im API-Traffic	~50%
Aktionen mit Leitplanken	80%
Aktionen mit Mensch in der Schleife	73%
Irreversible Aktionen	0.8%

Ein kontraintuitiver Befund: Erfahrene Nutzer erhöhen sowohl die Auto-Approve-Rate ALS AUCH die Unterbrechungsrate. Sie wechseln von einer Aktion-für-Aktion-Überwachung zu einem aktiven Monitoring mit gezieltem Eingreifen. Zudem hält Claude an, um häufiger um Klärung zu bitten, als Menschen ihn unterbrechen, insbesondere bei komplexen Aufgaben.

Die Studie kommt zu dem Schluss, dass eine signifikante Lücke zwischen Fähigkeit und Nutzung besteht: Die Autonomie, die Modelle bewältigen können, übersteigt bei weitem diejenige, die ihnen in der Praxis gewährt wird — ein Phänomen, das die Forscher als „Undeployed Autonomy Surplus“ (Überschuss an nicht eingesetzter Autonomie) bezeichnen.

🔗 Vollständige Studie

Anthropic: Partnerschaften mit Ruanda und Infosys

17. Februar — Parallel zum Start von Sonnet 4.6 unterzeichnet Anthropic eine Absichtserklärung mit der Regierung von Ruanda, um Claude in den Bereichen Gesundheit, Bildung und öffentliche Verwaltung einzusetzen. Die Partnerschaft, die mit dem Ministerium für IKT und Innovation geführt wird, umfasst die Schulung von Beamten und den Einsatz eines KI-Lernbegleiters in acht afrikanischen Ländern.

Anthropic kündigt zudem eine Zusammenarbeit mit Infosys an, um KI-Agenten für Telekommunikation und andere regulierte Industrien zu entwickeln.

🔗 Partnerschaft mit Ruanda

Qwen3.5-397B-A17B: Erstes Open-Weight der Serie 3.5

16. Februar — Alibaba Qwen veröffentlicht Qwen3.5-397B-A17B, das erste Open-Weight-Modell der Qwen3.5-Serie. Es handelt sich um einen bedeutenden Fortschritt mit einer hybriden Architektur, die lineare Attention und sparse Mixture-of-Experts (MoE) kombiniert.

Merkmal	Details
Gesamtparameter	397B (hybride MoE-Architektur)
Architektur	Hybride lineare Attention + sparse MoE
Durchsatz	8.6x bis 19.0x höher als Qwen3-Max
Sprachen	201 Sprachen und Dialekte
Lizenz	Apache 2.0
Training	Großangelegtes Reinforcement Learning
Spezialität	Nativ multimodal, reale Agenten

Das Modell ist sofort auf Hugging Face, ModelScope, Alibaba Cloud Model Studio und über Qwen Code verfügbar. Mit 201 unterstützten Sprachen und einer Apache 2.0-Lizenz ist es eines der ambitioniertesten Open-Weight-Modelle derzeit in Bezug auf sprachliche Abdeckung und Inferenz-Durchsatz.

🔗 Tweet @Alibaba_Qwen

Google Lyria 3: Musikgenerierung kommt in Gemini

18. Februar — Google und DeepMind präsentieren Lyria 3, ein KI-Musikgenerierungsmodell, das direkt in die Gemini-Anwendung integriert ist. Nutzer können 30-sekündige Musiktitel aus Text-Prompts, Fotos oder Videos erstellen, mit Generierung personalisierter Liedtexte.

Funktion	Details
Eingaben	Text, Bilder, Videos
Ausgabe	30-sekündige Audiospuren
Anpassung	Vielfältige Musikstile, generierte Texte
Verfügbarkeit	Beta in Gemini (18+ Jahre)

Lyria 3 zeigt eine bemerkenswerte Flexibilität in der Kombination von Instrumenten und Genres und ermöglicht Kreationen von Jingles bis hin zu Lo-Fi-Kompositionen. Die weltweite Einführung erfolgt schrittweise.

🔗 Tweet @GoogleAI

OpenAI EVMbench: Sicherheits-Benchmark für Smart Contracts

18. Februar — OpenAI und Paradigm starten EVMbench, einen Benchmark, der die Fähigkeit von KI-Agenten bewertet, Schwachstellen in Ethereum Smart Contracts zu erkennen, zu beheben und auszunutzen. Der Benchmark basiert auf 120 kuratierten Schwachstellen aus 40 Audits (hauptsächlich Code4rena-Wettbewerbe).

Modus	Beschreibung	GPT-5.3-Codex	GPT-5 (6 Monate)
Exploit	Ausführen von Drainage-Angriffen	72.2%	31.9%
Detect	Auditieren und Erkennen von Schwachstellen	< vollständige Abdeckung	-
Patch	Beheben unter Erhaltung der Funktionalität	< vollständige Abdeckung	-

Ein interessanter Befund: KI-Agenten sind erfolgreicher in der Ausnutzung (explizites Ziel) als in der Erkennung und Korrektur, wo sie oft nach der ersten gefundenen Schwachstelle aufgeben. OpenAI bekräftigt sein Engagement von $10M in API-Guthaben für defensive Cybersicherheit.

🔗 EVMbench Ankündigung

GLM-5 Technischer Bericht: Z.ai dokumentiert sein Modell

18. Februar — Z.ai veröffentlicht den vollständigen technischen Bericht zu GLM-5, der die architektonischen Innovationen des am 11. Februar gestarteten Modells (744B Parameter, 40B aktiv, MIT-Lizenz) detailliert beschreibt.

Drei dokumentierte Schlüsselinnovationen: Dynamic Sparse Attention (DSA) zur Reduzierung von Trainings- und Inferenzkosten, eine asynchrone RL-Infrastruktur, die Generierung und Training entkoppelt, und RL-Algorithmen für Agenten, die komplexe und Langzeit-Interaktionen ermöglichen. Der Bericht ist auf arXiv verfügbar.

🔗 Tweet @Zai_org · 🔗 arXiv

Cohere Labs Tiny Aya: Ultrakompakte mehrsprachige KI

17. Februar — Cohere Labs präsentiert Tiny Aya, eine Familie kleiner Sprachmodelle, die 70+ Sprachen mit nur 3.35 Milliarden Parametern unterstützen. Das Ziel: mehrsprachige KI überall zugänglich zu machen, auch auf Telefonen und offline.

Tiny Aya richtet sich an drei Zielgruppen: Forscher, die in nicht-englischen Sprachen arbeiten, Entwickler, die für digital unterversorgte Gemeinschaften bauen, und eingebettete Anwendungen, die zuverlässige Übersetzung ohne Cloud-Abhängigkeit benötigen. Das Modell beinhaltet eine Offline-Übersetzungsfähigkeit, was den Datenschutz verbessert und die Latenz reduziert.

🔗 Tweet @cohere

Runway Gen-4.5 verfügbar via API + Claude Code Skill

17. Februar — Runway öffnet den Zugang zu Gen-4.5 über seine API, was Entwicklern ermöglicht, Bild-, Video- und Audiogenerierung direkt in ihre Projekte zu integrieren. Die Ankündigung wird von einem dedizierten Claude Code Skill begleitet, der auf GitHub verfügbar ist und es ermöglicht, Runway-Multimedia-Inhalte zu generieren, ohne die Entwicklungsumgebung zu verlassen.

🔗 Tweet @runwayml · 🔗 GitHub Skills

Manus Agents: Persönlicher Agent mit Langzeitgedächtnis

16. Februar — Manus startet Manus Agents, eine Fähigkeit, die jedem Nutzer einen persönlichen Agenten direkt in Chat-Konversationen ermöglicht. Der Agent kombiniert Langzeitgedächtnis (behaltener Stil, Ton und Präferenzen), vollständige Erstellungsfähigkeiten (Videos, Folien, Websites, Bilder) und direkte Integrationen mit Gmail, Calendar und Notion.

🔗 Tweet @ManusAI

ElevenAgents für Support

17. Februar — ElevenLabs startet ElevenAgents für Support, konversationelle KI-Agenten für den Kundensupport. Diese Agenten, die in Sprache und digitalen Kanälen in über 70 Sprachen funktionieren, basieren auf der agentischen Plattform von ElevenLabs und ihren über 4 Millionen Deployments in Produktion.

🔗 ElevenLabs Agents

NotebookLM x Zillow: Immobilien-Notebook

18. Februar — NotebookLM startet in Partnerschaft mit Zillow ein kostenloses Featured Notebook für Immobilienkäufer, das Expertenratschläge zu finanzieller Vorbereitung, Marktbewertung und Kaufverfahren zentralisiert.

🔗 Tweet @NotebookLM

Was das bedeutet

Diese Woche veranschaulicht zwei große Trends. Der erste ist die Demokratisierung von Frontier-Leistungen: Sonnet 4.6 bringt Opus-Fähigkeiten zu einem 5-mal niedrigeren Tarif, während Qwen3.5 ein 397B-Parameter-Modell in Apache 2.0 zugänglich macht. Der zweite ist die Expansion von KI-Agenten in neue Bereiche — die Studie von Anthropic zeigt, dass sich die längsten autonomen Sitzungen in drei Monaten verdoppelt haben, und Akteure wie Manus, ElevenLabs und Runway bauen spezialisierte Agenten (persönlicher Chat, Kundensupport, Multimedia-Erstellung).

Die Ankunft der Musikgenerierung in Gemini mit Lyria 3 und der EVMbench-Benchmark für Blockchain-Sicherheit zeigen auch, dass sich generative KI und Sicherheits-KI weiter als eigenständige Bereiche strukturieren.