Suchen

Claude Sonnet 4.6, open-weight Qwen3.5-397B, Google startet Lyria 3

Anthropic landet mit Claude Sonnet 4.6 einen Volltreffer, einem Modell, das bei vielen Aufgaben mit Opus konkurriert, jedoch zum Preis von Sonnet. Parallel dazu veröffentlicht Qwen sein erstes Open-Weight-Modell Qwen3.5 mit 397 Milliarden Parametern, und Google integriert Lyria 3 – sein Modell zur Musikgenerierung – direkt in Gemini.


Claude Sonnet 4.6: Opus-Leistung zum Sonnet-Preis

17. Februar — Anthropic veröffentlicht Claude Sonnet 4.6, beschrieben als das bisher leistungsfähigste Sonnet. Das Modell stellt ein umfassendes Upgrade in den Bereichen Coding, Computernutzung (Computer Use), Langzeitkontext-Reasoning, Agentenplanung, intellektuelle Arbeit und Design dar. Es kommt mit einem 1-Millionen-Token-Kontextfenster in der Beta-Version.

Die Positionierung ist klar: Leistungen, die ein Opus-Modell erfordert hätten, sind nun zum Sonnet-Tarif verfügbar, also 3/3 / 15 pro Million Token (unverändert gegenüber Sonnet 4.5). Sonnet 4.6 wird zum Standardmodell in den Free- und Pro-Plänen in claude.ai und Claude Cowork.

Benchmarks und Nutzerfeedback

In Claude Code bevorzugten Tester Sonnet 4.6 gegenüber Sonnet 4.5 in etwa 70% der Fälle und berichteten von einer besseren Erfassung des Kontexts vor Codeänderungen und einer Konsolidierung geteilter Logik statt deren Duplizierung. Noch bemerkenswerter: Nutzer bevorzugten Sonnet 4.6 gegenüber Opus 4.5 (dem Frontier-Modell vom November 2025) in 59% der Fälle, unter Verweis auf weniger Over-Engineering, weniger „Faulheit“ und bessere Befolgung von Anweisungen.

BenchmarkErgebnis
SWE-bench Verified80.2% (mit Prompt-Modifikation)
OSWorld (Computer Use)Großer Fortschritt über 16 Monate
OfficeQAEntspricht Opus 4.6
Vending-Bench ArenaAufstrebende Investitions-/Pivot-Strategie

Der Computer Use macht bedeutende Fortschritte: Sonnet 4.6 verbessert auch die Resistenz gegen Prompt Injections im Vergleich zu Sonnet 4.5 und erreicht ein Niveau, das mit Opus 4.6 vergleichbar ist.

Zugehörige Produkt-Updates

Die Ankündigung geht mit mehreren General-Availability-Releases in der Claude API einher: Code-Ausführung, Gedächtnis, programmatische Tool-Aufrufe, Tool-Suche und Beispiele für Tool-Nutzung. Die Websuche und Fetch-Tools integrieren nun eine dynamische Filterung — Claude schreibt und führt automatisch Code aus, um Suchergebnisse zu filtern, und behält nur relevante Inhalte im Kontext.

🔗 Verbesserte Websuche mit dynamischer Filterung

Für Claude in Excel-Nutzer unterstützt das Add-in nun MCP-Konnektoren (S&P Global, LSEG, Daloopa, PitchBook, Moody’s, FactSet), verfügbar in den Pro-, Max-, Team- und Enterprise-Plänen.

🔗 Offizielle Ankündigung


Anthropic misst die Autonomie von KI-Agenten unter realen Bedingungen

18. Februar — Anthropic veröffentlicht eine Studie, die Millionen von Mensch-Agent-Interaktionen über Claude Code und die öffentliche API analysiert, mit einem Ziel: zu verstehen, wie Menschen in der Praxis mit der Autonomie von Agenten umgehen.

Schlüsselergebnisse

MetrikWert
Maximale autonome Dauer (99.9. Perzentil)~45 Minuten (verdoppelt in 3 Monaten)
Auto-Approve (erfahrene Nutzer)40%+ (vs 20% für neue)
Anteil von Software Engineering im API-Traffic~50%
Aktionen mit Leitplanken80%
Aktionen mit Mensch in der Schleife73%
Irreversible Aktionen0.8%

Ein kontraintuitiver Befund: Erfahrene Nutzer erhöhen sowohl die Auto-Approve-Rate ALS AUCH die Unterbrechungsrate. Sie wechseln von einer Aktion-für-Aktion-Überwachung zu einem aktiven Monitoring mit gezieltem Eingreifen. Zudem hält Claude an, um häufiger um Klärung zu bitten, als Menschen ihn unterbrechen, insbesondere bei komplexen Aufgaben.

Die Studie kommt zu dem Schluss, dass eine signifikante Lücke zwischen Fähigkeit und Nutzung besteht: Die Autonomie, die Modelle bewältigen können, übersteigt bei weitem diejenige, die ihnen in der Praxis gewährt wird — ein Phänomen, das die Forscher als „Undeployed Autonomy Surplus“ (Überschuss an nicht eingesetzter Autonomie) bezeichnen.

🔗 Vollständige Studie


Anthropic: Partnerschaften mit Ruanda und Infosys

17. Februar — Parallel zum Start von Sonnet 4.6 unterzeichnet Anthropic eine Absichtserklärung mit der Regierung von Ruanda, um Claude in den Bereichen Gesundheit, Bildung und öffentliche Verwaltung einzusetzen. Die Partnerschaft, die mit dem Ministerium für IKT und Innovation geführt wird, umfasst die Schulung von Beamten und den Einsatz eines KI-Lernbegleiters in acht afrikanischen Ländern.

Anthropic kündigt zudem eine Zusammenarbeit mit Infosys an, um KI-Agenten für Telekommunikation und andere regulierte Industrien zu entwickeln.

🔗 Partnerschaft mit Ruanda


Qwen3.5-397B-A17B: Erstes Open-Weight der Serie 3.5

16. Februar — Alibaba Qwen veröffentlicht Qwen3.5-397B-A17B, das erste Open-Weight-Modell der Qwen3.5-Serie. Es handelt sich um einen bedeutenden Fortschritt mit einer hybriden Architektur, die lineare Attention und sparse Mixture-of-Experts (MoE) kombiniert.

MerkmalDetails
Gesamtparameter397B (hybride MoE-Architektur)
ArchitekturHybride lineare Attention + sparse MoE
Durchsatz8.6x bis 19.0x höher als Qwen3-Max
Sprachen201 Sprachen und Dialekte
LizenzApache 2.0
TrainingGroßangelegtes Reinforcement Learning
SpezialitätNativ multimodal, reale Agenten

Das Modell ist sofort auf Hugging Face, ModelScope, Alibaba Cloud Model Studio und über Qwen Code verfügbar. Mit 201 unterstützten Sprachen und einer Apache 2.0-Lizenz ist es eines der ambitioniertesten Open-Weight-Modelle derzeit in Bezug auf sprachliche Abdeckung und Inferenz-Durchsatz.

🔗 Tweet @Alibaba_Qwen


Google Lyria 3: Musikgenerierung kommt in Gemini

18. Februar — Google und DeepMind präsentieren Lyria 3, ein KI-Musikgenerierungsmodell, das direkt in die Gemini-Anwendung integriert ist. Nutzer können 30-sekündige Musiktitel aus Text-Prompts, Fotos oder Videos erstellen, mit Generierung personalisierter Liedtexte.

FunktionDetails
EingabenText, Bilder, Videos
Ausgabe30-sekündige Audiospuren
AnpassungVielfältige Musikstile, generierte Texte
VerfügbarkeitBeta in Gemini (18+ Jahre)

Lyria 3 zeigt eine bemerkenswerte Flexibilität in der Kombination von Instrumenten und Genres und ermöglicht Kreationen von Jingles bis hin zu Lo-Fi-Kompositionen. Die weltweite Einführung erfolgt schrittweise.

🔗 Tweet @GoogleAI


OpenAI EVMbench: Sicherheits-Benchmark für Smart Contracts

18. Februar — OpenAI und Paradigm starten EVMbench, einen Benchmark, der die Fähigkeit von KI-Agenten bewertet, Schwachstellen in Ethereum Smart Contracts zu erkennen, zu beheben und auszunutzen. Der Benchmark basiert auf 120 kuratierten Schwachstellen aus 40 Audits (hauptsächlich Code4rena-Wettbewerbe).

ModusBeschreibungGPT-5.3-CodexGPT-5 (6 Monate)
ExploitAusführen von Drainage-Angriffen72.2%31.9%
DetectAuditieren und Erkennen von Schwachstellen< vollständige Abdeckung-
PatchBeheben unter Erhaltung der Funktionalität< vollständige Abdeckung-

Ein interessanter Befund: KI-Agenten sind erfolgreicher in der Ausnutzung (explizites Ziel) als in der Erkennung und Korrektur, wo sie oft nach der ersten gefundenen Schwachstelle aufgeben. OpenAI bekräftigt sein Engagement von $10M in API-Guthaben für defensive Cybersicherheit.

🔗 EVMbench Ankündigung


GLM-5 Technischer Bericht: Z.ai dokumentiert sein Modell

18. Februar — Z.ai veröffentlicht den vollständigen technischen Bericht zu GLM-5, der die architektonischen Innovationen des am 11. Februar gestarteten Modells (744B Parameter, 40B aktiv, MIT-Lizenz) detailliert beschreibt.

Drei dokumentierte Schlüsselinnovationen: Dynamic Sparse Attention (DSA) zur Reduzierung von Trainings- und Inferenzkosten, eine asynchrone RL-Infrastruktur, die Generierung und Training entkoppelt, und RL-Algorithmen für Agenten, die komplexe und Langzeit-Interaktionen ermöglichen. Der Bericht ist auf arXiv verfügbar.

🔗 Tweet @Zai_org · 🔗 arXiv


Cohere Labs Tiny Aya: Ultrakompakte mehrsprachige KI

17. Februar — Cohere Labs präsentiert Tiny Aya, eine Familie kleiner Sprachmodelle, die 70+ Sprachen mit nur 3.35 Milliarden Parametern unterstützen. Das Ziel: mehrsprachige KI überall zugänglich zu machen, auch auf Telefonen und offline.

Tiny Aya richtet sich an drei Zielgruppen: Forscher, die in nicht-englischen Sprachen arbeiten, Entwickler, die für digital unterversorgte Gemeinschaften bauen, und eingebettete Anwendungen, die zuverlässige Übersetzung ohne Cloud-Abhängigkeit benötigen. Das Modell beinhaltet eine Offline-Übersetzungsfähigkeit, was den Datenschutz verbessert und die Latenz reduziert.

🔗 Tweet @cohere


Runway Gen-4.5 verfügbar via API + Claude Code Skill

17. Februar — Runway öffnet den Zugang zu Gen-4.5 über seine API, was Entwicklern ermöglicht, Bild-, Video- und Audiogenerierung direkt in ihre Projekte zu integrieren. Die Ankündigung wird von einem dedizierten Claude Code Skill begleitet, der auf GitHub verfügbar ist und es ermöglicht, Runway-Multimedia-Inhalte zu generieren, ohne die Entwicklungsumgebung zu verlassen.

🔗 Tweet @runwayml · 🔗 GitHub Skills


Manus Agents: Persönlicher Agent mit Langzeitgedächtnis

16. Februar — Manus startet Manus Agents, eine Fähigkeit, die jedem Nutzer einen persönlichen Agenten direkt in Chat-Konversationen ermöglicht. Der Agent kombiniert Langzeitgedächtnis (behaltener Stil, Ton und Präferenzen), vollständige Erstellungsfähigkeiten (Videos, Folien, Websites, Bilder) und direkte Integrationen mit Gmail, Calendar und Notion.

🔗 Tweet @ManusAI


ElevenAgents für Support

17. Februar — ElevenLabs startet ElevenAgents für Support, konversationelle KI-Agenten für den Kundensupport. Diese Agenten, die in Sprache und digitalen Kanälen in über 70 Sprachen funktionieren, basieren auf der agentischen Plattform von ElevenLabs und ihren über 4 Millionen Deployments in Produktion.

🔗 ElevenLabs Agents


NotebookLM x Zillow: Immobilien-Notebook

18. Februar — NotebookLM startet in Partnerschaft mit Zillow ein kostenloses Featured Notebook für Immobilienkäufer, das Expertenratschläge zu finanzieller Vorbereitung, Marktbewertung und Kaufverfahren zentralisiert.

🔗 Tweet @NotebookLM


Was das bedeutet

Diese Woche veranschaulicht zwei große Trends. Der erste ist die Demokratisierung von Frontier-Leistungen: Sonnet 4.6 bringt Opus-Fähigkeiten zu einem 5-mal niedrigeren Tarif, während Qwen3.5 ein 397B-Parameter-Modell in Apache 2.0 zugänglich macht. Der zweite ist die Expansion von KI-Agenten in neue Bereiche — die Studie von Anthropic zeigt, dass sich die längsten autonomen Sitzungen in drei Monaten verdoppelt haben, und Akteure wie Manus, ElevenLabs und Runway bauen spezialisierte Agenten (persönlicher Chat, Kundensupport, Multimedia-Erstellung).

Die Ankunft der Musikgenerierung in Gemini mit Lyria 3 und der EVMbench-Benchmark für Blockchain-Sicherheit zeigen auch, dass sich generative KI und Sicherheits-KI weiter als eigenständige Bereiche strukturieren.


Quellen