Claude Sonnet 4.6, Qwen3.5-397B in open-weight, Google lanceert Lyria 3

Anthropic slaat hard toe met Claude Sonnet 4.6, een model dat concurreert met Opus op veel taken voor een Sonnet-prijs. Tegelijkertijd publiceert Qwen zijn eerste Qwen3.5 model in open-weight met 397 miljard parameters, en Google integreert Lyria 3 — zijn model voor muziekgeneratie — direct in Gemini.

Claude Sonnet 4.6: Opus-prestaties voor de Sonnet-prijs

17 februari — Anthropic lanceert Claude Sonnet 4.6, beschreven als de meest capabele Sonnet tot nu toe. Het model vertegenwoordigt een volledige upgrade op het gebied van coding, computer use, redeneren met lange context, planning van agents, intellectueel werk en design. Het bevat een contextvenster van 1 miljoen tokens in bèta.

De positionering is duidelijk: prestaties die een Opus-model zouden vereisen, zijn nu toegankelijk tegen het Sonnet-tarief, namelijk $3 /$ 15 per miljoen tokens (ongewijzigd ten opzichte van Sonnet 4.5). Sonnet 4.6 wordt het standaardmodel op de Free- en Pro-abonnementen in claude.ai en Claude Cowork.

Benchmarks en gebruikersfeedback

In Claude Code gaven testers in ongeveer 70% van de gevallen de voorkeur aan Sonnet 4.6 boven Sonnet 4.5, en rapporteerden een betere contextlezing vóór codewijziging en een consolidatie van gedeelde logica in plaats van duplicatie. Nog opmerkelijker: gebruikers gaven in 59% van de gevallen de voorkeur aan Sonnet 4.6 boven Opus 4.5 (het frontier-model van november 2025), met minder “luiheid” en betere opvolging van instructies als redenen.

Benchmark	Score
SWE-bench Verified	80.2% (met prompt-aanpassing)
OSWorld (computer use)	Grote vooruitgang over 16 maanden
OfficeQA	Evenaart Opus 4.6
Vending-Bench Arena	Opkomende strategie van investering/pivot

Het computer use gaat aanzienlijk vooruit: Sonnet 4.6 verbetert ook de weerstand tegen prompt injections ten opzichte van Sonnet 4.5, en bereikt een niveau vergelijkbaar met Opus 4.6.

Bijbehorende productupdates

De aankondiging gaat gepaard met verschillende algemene beschikbaarheden op de Claude API: code-uitvoering, geheugen, programmatische tool calls, zoeken naar tools en voorbeelden van toolgebruik. Web search en fetch tools integreren nu dynamische filtering — Claude schrijft en voert automatisch code uit om zoekresultaten te filteren, waarbij alleen de relevante inhoud in de context wordt bewaard.

🔗 Verbeterde web search met dynamische filtering

Voor gebruikers van Claude in Excel ondersteunt de invoegtoepassing nu MCP connectoren (S&P Global, LSEG, Daloopa, PitchBook, Moody’s, FactSet), beschikbaar op de Pro, Max, Team en Enterprise abonnementen.

🔗 Officiële aankondiging

Anthropic meet de autonomie van AI-agents in reële omstandigheden

18 februari — Anthropic publiceert een studie die miljoenen interacties mens-agent analyseert via Claude Code en de publieke API, met als doel: begrijpen hoe mensen omgaan met de autonomie van agents in de praktijk.

Belangrijkste resultaten

Metriek	Waarde
Maximale autonome duur (99.9e percentiel)	~45 minuten (verdubbeld in 3 maanden)
Auto-approve (ervaren gebruikers)	40%+ (vs 20% voor nieuwe)
Aandeel software engineering in API-verkeer	~50%
Acties met vangrails	80%
Acties met mens in de loop	73%
Onomkeerbare acties	0.8%

Een contra-intuïtieve bevinding: ervaren gebruikers verhogen zowel de auto-approve-ratio ALS de onderbrekingsratio. Ze gaan van toezicht actie-per-actie naar actieve monitoring met gerichte interventie. Bovendien stopt Claude vaker om verduidelijking te vragen dan dat mensen hem onderbreken, vooral bij complexe taken.

De studie concludeert dat er een aanzienlijke kloof bestaat tussen capaciteit en gebruik: de autonomie die modellen aankunnen overstijgt ruimschoots wat we ze in de praktijk toevertrouwen — een fenomeen dat onderzoekers beschrijven als “overschot aan niet-ingezette autonomie”.

🔗 Volledige studie

Anthropic: partnerschappen Rwanda en Infosys

17 februari — Gelijktijdig met de lancering van Sonnet 4.6 ondertekent Anthropic een memorandum van overeenstemming met de overheid van Rwanda om Claude in te zetten in de gezondheidszorg, het onderwijs en de openbare administratie. Het partnerschap, geleid door het ministerie van ICT en Innovatie, omvat de opleiding van ambtenaren en de inzet van een AI-leermaatje in acht Afrikaanse landen.

Anthropic kondigt ook een samenwerking met Infosys aan om AI-agents te bouwen voor telecommunicatie en andere gereguleerde industrieën.

🔗 Partnerschap Rwanda

Qwen3.5-397B-A17B: eerste open-weight van de 3.5-serie

16 februari — Alibaba Qwen publiceert Qwen3.5-397B-A17B, het eerste open-weight model van de Qwen3.5-serie. Het is een aanzienlijke stap vooruit met een hybride architectuur die lineaire attentie en Mixture-of-Experts (MoE) combineert.

Kenmerk	Details
Totale parameters	397B (hybride MoE architectuur)
Architectuur	Hybride lineaire attentie + sparse MoE
Doorvoer	8.6x tot 19.0x hoger dan Qwen3-Max
Talen	201 talen en dialecten
Licentie	Apache 2.0
Training	Reinforcement learning op grote schaal
Specialiteit	Native multimodal, echte agents

Het model is onmiddellijk beschikbaar op Hugging Face, ModelScope, Alibaba Cloud Model Studio, en via Qwen Code. Met ondersteuning voor 201 talen en een Apache 2.0 licentie is het een van de meest ambitieuze open-weight modellen van dit moment wat betreft ta dekking en inferentie-doorvoer.

🔗 Tweet @Alibaba_Qwen

Google Lyria 3: muziekgeneratie komt naar Gemini

18 februari — Google en DeepMind presenteren Lyria 3, een AI-model voor muziekgeneratie dat direct in de Gemini-applicatie is geïntegreerd. Gebruikers kunnen muziektracks van 30 seconden maken op basis van tekstprompts, foto’s of video’s, met generatie van aangepaste songteksten.

Functionaliteit	Details
Input	Tekst, afbeeldingen, video’s
Output	Audiotracks van 30 seconden
Personalisatie	Diverse muziekstijlen, gegenereerde songteksten
Beschikbaarheid	Bèta in Gemini (18 jaar+)

Lyria 3 toont een opmerkelijke flexibiliteit in combinaties van instrumenten en genres, waardoor creaties variërend van jingles tot lo-fi composities mogelijk zijn. De wereldwijde uitrol vindt geleidelijk plaats.

🔗 Tweet @GoogleAI

OpenAI EVMbench: security benchmark voor smart contracts

18 februari — OpenAI en Paradigm lanceren EVMbench, een benchmark die het vermogen van AI-agents evalueert om kwetsbaarheden in Ethereum smart contracts te detecteren, corrigeren en exploiteren. De benchmark is gebaseerd op 120 gecureerde kwetsbaarheden uit 40 audits (voornamelijk Code4rena competities).

Modus	Beschrijving	GPT-5.3-Codex	GPT-5 (6 maanden)
Exploit	Uitvoeren van drainage-aanvallen	72.2%	31.9%
Detect	Auditen en detecteren van kwetsbaarheden	< volledige dekking	-
Patch	Corrigeren met behoud van functionaliteit	< volledige dekking	-

Een interessante bevinding: AI-agents presteren beter in exploitatie (expliciet doel) dan in detectie en correctie, waar ze vaak stoppen na de eerste gevonden kwetsbaarheid. OpenAI bevestigt opnieuw zijn toezegging van $10M in API-credits voor defensieve cyber security.

🔗 Aankondiging EVMbench

GLM-5 Technical Report: Z.ai documenteert zijn model

18 februari — Z.ai publiceert het volledige technische rapport van GLM-5, waarin de architecturale innovaties van het op 11 februari gelanceerde model worden beschreven (744B parameters, 40B actief, MIT License).

Drie belangrijke gedocumenteerde innovaties: Dynamic Sparse Attention (DSA) om trainings- en inferentiekosten te verlagen, een asynchrone RL-infrastructuur die generatie en training ontkoppelt, en RL-algoritmen voor agents die complexe interacties over lange termijn mogelijk maken. Het rapport is beschikbaar op arXiv.

🔗 Tweet @Zai_org · 🔗 arXiv

Cohere Labs Tiny Aya: ultra-compacte meertalige AI

17 februari — Cohere Labs presenteert Tiny Aya, een familie van kleine taalmodellen die 70+ talen ondersteunen met slechts 3.35 miljard parameters. Het doel: meertalige AI overal toegankelijk maken, ook op telefoons en offline.

Tiny Aya richt zich op drie doelgroepen: onderzoekers die werken in niet-Engelse talen, ontwikkelaars die bouwen voor digitaal achtergestelde gemeenschappen, en embedded applicaties die betrouwbare vertaling vereisen zonder afhankelijkheid van de cloud. Het model bevat offline vertaalcapaciteit, wat de privacy verbetert en de latentie vermindert.

🔗 Tweet @cohere

Runway Gen-4.5 beschikbaar via API + Claude Code Skill

17 februari — Runway opent toegang tot Gen-4.5 via zijn API, waarmee ontwikkelaars het genereren van afbeeldingen, video’s en audio direct in hun projecten kunnen integreren. De aankondiging gaat gepaard met een speciale Claude Code Skill, beschikbaar op GitHub, waarmee Runway-multimedia kan worden gegenereerd zonder de ontwikkelomgeving te verlaten.

🔗 Tweet @runwayml · 🔗 GitHub Skills

Manus Agents: persoonlijke agent met lange termijn geheugen

16 februari — Manus lanceert Manus Agents, een capaciteit waarmee elke gebruiker direct in chatgesprekken over een persoonlijke agent kan beschikken. De agent combineert lange termijn geheugen (onthouden stijl, toon en voorkeuren), volledige creatiemogelijkheden (video’s, slides, websites, afbeeldingen), en directe integraties met Gmail, Calendar en Notion.

🔗 Tweet @ManusAI

ElevenAgents for Support

17 februari — ElevenLabs lanceert ElevenAgents for Support, conversationele AI-agents voor klantenservice. Werkend via spraak en digitale kanalen in meer dan 70 talen, leunen deze agents op het agentic platform van ElevenLabs en zijn 4M+ implementaties in productie.

🔗 ElevenLabs Agents

NotebookLM x Zillow: vastgoed notebook

18 februari — NotebookLM lanceert in samenwerking met Zillow een gratis Featured Notebook voor huizenkopers, waarin advies van experts over financiële voorbereiding, marktevaluatie en aankoopprocedures wordt gecentraliseerd.

🔗 Tweet @NotebookLM

Wat dit betekent

Deze week illustreert twee belangrijke trends. De eerste is de democratisering van frontier-prestaties: Sonnet 4.6 brengt Opus-capaciteiten tegen een 5 keer lager tarief, terwijl Qwen3.5 een model van 397B parameters toegankelijk maakt onder Apache 2.0. De tweede is de uitbreiding van AI-agents naar nieuwe domeinen — de studie van Anthropic toont aan dat de langste autonome sessies in drie maanden zijn verdubbeld, en spelers als Manus, ElevenLabs en Runway bouwen gespecialiseerde agents (persoonlijke chat, klantenservice, multimedia creatie).

De komst van muziekgeneratie in Gemini met Lyria 3 en de EVMbench benchmark voor blockchain security tonen ook aan dat generatieve AI en security AI zich blijven structureren als volwaardige domeinen.