Anthropic slaat hard toe met Claude Sonnet 4.6, een model dat concurreert met Opus op veel taken voor een Sonnet-prijs. Tegelijkertijd publiceert Qwen zijn eerste Qwen3.5 model in open-weight met 397 miljard parameters, en Google integreert Lyria 3 — zijn model voor muziekgeneratie — direct in Gemini.
Claude Sonnet 4.6: Opus-prestaties voor de Sonnet-prijs
17 februari — Anthropic lanceert Claude Sonnet 4.6, beschreven als de meest capabele Sonnet tot nu toe. Het model vertegenwoordigt een volledige upgrade op het gebied van coding, computer use, redeneren met lange context, planning van agents, intellectueel werk en design. Het bevat een contextvenster van 1 miljoen tokens in bèta.
De positionering is duidelijk: prestaties die een Opus-model zouden vereisen, zijn nu toegankelijk tegen het Sonnet-tarief, namelijk 15 per miljoen tokens (ongewijzigd ten opzichte van Sonnet 4.5). Sonnet 4.6 wordt het standaardmodel op de Free- en Pro-abonnementen in claude.ai en Claude Cowork.
Benchmarks en gebruikersfeedback
In Claude Code gaven testers in ongeveer 70% van de gevallen de voorkeur aan Sonnet 4.6 boven Sonnet 4.5, en rapporteerden een betere contextlezing vóór codewijziging en een consolidatie van gedeelde logica in plaats van duplicatie. Nog opmerkelijker: gebruikers gaven in 59% van de gevallen de voorkeur aan Sonnet 4.6 boven Opus 4.5 (het frontier-model van november 2025), met minder “luiheid” en betere opvolging van instructies als redenen.
| Benchmark | Score |
|---|---|
| SWE-bench Verified | 80.2% (met prompt-aanpassing) |
| OSWorld (computer use) | Grote vooruitgang over 16 maanden |
| OfficeQA | Evenaart Opus 4.6 |
| Vending-Bench Arena | Opkomende strategie van investering/pivot |
Het computer use gaat aanzienlijk vooruit: Sonnet 4.6 verbetert ook de weerstand tegen prompt injections ten opzichte van Sonnet 4.5, en bereikt een niveau vergelijkbaar met Opus 4.6.
Bijbehorende productupdates
De aankondiging gaat gepaard met verschillende algemene beschikbaarheden op de Claude API: code-uitvoering, geheugen, programmatische tool calls, zoeken naar tools en voorbeelden van toolgebruik. Web search en fetch tools integreren nu dynamische filtering — Claude schrijft en voert automatisch code uit om zoekresultaten te filteren, waarbij alleen de relevante inhoud in de context wordt bewaard.
🔗 Verbeterde web search met dynamische filtering
Voor gebruikers van Claude in Excel ondersteunt de invoegtoepassing nu MCP connectoren (S&P Global, LSEG, Daloopa, PitchBook, Moody’s, FactSet), beschikbaar op de Pro, Max, Team en Enterprise abonnementen.
Anthropic meet de autonomie van AI-agents in reële omstandigheden
18 februari — Anthropic publiceert een studie die miljoenen interacties mens-agent analyseert via Claude Code en de publieke API, met als doel: begrijpen hoe mensen omgaan met de autonomie van agents in de praktijk.
Belangrijkste resultaten
| Metriek | Waarde |
|---|---|
| Maximale autonome duur (99.9e percentiel) | ~45 minuten (verdubbeld in 3 maanden) |
| Auto-approve (ervaren gebruikers) | 40%+ (vs 20% voor nieuwe) |
| Aandeel software engineering in API-verkeer | ~50% |
| Acties met vangrails | 80% |
| Acties met mens in de loop | 73% |
| Onomkeerbare acties | 0.8% |
Een contra-intuïtieve bevinding: ervaren gebruikers verhogen zowel de auto-approve-ratio ALS de onderbrekingsratio. Ze gaan van toezicht actie-per-actie naar actieve monitoring met gerichte interventie. Bovendien stopt Claude vaker om verduidelijking te vragen dan dat mensen hem onderbreken, vooral bij complexe taken.
De studie concludeert dat er een aanzienlijke kloof bestaat tussen capaciteit en gebruik: de autonomie die modellen aankunnen overstijgt ruimschoots wat we ze in de praktijk toevertrouwen — een fenomeen dat onderzoekers beschrijven als “overschot aan niet-ingezette autonomie”.
Anthropic: partnerschappen Rwanda en Infosys
17 februari — Gelijktijdig met de lancering van Sonnet 4.6 ondertekent Anthropic een memorandum van overeenstemming met de overheid van Rwanda om Claude in te zetten in de gezondheidszorg, het onderwijs en de openbare administratie. Het partnerschap, geleid door het ministerie van ICT en Innovatie, omvat de opleiding van ambtenaren en de inzet van een AI-leermaatje in acht Afrikaanse landen.
Anthropic kondigt ook een samenwerking met Infosys aan om AI-agents te bouwen voor telecommunicatie en andere gereguleerde industrieën.
Qwen3.5-397B-A17B: eerste open-weight van de 3.5-serie
16 februari — Alibaba Qwen publiceert Qwen3.5-397B-A17B, het eerste open-weight model van de Qwen3.5-serie. Het is een aanzienlijke stap vooruit met een hybride architectuur die lineaire attentie en Mixture-of-Experts (MoE) combineert.
| Kenmerk | Details |
|---|---|
| Totale parameters | 397B (hybride MoE architectuur) |
| Architectuur | Hybride lineaire attentie + sparse MoE |
| Doorvoer | 8.6x tot 19.0x hoger dan Qwen3-Max |
| Talen | 201 talen en dialecten |
| Licentie | Apache 2.0 |
| Training | Reinforcement learning op grote schaal |
| Specialiteit | Native multimodal, echte agents |
Het model is onmiddellijk beschikbaar op Hugging Face, ModelScope, Alibaba Cloud Model Studio, en via Qwen Code. Met ondersteuning voor 201 talen en een Apache 2.0 licentie is het een van de meest ambitieuze open-weight modellen van dit moment wat betreft ta dekking en inferentie-doorvoer.
Google Lyria 3: muziekgeneratie komt naar Gemini
18 februari — Google en DeepMind presenteren Lyria 3, een AI-model voor muziekgeneratie dat direct in de Gemini-applicatie is geïntegreerd. Gebruikers kunnen muziektracks van 30 seconden maken op basis van tekstprompts, foto’s of video’s, met generatie van aangepaste songteksten.
| Functionaliteit | Details |
|---|---|
| Input | Tekst, afbeeldingen, video’s |
| Output | Audiotracks van 30 seconden |
| Personalisatie | Diverse muziekstijlen, gegenereerde songteksten |
| Beschikbaarheid | Bèta in Gemini (18 jaar+) |
Lyria 3 toont een opmerkelijke flexibiliteit in combinaties van instrumenten en genres, waardoor creaties variërend van jingles tot lo-fi composities mogelijk zijn. De wereldwijde uitrol vindt geleidelijk plaats.
OpenAI EVMbench: security benchmark voor smart contracts
18 februari — OpenAI en Paradigm lanceren EVMbench, een benchmark die het vermogen van AI-agents evalueert om kwetsbaarheden in Ethereum smart contracts te detecteren, corrigeren en exploiteren. De benchmark is gebaseerd op 120 gecureerde kwetsbaarheden uit 40 audits (voornamelijk Code4rena competities).
| Modus | Beschrijving | GPT-5.3-Codex | GPT-5 (6 maanden) |
|---|---|---|---|
| Exploit | Uitvoeren van drainage-aanvallen | 72.2% | 31.9% |
| Detect | Auditen en detecteren van kwetsbaarheden | < volledige dekking | - |
| Patch | Corrigeren met behoud van functionaliteit | < volledige dekking | - |
Een interessante bevinding: AI-agents presteren beter in exploitatie (expliciet doel) dan in detectie en correctie, waar ze vaak stoppen na de eerste gevonden kwetsbaarheid. OpenAI bevestigt opnieuw zijn toezegging van $10M in API-credits voor defensieve cyber security.
GLM-5 Technical Report: Z.ai documenteert zijn model
18 februari — Z.ai publiceert het volledige technische rapport van GLM-5, waarin de architecturale innovaties van het op 11 februari gelanceerde model worden beschreven (744B parameters, 40B actief, MIT License).
Drie belangrijke gedocumenteerde innovaties: Dynamic Sparse Attention (DSA) om trainings- en inferentiekosten te verlagen, een asynchrone RL-infrastructuur die generatie en training ontkoppelt, en RL-algoritmen voor agents die complexe interacties over lange termijn mogelijk maken. Het rapport is beschikbaar op arXiv.
🔗 Tweet @Zai_org · 🔗 arXiv
Cohere Labs Tiny Aya: ultra-compacte meertalige AI
17 februari — Cohere Labs presenteert Tiny Aya, een familie van kleine taalmodellen die 70+ talen ondersteunen met slechts 3.35 miljard parameters. Het doel: meertalige AI overal toegankelijk maken, ook op telefoons en offline.
Tiny Aya richt zich op drie doelgroepen: onderzoekers die werken in niet-Engelse talen, ontwikkelaars die bouwen voor digitaal achtergestelde gemeenschappen, en embedded applicaties die betrouwbare vertaling vereisen zonder afhankelijkheid van de cloud. Het model bevat offline vertaalcapaciteit, wat de privacy verbetert en de latentie vermindert.
Runway Gen-4.5 beschikbaar via API + Claude Code Skill
17 februari — Runway opent toegang tot Gen-4.5 via zijn API, waarmee ontwikkelaars het genereren van afbeeldingen, video’s en audio direct in hun projecten kunnen integreren. De aankondiging gaat gepaard met een speciale Claude Code Skill, beschikbaar op GitHub, waarmee Runway-multimedia kan worden gegenereerd zonder de ontwikkelomgeving te verlaten.
🔗 Tweet @runwayml · 🔗 GitHub Skills
Manus Agents: persoonlijke agent met lange termijn geheugen
16 februari — Manus lanceert Manus Agents, een capaciteit waarmee elke gebruiker direct in chatgesprekken over een persoonlijke agent kan beschikken. De agent combineert lange termijn geheugen (onthouden stijl, toon en voorkeuren), volledige creatiemogelijkheden (video’s, slides, websites, afbeeldingen), en directe integraties met Gmail, Calendar en Notion.
ElevenAgents for Support
17 februari — ElevenLabs lanceert ElevenAgents for Support, conversationele AI-agents voor klantenservice. Werkend via spraak en digitale kanalen in meer dan 70 talen, leunen deze agents op het agentic platform van ElevenLabs en zijn 4M+ implementaties in productie.
NotebookLM x Zillow: vastgoed notebook
18 februari — NotebookLM lanceert in samenwerking met Zillow een gratis Featured Notebook voor huizenkopers, waarin advies van experts over financiële voorbereiding, marktevaluatie en aankoopprocedures wordt gecentraliseerd.
Wat dit betekent
Deze week illustreert twee belangrijke trends. De eerste is de democratisering van frontier-prestaties: Sonnet 4.6 brengt Opus-capaciteiten tegen een 5 keer lager tarief, terwijl Qwen3.5 een model van 397B parameters toegankelijk maakt onder Apache 2.0. De tweede is de uitbreiding van AI-agents naar nieuwe domeinen — de studie van Anthropic toont aan dat de langste autonome sessies in drie maanden zijn verdubbeld, en spelers als Manus, ElevenLabs en Runway bouwen gespecialiseerde agents (persoonlijke chat, klantenservice, multimedia creatie).
De komst van muziekgeneratie in Gemini met Lyria 3 en de EVMbench benchmark voor blockchain security tonen ook aan dat generatieve AI en security AI zich blijven structureren als volwaardige domeinen.
Bronnen
- Introducing Claude Sonnet 4.6 — Anthropic
- Measuring AI agent autonomy in practice — Anthropic
- Anthropic + Rwanda MOU
- Qwen3.5-397B-A17B — @Alibaba_Qwen
- Lyria 3 — @GoogleAI
- EVMbench — OpenAI
- GLM-5 Technical Report — @Zai_org
- Tiny Aya — @cohere
- Runway Gen-4.5 API — @runwayml
- Manus Agents — @ManusAI
- ElevenAgents for Support — ElevenLabs
- NotebookLM x Zillow — @NotebookLM
- Verbeterde web search met dynamische filtering — Claude Blog
- Claude API improvements — @claudeai