Claude Sonnet 4.6, Qwen3.5-397B som open-weight, Google lanserar Lyria 3

Anthropic slår på stort med Claude Sonnet 4.6, en modell som konkurrerar med Opus på många uppgifter till ett Sonnet-pris. Samtidigt publicerar Qwen sin första Qwen3.5-modell som open-weight med 397 miljarder parametrar, och Google integrerar Lyria 3 — sin modell för musikgenerering — direkt i Gemini.

Claude Sonnet 4.6: Opus-prestanda till Sonnet-pris

17 februari — Anthropic lanserar Claude Sonnet 4.6, som beskrivs som den mest kapabla Sonnet hittills. Modellen representerar en fullständig uppgradering inom coding, computer use, resonemang med lång kontext, agent-planering, intellektuellt arbete och design. Den har ett kontextfönster på 1 miljon tokens i beta.

Positioneringen är tydlig: prestanda som skulle ha krävt en Opus-modell är nu tillgänglig till Sonnet-taxa, det vill säga $3 /$ 15 per miljon tokens (oförändrat jämfört med Sonnet 4.5). Sonnet 4.6 blir standardmodellen på Free- och Pro-planerna i claude.ai och Claude Cowork.

Benchmarks och användarfeedback

I Claude Code föredrog testare Sonnet 4.6 framför Sonnet 4.5 cirka 70% av tiden, och rapporterade bättre läsning av kontext innan kodändring och konsolidering av delad logik istället för att duplicera den. Ännu mer anmärkningsvärt: användare föredrog Sonnet 4.6 framför Opus 4.5 (frontiermodellen från november 2025) 59% av tiden, med hänvisning till mindre “lättja” och bättre instruktionsföljsamhet.

Benchmark	Poäng
SWE-bench Verified	80.2% (med prompt-ändring)
OSWorld (computer use)	Stora framsteg över 16 månader
OfficeQA	Matchar Opus 4.6
Vending-Bench Arena	Framväxande strategi för investering/pivot

Computer use går framåt avsevärt: Sonnet 4.6 förbättrar också motståndskraften mot prompt injections jämfört med Sonnet 4.5, och når en nivå jämförbar med Opus 4.6.

Relaterade produktuppdateringar

Lanseringen åtföljs av flera allmänna tillgängligheter på Claude API: kodexekvering, minne, programmatiska verktygsanrop, verktygssökning och exempel på verktygsanvändning. Web search och fetch-verktyg integrerar nu dynamisk filtrering — Claude skriver och kör automatiskt kod för att filtrera sökresultat, och behåller endast relevant innehåll i kontexten.

🔗 Förbättrad web search med dynamisk filtrering

För användare av Claude in Excel stöder tillägget nu MCP-anslutningar (S&P Global, LSEG, Daloopa, PitchBook, Moody’s, FactSet), tillgängligt på planerna Pro, Max, Team och Enterprise.

🔗 Officiellt tillkännagivande

Anthropic mäter AI-agenters autonomi i verkliga förhållanden

18 februari — Anthropic publicerar en studie som analyserar miljontals människa-agent-interaktioner genom Claude Code och det publika API:et, med målet: att förstå hur människor hanterar agenters autonomi i praktiken.

Nyckelresultat

Mätvärde	Värde
Maximal autonom varaktighet (99.9:e percentilen)	~45 minuter (fördubblat på 3 månader)
Auto-approve (vana användare)	40%+ (vs 20% för nya)
Andel software engineering i API-trafik	~50%
Åtgärder med skyddsräcken	80%
Åtgärder med människa i loopen	73%
Oåterkalleliga åtgärder	0.8%

En kontraintuitiv upptäckt: vana användare ökar både auto-approve-graden OCH avbrottsgraden. De går från övervakning åtgärd-för-åtgärd till aktiv övervakning med riktad intervention. Dessutom stannar Claude för att be om förtydliganden oftare än människor avbryter honom, särskilt vid komplexa uppgifter.

Studien drar slutsatsen att det finns en betydande klyfta mellan kapacitet och användning: den autonomi som modellerna klarar av överstiger vida den vi ger dem i praktiken — ett fenomen som forskare beskriver som “överskott av icke-utnyttjad autonomi”.

🔗 Fullständig studie

Anthropic: partnerskap Rwanda och Infosys

17 februari — Parallellt med lanseringen av Sonnet 4.6 undertecknar Anthropic ett samförståndsavtal med Rwandas regering för att distribuera Claude inom hälso- och sjukvård, utbildning och offentlig förvaltning. Partnerskapet, som leds av ministeriet för IKT och innovation, inkluderar utbildning av tjänstemän och utrullning av en AI-lärandekompis i åtta afrikanska länder.

Anthropic tillkännager också ett samarbete med Infosys för att bygga AI-agenter för telekommunikation och andra reglerade industrier.

🔗 Partnerskap Rwanda

Qwen3.5-397B-A17B: första open-weight i 3.5-serien

16 februari — Alibaba Qwen publicerar Qwen3.5-397B-A17B, den första open-weight-modellen i Qwen3.5-serien. Det är ett betydande framsteg med en hybridarkitektur som kombinerar linjär uppmärksamhet och Mixture-of-Experts (MoE).

Egenskap	Detaljer
Totala parametrar	397B (hybrid MoE-arkitektur)
Arkitektur	Hybrid linjär uppmärksamhet + sparse MoE
Genomströmning	8.6x till 19.0x högre än Qwen3-Max
Språk	201 språk och dialekter
Licens	Apache 2.0
Träning	Reinforcement learning i stor skala
Specialitet	Inbyggd multimodal, verkliga agenter

Modellen är tillgänglig omedelbart på Hugging Face, ModelScope, Alibaba Cloud Model Studio, och via Qwen Code. Med stöd för 201 språk och en Apache 2.0-licens är det en av de mest ambitiösa open-weight-modellerna just nu när det gäller språktäckning och inferens-genomströmning.

🔗 Tweet @Alibaba_Qwen

Google Lyria 3: musikgenerering kommer till Gemini

18 februari — Google och DeepMind presenterar Lyria 3, en AI-modell för musikgenerering integrerad direkt i Gemini-applikationen. Användare kan skapa 30 sekunders musikspår från textprompts, foton eller videor, med generering av anpassade sångtexter.

Funktionalitet	Detaljer
Input	Text, bilder, videor
Output	30 sekunders ljudspår
Personalisering	Varierande musikstilar, genererade texter
Tillgänglighet	Beta i Gemini (18 år+)

Lyria 3 visar en anmärkningsvärd flexibilitet i kombinationer av instrument och genrer, vilket möjliggör skapelser från jinglar till lo-fi-kompositioner. Den globala utrullningen sker gradvis.

🔗 Tweet @GoogleAI

OpenAI EVMbench: säkerhetsbenchmark för smart contracts

18 februari — OpenAI och Paradigm lanserar EVMbench, ett benchmark som utvärderar AI-agenters förmåga att upptäcka, korrigera och utnyttja sårbarheter i Ethereum smart contracts. Benchmarket baseras på 120 utvalda sårbarheter från 40 revisioner (främst Code4rena-tävlingar).

Läge	Beskrivning	GPT-5.3-Codex	GPT-5 (6 månader)
Exploit	Utföra tömningsattacker	72.2%	31.9%
Detect	Granska och upptäcka sårbarheter	< fullständig täckning	-
Patch	Korrigera med bibehållen funktionalitet	< fullständig täckning	-

En intressant iakttagelse: AI-agenter presterar bättre på exploatering (explicit mål) än på upptäckt och korrigering, där de ofta ger upp efter den första hittade sårbarheten. OpenAI bekräftar sitt åtagande på $10M i API-krediter för defensiv cybersäkerhet.

🔗 Tillkännagivande EVMbench

GLM-5 Technical Report: Z.ai dokumenterar sin modell

18 februari — Z.ai publicerar den fullständiga tekniska rapporten för GLM-5, som beskriver de arkitektoniska innovationerna hos modellen som lanserades den 11 februari (744B parametrar, 40B aktiva, MIT License).

Tre viktiga dokumenterade innovationer: Dynamic Sparse Attention (DSA) för att minska tränings- och inferenskostnader, en asynkron RL-infrastructuur som frikopplar generering och träning, och RL-algoritmer för agenter som möjliggör komplexa interaktioner över långa tidshorisonter. Rapporten finns tillgänglig på arXiv.

🔗 Tweet @Zai_org · 🔗 arXiv

Cohere Labs Tiny Aya: ultrakompakt flerspråkig AI

17 februari — Cohere Labs presenterar Tiny Aya, en familj av små språkmodeller som stöder 70+ språk med bara 3.35 miljarder parametrar. Målet: att göra flerspråkig AI tillgänglig överallt, inklusive på telefoner och offline.

Tiny Aya riktar sig till tre målgrupper: forskare som arbetar på icke-engelska språk, utvecklare som bygger för digitalt underförsörjda samhällen, och inbäddade applikationer som kräver tillförlitlig översättning utan beroende av molnet. Modellen inkluderar offline-översättningskapacitet, vilket förbättrar integriteten och minskar latensen.

🔗 Tweet @cohere

Runway Gen-4.5 tillgängligt via API + Claude Code Skill

17 februari — Runway öppnar åtkomst till Gen-4.5 via sitt API, vilket gör det möjligt för utvecklare att integrera generering av bilder, video och ljud direkt i sina projekt. Lanseringen åtföljs av en dedikerad Claude Code Skill, tillgänglig på GitHub, som gör det möjligt att generera Runway-multimedia utan att lämna utvecklingsmiljön.

🔗 Tweet @runwayml · 🔗 GitHub Skills

Manus Agents: personlig agent med långtidsminne

16 februari — Manus lanserar Manus Agents, en funktion som gör det möjligt för varje användare att ha en personlig agent direkt i chattkonversationer. Agenten kombinerar långtidsminne (kommer ihåg stil, ton och preferenser), fullständiga skapandemöjligheter (videor, slides, webbplatser, bilder), och direkta integrationer med Gmail, Calendar och Notion.

🔗 Tweet @ManusAI

ElevenAgents for Support

17 februari — ElevenLabs lanserar ElevenAgents for Support, konversationella AI-agenter för kundtjänst. Dessa agenter fungerar via röst och digitala kanaler på över 70 språk och bygger på ElevenLabs agentic-plattform och dess 4M+ produktionsinstallationer.

🔗 ElevenLabs Agents

NotebookLM x Zillow: fastighets-notebook

18 februari — NotebookLM lanserar i samarbete med Zillow en gratis Featured Notebook för husköpare, som centraliserar expertråd om ekonomisk förberedelse, marknadsvärdering och köpprocesser.

🔗 Tweet @NotebookLM

Vad detta betyder

Denna vecka illustrerar två stora trender. Den första är demokratiseringen av frontier-prestanda: Sonnet 4.6 ger Opus-kapacitet till ett pris som är 5 gånger lägre, medan Qwen3.5 gör en modell med 397B parametrar tillgänglig under Apache 2.0. Den andra är expansionen av AI-agenter till nya områden — studien från Anthropic visar att de längsta autonoma sessionerna har fördubblats på tre månader, och aktörer som Manus, ElevenLabs och Runway bygger specialiserade agenter (personlig chatt, kundtjänst, multimediaskapande).

Ankomsten av musikgenerering i Gemini med Lyria 3 och EVMbench-benchmarket för blockchain-säkerhet visar också att generativ AI och säkerhets-AI fortsätter att strukturera sig som egna områden.