Claude Sonnet 4.6, Qwen3.5-397B în open-weight, Google lansează Lyria 3

Anthropic lovește puternic cu Claude Sonnet 4.6, un model care rivalizează cu Opus la multe sarcini la un preț de Sonnet. În paralel, Qwen publică primul său model Qwen3.5 în open-weight cu 397 miliarde de parametri, iar Google integrează Lyria 3 — modelul său de generare muzicală — direct în Gemini.

Claude Sonnet 4.6: performanțe Opus la preț de Sonnet

17 februarie — Anthropic lansează Claude Sonnet 4.6, descris ca fiind cel mai capabil Sonnet de până acum. Modelul reprezintă un upgrade complet pe partea de coding, computer use, raționament pe context lung, planificare de agenți, muncă intelectuală și design. Include o fereastră de context de 1 milion de tokens în beta.

Poziționarea este clară: performanțe care ar fi necesitat un model Opus sunt acum accesibile la tariful Sonnet, adică $3 /$ 15 per milion de tokens (neschimbat față de Sonnet 4.5). Sonnet 4.6 devine modelul implicit pe planurile Free și Pro în claude.ai și Claude Cowork.

Benchmarks și feedback utilizatori

În Claude Code, testerii au preferat Sonnet 4.6 față de Sonnet 4.5 în aproximativ 70% din timp, raportând o citire mai bună a contextului înainte de modificarea codului și o consolidare a logicii partajate în loc de duplicare. Mai notabil: utilizatorii au preferat Sonnet 4.6 față de Opus 4.5 (modelul frontier din noiembrie 2025) în 59% din timp, citând mai puțină „lene” și o mai bună respectare a instrucțiunilor.

Benchmark	Scor
SWE-bench Verified	80.2% (cu modificare de prompt)
OSWorld (computer use)	Progres major în 16 luni
OfficeQA	Egalează Opus 4.6
Vending-Bench Arena	Strategie emergentă de investiții/pivot

Computer use progresează semnificativ: Sonnet 4.6 îmbunătățește, de asemenea, rezistența la prompt injections față de Sonnet 4.5, atingând un nivel comparabil cu Opus 4.6.

Actualizări de produs asociate

Anunțul este însoțit de mai multe disponibilități generale pe API-ul Claude: execuție de cod, memorie, apeluri de instrumente programatice, căutare de instrumente și exemple de utilizare a instrumentelor. Căutarea web și instrumentele fetch integrează acum filtrare dinamică — Claude scrie și execută automat cod pentru a filtra rezultatele căutării, păstrând în context doar conținutul relevant.

🔗 Căutare web îmbunătățită cu filtrare dinamică

Pentru utilizatorii Claude in Excel, add-in-ul suportă acum conectori MCP (S&P Global, LSEG, Daloopa, PitchBook, Moody’s, FactSet), disponibili pe planurile Pro, Max, Team și Enterprise.

🔗 Anunț oficial

Anthropic măsoară autonomia agenților AI în condiții reale

18 februarie — Anthropic publică un studiu care analizează milioane de interacțiuni om-agent prin Claude Code și API-ul public, cu un obiectiv: să înțeleagă cum gestionează oamenii autonomia agenților în practică.

Rezultate cheie

Metrică	Valoare
Durata maximă autonomă (percentila 99.9)	~45 minute (dublat în 3 luni)
Auto-approve (utilizatori experimentați)	40%+ (vs 20% pentru cei noi)
Ponderea software engineering în traficul API	~50%
Acțiuni cu bariere de protecție	80%
Acțiuni cu om în buclă	73%
Acțiuni ireversibile	0.8%

O constatare contraintuitivă: utilizatorii experimentați cresc atât rata de auto-approve, CÂT ȘI rata de întrerupere. Ei trec de la supraveghere acțiune-cu-acțiune la monitorizare activă cu intervenție țintită. De asemenea, Claude se oprește pentru a cere clarificări mai des decât îl întrerup oamenii, în special la sarcinile complexe.

Studiul concluzionează că există un decalaj semnificativ între capacitate și utilizare: autonomia pe care modelele o pot gestiona depășește cu mult ceea ce le acordăm în practică — un fenomen pe care cercetătorii îl descriu ca „surplus de autonomie nedesfășurată”.

🔗 Studiu complet

Anthropic: parteneriate Rwanda și Infosys

17 februarie — În paralel cu lansarea Sonnet 4.6, Anthropic semnează un memorandum de înțelegere cu guvernul din Rwanda pentru a implementa Claude în sectoarele sănătății, educației și administrației publice. Parteneriatul, condus de Ministerul TIC și Inovării, include instruirea funcționarilor și implementarea unui partener de învățare AI în opt țări africane.

Anthropic anunță, de asemenea, o colaborare cu Infosys pentru a construi agenți AI pentru telecomunicații și alte industrii reglementate.

🔗 Parteneriat Rwanda

Qwen3.5-397B-A17B: primul open-weight din seria 3.5

16 februarie — Alibaba Qwen publică Qwen3.5-397B-A17B, primul model open-weight din seria Qwen3.5. Este un progres semnificativ cu o arhitectură hibridă care combină atenția liniară și Mixture-of-Experts (MoE).

Caracteristică	Detalii
Parametri totali	397B (arhitectură hibridă MoE)
Arhitectură	Atenție liniară hibridă + sparse MoE
Debit	8.6x până la 19.0x mai mare decât Qwen3-Max
Limbi	201 limbi și dialecte
Licență	Apache 2.0
Antrenare	Învățare prin consolidare la scară largă
Specialitate	Multimodal nativ, agenți reali

Modelul este disponibil imediat pe Hugging Face, ModelScope, Alibaba Cloud Model Studio și prin Qwen Code. Cu suport pentru 201 limbi și o licență Apache 2.0, este unul dintre cele mai ambițioase modele open-weight ale momentului în ceea ce privește acoperirea lingvistică și debitul de inferență.

🔗 Tweet @Alibaba_Qwen

Google Lyria 3: generarea muzicală ajunge în Gemini

18 februarie — Google și DeepMind prezintă Lyria 3, un model AI de generare muzicală integrat direct în aplicația Gemini. Utilizatorii pot crea piese muzicale de 30 de secunde din prompturi text, fotografii sau videoclipuri, cu generare de versuri personalizate.

Funcționalitate	Detalii
Intrări	Text, imagini, videoclipuri
Ieșire	Piese audio de 30 de secunde
Personalizare	Stiluri muzicale variate, versuri generate
Disponibilitate	Beta în Gemini (18 ani+)

Lyria 3 demonstrează o flexibilitate notabilă în combinațiile de instrumente și genuri, permițând creații care variază de la jingle-uri la compoziții lo-fi. Implementarea globală este progresivă.

🔗 Tweet @GoogleAI

OpenAI EVMbench: benchmark de securitate pentru smart contracts

18 februarie — OpenAI și Paradigm lansează EVMbench, un benchmark care evaluează capacitatea agenților AI de a detecta, corecta și exploata vulnerabilitățile în smart contracts Ethereum. Benchmark-ul se bazează pe 120 de vulnerabilități selectate din 40 de audituri (în principal competiții Code4rena).

Mod	Descriere	GPT-5.3-Codex	GPT-5 (6 luni)
Exploit	Executarea atacurilor de drenaj	72.2%	31.9%
Detect	Auditarea și detectarea vulnerabilităților	< acoperire completă	-
Patch	Corectarea cu păstrarea funcționalității	< acoperire completă	-

O constatare interesantă: agenții AI reușesc mai bine în exploatare (obiectiv explicit) decât în detectare și corectare, unde adesea renunță după prima vulnerabilitate găsită. OpenAI își reafirmă angajamentul de $10M în credite API pentru securitatea cibernetică defensivă.

🔗 Anunț EVMbench

GLM-5 Technical Report: Z.ai își documentează modelul

18 februarie — Z.ai publică raportul tehnic complet al GLM-5, detaliind inovațiile arhitecturale ale modelului lansat pe 11 februarie (744B parametri, 40B activi, licență MIT).

Trei inovații cheie documentate: Dynamic Sparse Attention (DSA) pentru reducerea costurilor de antrenare și inferență, o infrastructură RL asincronă care decuplează generarea și antrenarea, și algoritmi RL pentru agenți care permit interacțiuni complexe pe orizont lung. Raportul este disponibil pe arXiv.

🔗 Tweet @Zai_org · 🔗 arXiv

Cohere Labs Tiny Aya: AI multilingv ultra-compact

17 februarie — Cohere Labs prezintă Tiny Aya, o familie de modele de limbaj mici care suportă 70+ limbi cu doar 3.35 miliarde de parametri. Obiectivul: să facă AI-ul multilingv accesibil oriunde, inclusiv pe telefoane și offline.

Tiny Aya vizează trei tipuri de public: cercetătorii care lucrează în limbi non-engleze, dezvoltatorii care construiesc pentru comunități subdeservite digital și aplicațiile încorporate care necesită traducere fiabilă fără dependență de cloud. Modelul include capacitate de traducere offline, îmbunătățind confidențialitatea și reducând latența.

🔗 Tweet @cohere

Runway Gen-4.5 disponibil prin API + Claude Code Skill

17 februarie — Runway deschide accesul la Gen-4.5 prin API-ul său, permițând dezvoltatorilor să integreze generarea de imagini, video și audio direct în proiectele lor. Anunțul este însoțit de un Claude Code Skill dedicat, disponibil pe GitHub, care permite generarea de conținut multimedia Runway fără a părăsi mediul de dezvoltare.

🔗 Tweet @runwayml · 🔗 GitHub Skills

Manus Agents: agent personal cu memorie pe termen lung

16 februarie — Manus lansează Manus Agents, o capacitate care permite fiecărui utilizator să dispună de un agent personal direct în conversațiile prin chat. Agentul combină memoria pe termen lung (reținerea stilului, tonului și preferințelor), capacități complete de creare (video, slide-uri, site-uri, imagini) și integrări directe cu Gmail, Calendar și Notion.

🔗 Tweet @ManusAI

ElevenAgents for Support

17 februarie — ElevenLabs lansează ElevenAgents for Support, agenți conversaționali AI pentru suport clienți. Funcționând prin voce și canale digitale în peste 70 de limbi, acești agenți se bazează pe platforma agentic ElevenLabs și pe cele peste 4 milioane de implementări în producție.

🔗 ElevenLabs Agents

NotebookLM x Zillow: notebook imobiliar

18 februarie — NotebookLM lansează în parteneriat cu Zillow un Featured Notebook gratuit pentru cumpărătorii de case, centralizând sfaturile experților privind pregătirea financiară, evaluarea pieței și procedurile de cumpărare.

🔗 Tweet @NotebookLM

Ce înseamnă asta

Această săptămână ilustrează două tendințe majore. Prima este democratizarea performanțelor frontier: Sonnet 4.6 aduce capacități Opus la un tarif de 5 ori mai mic, în timp ce Qwen3.5 face accesibil un model de 397B parametri sub Apache 2.0. A doua este expansiunea agenților AI în noi domenii — studiul Anthropic arată că cele mai lungi sesiuni autonome s-au dublat în trei luni, iar actori precum Manus, ElevenLabs și Runway construiesc agenți specializați (chat personal, suport clienți, creare multimedia).

Sosirea generării muzicale în Gemini cu Lyria 3 și benchmark-ul EVMbench pentru securitatea blockchain arată, de asemenea, că AI-ul generativ și AI-ul de securitate continuă să se structureze ca domenii de sine stătătoare.