Anthropic lovește puternic cu Claude Sonnet 4.6, un model care rivalizează cu Opus la multe sarcini la un preț de Sonnet. În paralel, Qwen publică primul său model Qwen3.5 în open-weight cu 397 miliarde de parametri, iar Google integrează Lyria 3 — modelul său de generare muzicală — direct în Gemini.
Claude Sonnet 4.6: performanțe Opus la preț de Sonnet
17 februarie — Anthropic lansează Claude Sonnet 4.6, descris ca fiind cel mai capabil Sonnet de până acum. Modelul reprezintă un upgrade complet pe partea de coding, computer use, raționament pe context lung, planificare de agenți, muncă intelectuală și design. Include o fereastră de context de 1 milion de tokens în beta.
Poziționarea este clară: performanțe care ar fi necesitat un model Opus sunt acum accesibile la tariful Sonnet, adică 15 per milion de tokens (neschimbat față de Sonnet 4.5). Sonnet 4.6 devine modelul implicit pe planurile Free și Pro în claude.ai și Claude Cowork.
Benchmarks și feedback utilizatori
În Claude Code, testerii au preferat Sonnet 4.6 față de Sonnet 4.5 în aproximativ 70% din timp, raportând o citire mai bună a contextului înainte de modificarea codului și o consolidare a logicii partajate în loc de duplicare. Mai notabil: utilizatorii au preferat Sonnet 4.6 față de Opus 4.5 (modelul frontier din noiembrie 2025) în 59% din timp, citând mai puțină „lene” și o mai bună respectare a instrucțiunilor.
| Benchmark | Scor |
|---|---|
| SWE-bench Verified | 80.2% (cu modificare de prompt) |
| OSWorld (computer use) | Progres major în 16 luni |
| OfficeQA | Egalează Opus 4.6 |
| Vending-Bench Arena | Strategie emergentă de investiții/pivot |
Computer use progresează semnificativ: Sonnet 4.6 îmbunătățește, de asemenea, rezistența la prompt injections față de Sonnet 4.5, atingând un nivel comparabil cu Opus 4.6.
Actualizări de produs asociate
Anunțul este însoțit de mai multe disponibilități generale pe API-ul Claude: execuție de cod, memorie, apeluri de instrumente programatice, căutare de instrumente și exemple de utilizare a instrumentelor. Căutarea web și instrumentele fetch integrează acum filtrare dinamică — Claude scrie și execută automat cod pentru a filtra rezultatele căutării, păstrând în context doar conținutul relevant.
🔗 Căutare web îmbunătățită cu filtrare dinamică
Pentru utilizatorii Claude in Excel, add-in-ul suportă acum conectori MCP (S&P Global, LSEG, Daloopa, PitchBook, Moody’s, FactSet), disponibili pe planurile Pro, Max, Team și Enterprise.
Anthropic măsoară autonomia agenților AI în condiții reale
18 februarie — Anthropic publică un studiu care analizează milioane de interacțiuni om-agent prin Claude Code și API-ul public, cu un obiectiv: să înțeleagă cum gestionează oamenii autonomia agenților în practică.
Rezultate cheie
| Metrică | Valoare |
|---|---|
| Durata maximă autonomă (percentila 99.9) | ~45 minute (dublat în 3 luni) |
| Auto-approve (utilizatori experimentați) | 40%+ (vs 20% pentru cei noi) |
| Ponderea software engineering în traficul API | ~50% |
| Acțiuni cu bariere de protecție | 80% |
| Acțiuni cu om în buclă | 73% |
| Acțiuni ireversibile | 0.8% |
O constatare contraintuitivă: utilizatorii experimentați cresc atât rata de auto-approve, CÂT ȘI rata de întrerupere. Ei trec de la supraveghere acțiune-cu-acțiune la monitorizare activă cu intervenție țintită. De asemenea, Claude se oprește pentru a cere clarificări mai des decât îl întrerup oamenii, în special la sarcinile complexe.
Studiul concluzionează că există un decalaj semnificativ între capacitate și utilizare: autonomia pe care modelele o pot gestiona depășește cu mult ceea ce le acordăm în practică — un fenomen pe care cercetătorii îl descriu ca „surplus de autonomie nedesfășurată”.
Anthropic: parteneriate Rwanda și Infosys
17 februarie — În paralel cu lansarea Sonnet 4.6, Anthropic semnează un memorandum de înțelegere cu guvernul din Rwanda pentru a implementa Claude în sectoarele sănătății, educației și administrației publice. Parteneriatul, condus de Ministerul TIC și Inovării, include instruirea funcționarilor și implementarea unui partener de învățare AI în opt țări africane.
Anthropic anunță, de asemenea, o colaborare cu Infosys pentru a construi agenți AI pentru telecomunicații și alte industrii reglementate.
Qwen3.5-397B-A17B: primul open-weight din seria 3.5
16 februarie — Alibaba Qwen publică Qwen3.5-397B-A17B, primul model open-weight din seria Qwen3.5. Este un progres semnificativ cu o arhitectură hibridă care combină atenția liniară și Mixture-of-Experts (MoE).
| Caracteristică | Detalii |
|---|---|
| Parametri totali | 397B (arhitectură hibridă MoE) |
| Arhitectură | Atenție liniară hibridă + sparse MoE |
| Debit | 8.6x până la 19.0x mai mare decât Qwen3-Max |
| Limbi | 201 limbi și dialecte |
| Licență | Apache 2.0 |
| Antrenare | Învățare prin consolidare la scară largă |
| Specialitate | Multimodal nativ, agenți reali |
Modelul este disponibil imediat pe Hugging Face, ModelScope, Alibaba Cloud Model Studio și prin Qwen Code. Cu suport pentru 201 limbi și o licență Apache 2.0, este unul dintre cele mai ambițioase modele open-weight ale momentului în ceea ce privește acoperirea lingvistică și debitul de inferență.
Google Lyria 3: generarea muzicală ajunge în Gemini
18 februarie — Google și DeepMind prezintă Lyria 3, un model AI de generare muzicală integrat direct în aplicația Gemini. Utilizatorii pot crea piese muzicale de 30 de secunde din prompturi text, fotografii sau videoclipuri, cu generare de versuri personalizate.
| Funcționalitate | Detalii |
|---|---|
| Intrări | Text, imagini, videoclipuri |
| Ieșire | Piese audio de 30 de secunde |
| Personalizare | Stiluri muzicale variate, versuri generate |
| Disponibilitate | Beta în Gemini (18 ani+) |
Lyria 3 demonstrează o flexibilitate notabilă în combinațiile de instrumente și genuri, permițând creații care variază de la jingle-uri la compoziții lo-fi. Implementarea globală este progresivă.
OpenAI EVMbench: benchmark de securitate pentru smart contracts
18 februarie — OpenAI și Paradigm lansează EVMbench, un benchmark care evaluează capacitatea agenților AI de a detecta, corecta și exploata vulnerabilitățile în smart contracts Ethereum. Benchmark-ul se bazează pe 120 de vulnerabilități selectate din 40 de audituri (în principal competiții Code4rena).
| Mod | Descriere | GPT-5.3-Codex | GPT-5 (6 luni) |
|---|---|---|---|
| Exploit | Executarea atacurilor de drenaj | 72.2% | 31.9% |
| Detect | Auditarea și detectarea vulnerabilităților | < acoperire completă | - |
| Patch | Corectarea cu păstrarea funcționalității | < acoperire completă | - |
O constatare interesantă: agenții AI reușesc mai bine în exploatare (obiectiv explicit) decât în detectare și corectare, unde adesea renunță după prima vulnerabilitate găsită. OpenAI își reafirmă angajamentul de $10M în credite API pentru securitatea cibernetică defensivă.
GLM-5 Technical Report: Z.ai își documentează modelul
18 februarie — Z.ai publică raportul tehnic complet al GLM-5, detaliind inovațiile arhitecturale ale modelului lansat pe 11 februarie (744B parametri, 40B activi, licență MIT).
Trei inovații cheie documentate: Dynamic Sparse Attention (DSA) pentru reducerea costurilor de antrenare și inferență, o infrastructură RL asincronă care decuplează generarea și antrenarea, și algoritmi RL pentru agenți care permit interacțiuni complexe pe orizont lung. Raportul este disponibil pe arXiv.
🔗 Tweet @Zai_org · 🔗 arXiv
Cohere Labs Tiny Aya: AI multilingv ultra-compact
17 februarie — Cohere Labs prezintă Tiny Aya, o familie de modele de limbaj mici care suportă 70+ limbi cu doar 3.35 miliarde de parametri. Obiectivul: să facă AI-ul multilingv accesibil oriunde, inclusiv pe telefoane și offline.
Tiny Aya vizează trei tipuri de public: cercetătorii care lucrează în limbi non-engleze, dezvoltatorii care construiesc pentru comunități subdeservite digital și aplicațiile încorporate care necesită traducere fiabilă fără dependență de cloud. Modelul include capacitate de traducere offline, îmbunătățind confidențialitatea și reducând latența.
Runway Gen-4.5 disponibil prin API + Claude Code Skill
17 februarie — Runway deschide accesul la Gen-4.5 prin API-ul său, permițând dezvoltatorilor să integreze generarea de imagini, video și audio direct în proiectele lor. Anunțul este însoțit de un Claude Code Skill dedicat, disponibil pe GitHub, care permite generarea de conținut multimedia Runway fără a părăsi mediul de dezvoltare.
🔗 Tweet @runwayml · 🔗 GitHub Skills
Manus Agents: agent personal cu memorie pe termen lung
16 februarie — Manus lansează Manus Agents, o capacitate care permite fiecărui utilizator să dispună de un agent personal direct în conversațiile prin chat. Agentul combină memoria pe termen lung (reținerea stilului, tonului și preferințelor), capacități complete de creare (video, slide-uri, site-uri, imagini) și integrări directe cu Gmail, Calendar și Notion.
ElevenAgents for Support
17 februarie — ElevenLabs lansează ElevenAgents for Support, agenți conversaționali AI pentru suport clienți. Funcționând prin voce și canale digitale în peste 70 de limbi, acești agenți se bazează pe platforma agentic ElevenLabs și pe cele peste 4 milioane de implementări în producție.
NotebookLM x Zillow: notebook imobiliar
18 februarie — NotebookLM lansează în parteneriat cu Zillow un Featured Notebook gratuit pentru cumpărătorii de case, centralizând sfaturile experților privind pregătirea financiară, evaluarea pieței și procedurile de cumpărare.
Ce înseamnă asta
Această săptămână ilustrează două tendințe majore. Prima este democratizarea performanțelor frontier: Sonnet 4.6 aduce capacități Opus la un tarif de 5 ori mai mic, în timp ce Qwen3.5 face accesibil un model de 397B parametri sub Apache 2.0. A doua este expansiunea agenților AI în noi domenii — studiul Anthropic arată că cele mai lungi sesiuni autonome s-au dublat în trei luni, iar actori precum Manus, ElevenLabs și Runway construiesc agenți specializați (chat personal, suport clienți, creare multimedia).
Sosirea generării muzicale în Gemini cu Lyria 3 și benchmark-ul EVMbench pentru securitatea blockchain arată, de asemenea, că AI-ul generativ și AI-ul de securitate continuă să se structureze ca domenii de sine stătătoare.
Surse
- Introducing Claude Sonnet 4.6 — Anthropic
- Measuring AI agent autonomy in practice — Anthropic
- Anthropic + Rwanda MOU
- Qwen3.5-397B-A17B — @Alibaba_Qwen
- Lyria 3 — @GoogleAI
- EVMbench — OpenAI
- GLM-5 Technical Report — @Zai_org
- Tiny Aya — @cohere
- Runway Gen-4.5 API — @runwayml
- Manus Agents — @ManusAI
- ElevenAgents for Support — ElevenLabs
- NotebookLM x Zillow — @NotebookLM
- Căutare web îmbunătățită cu filtrare dinamică — Claude Blog
- Claude API improvements — @claudeai