Căutare

GLM-5 open-source, Raport de Risc de Sabotaj ASL-4, OpenAI lansează primitive agentice

GLM-5 open-source, Raport de Risc de Sabotaj ASL-4, OpenAI lansează primitive agentice

Z.ai lansează GLM-5, noul său model flagship open-source cu 744 miliarde de parametri sub licență MIT, care urcă pe primul loc între modelele open-source la coding și sarcini agentice. Anthropic publică un raport de risc de sabotaj ASL-4 pentru Opus 4.6, OpenAI își îmbogățește API-ul cu primitive agentice, și Kimi dezvăluie un sistem de 100 sub-agenți paraleli. Pe partea de ecosistem, Runway strânge 315 milioane de dolari și ElevenLabs lansează un mod expresiv pentru agenții săi vocali.


Z.ai lansează GLM-5: 744B parametri, open-source sub licență MIT

11 februarie — Z.ai (Zhipu AI) lansează GLM-5, noul său model frontier conceput pentru ingineria sistemelor complexe și sarcini agentice de lungă durată. Față de GLM-4.5, modelul crește de la 355B parametri (32B activi) la 744B parametri (40B activi), cu date de pre-antrenare care cresc de la 23T la 28,5T tokeni.

GLM-5 integrează DeepSeek Sparse Attention (DSA) pentru a reduce costurile de implementare păstrând în același timp capacitatea de context lung, și introduce “slime”, o infrastructură de învățare prin consolidare asincronă care îmbunătățește randamentul post-antrenament.

BenchmarkGLM-5GLM-4.7Kimi K2.5Claude Opus 4.5Gemini 3 Pro
SWE-bench Verified77,8%73,8%76,8%80,9%76,2%
HLE (text)30,524,831,528,437,2
HLE w/ Tools50,442,851,843,445,8
Terminal-Bench 2.056,241,050,859,354,2
Vending Bench 2$4 432$2 377$1 198$4 967$5 478

GLM-5 se poziționează ca cel mai bun model open-source la raționament, coding și sarcini agentice, reducând decalajul față de modelele frontier proprietare. Pe Vending Bench 2, un benchmark care simulează gestionarea unui automat timp de un an, GLM-5 termină cu un sold de 4432,apropiindusedeClaudeOpus4.5(4 432, apropiindu-se de Claude Opus 4.5 (4 967).

Dincolo de cod, GLM-5 poate genera direct fișiere .docx, .pdf și .xlsx — propuneri, rapoarte financiare, foi de calcul — livrate la cheie. Z.ai implementează un mod Agent cu abilități integrate pentru crearea de documente, suportând colaborarea multi-tur.

Ponderile modelului sunt publicate pe Hugging Face sub licență MIT. GLM-5 este compatibil cu Claude Code și OpenClaw, și disponibil pe OpenRouter. Implementarea este progresivă, începând cu abonații Coding Plan Max.

🔗 Blog tehnic GLM-5 🔗 Anunț pe X


Anthropic publică primul raport de risc de sabotaj ASL-4

11 februarie — Anthropic publică un raport de risc de sabotaj pentru Claude Opus 4.6, în anticiparea pragului de siguranță ASL-4 (AI Safety Level 4) pentru R&D autonom în IA.

La lansarea Claude Opus 4.5, Anthropic s-a angajat să redacteze rapoarte de risc de sabotaj pentru fiecare nou model frontier. În loc să navigheze prin praguri vagi, compania a ales să respecte proactiv standardul de siguranță ASL-4 mai ridicat.

ElementDetaliu
Model evaluatClaude Opus 4.6
Prag de siguranțăASL-4 (AI Safety Level 4)
DomeniuR&D autonom în IA
FormatRaport PDF public
PrecedentAngajament luat în timpul lansării Opus 4.5

Acesta este un pas semnificativ în transparența siguranței IA: Anthropic este unul dintre primele laboratoare care publică un astfel de raport de sabotaj pentru un model în producție.

When we released Claude Opus 4.5, we knew future models would be close to our AI Safety Level 4 threshold for autonomous AI R&D. We therefore committed to writing sabotage risk reports for future frontier models. Today we’re delivering on that commitment for Claude Opus 4.6.

🇷🇴 Când am lansat Claude Opus 4.5, știam că viitoarele modele vor fi aproape de pragul nostru AI Safety Level 4 pentru R&D autonom în IA. Prin urmare, ne-am angajat să scriem rapoarte de risc de sabotaj pentru viitoarele modele frontier. Astăzi ne îndeplinim acest angajament pentru Claude Opus 4.6.@AnthropicAI pe X

🔗 Thread Anthropic


OpenAI: noi primitive agentice în API-ul Responses

10 februarie — OpenAI introduce trei noi primitive în API-ul Responses pentru munca agentică de lungă durată.

Compactare server-side

Permite sesiuni de agenți de mai multe ore fără a atinge limitele de context. Compactarea este gestionată la nivelul serverului. Triple Whale, un tester în acces anticipat, raportează că a realizat 150 de apeluri de instrumente și 5 milioane de tokeni într-o singură sesiune fără pierdere de precizie.

Containere cu networking

Containerele găzduite de OpenAI pot acum accesa internetul într-un mod controlat. Administratorii definesc o listă albă de domenii în dashboard, cererile trebuie să definească explicit o network_policy, și secretele de domeniu pot fi injectate fără a expune valorile brute modelului.

Abilități în API

Suport nativ al standardului Agent Skills cu o primă abilitate pre-construită (foi de calcul). Abilitățile sunt pachete reutilizabile și versionate care pot fi montate în mediile shell găzduite, iar modelele decid la runtime dacă trebuie să le invoce.

PrimitivăDescriereStare
Compactare server-sideSesiuni multi-oră fără limite de contextDisponibil
Containere cu networkingAcces internet controlat pentru containere găzduiteDisponibil
Abilități în APIPachete reutilizabile (prima abilitate: foi de calcul)Disponibil

🔗 Thread OpenAIDevs


Kimi Agent Swarm: orchestrarea a 100 sub-agenți

10 februarie — Kimi (Moonshot AI) dezvăluie Agent Swarm, o capacitate de coordonare multi-agent care permite paralelizarea sarcinilor complexe cu până la 100 de sub-agenți specializați.

Sistemul poate executa mai mult de 1 500 de apeluri de instrumente și atinge o viteză de 4,5x mai mare decât execuțiile secvențiale. Cazurile de utilizare acoperă generarea simultană de fișiere multiple (Word, Excel, PDF-uri), analiza paralelă a conținutului și generarea creativă în mai multe stiluri în paralel. Agent Swarm rezolvă o limită structurală a LLM-urilor: degradarea raționamentului în timpul sarcinilor lungi care umplu contextul.

🔗 Anunț Kimi


OpenAI Harness Engineering: zero linii de cod manual cu Codex

11 februarie — OpenAI publică o experiență despre construirea unui produs software intern cu zero linii de cod scrise manual. Timp de 5 luni, o echipă de 3 până la 7 ingineri a folosit exclusiv Codex pentru a genera tot codul.

MetricăValoare
Linii de cod generate~1 milion
Pull requests~1 500
PR-uri per inginer pe zi3,5 în medie
Utilizatori interniCâteva sute
Timp estimat1/10 din timpul necesar manual
Sesiuni CodexPână la 6+ ore

Abordarea “Harness Engineering” redefinește rolul inginerului: proiectarea mediilor, specificarea intenției și construirea buclelor de feedback pentru agenți, mai degrabă decât scrierea codului. Documentația structurată în repo servește ca ghid (AGENTS.md ca cuprins), arhitectura este rigidă cu lintere și teste structurale generate de Codex, și sarcini recurente scanează abaterile și deschid PR-uri de refactoring automat.

🔗 Blog Harness Engineering


Runway strânge 315 milioane de dolari în Seria E

10 februarie — Runway anunță o strângere de fonduri de 315 milioane de dolari în Seria E, ducând evaluarea sa la 5,3 miliarde de dolari. Runda este condusă de General Atlantic, cu participarea NVIDIA, Adobe Ventures, AMD Ventures, Fidelity, AllianceBernstein și alții.

DetaliuValoare
Sumă315 M$
SerieE
Evaluare5,3 Mld(vs3,3Mld (vs 3,3 Mld în Seria D)
Investitor principalGeneral Atlantic
Total strâns din 2018860 M$

Fondurile vor servi la pre-antrenarea următoarei generații de “world models” — modele capabile să simuleze lumea fizică — și la implementarea lor în noi produse și industrii. Acest anunț vine după lansarea Gen-4.5, cel mai recent model de generare video de la Runway.

🔗 Anunț oficial 🔗 Postare Runway pe X


Cowork disponibil pe Windows

10 februarie — Claude Cowork, aplicația desktop pentru sarcini multi-step, este acum disponibilă pe Windows în research preview cu paritate completă de funcționalități față de macOS.

FuncționalitateDescriere
Acces fișiereCitirea și scrierea fișierelor locale
Plugin-uriSuport pentru plugin-urile Cowork
Conectori MCPIntegrare cu serverele MCP
Instrucțiuni per folderStil Claude.md — instrucțiuni în limbaj natural per proiect

Cowork pe Windows este disponibil pentru toate planurile Claude plătite prin claude.com/cowork.

🔗 Anunț Cowork Windows


Funcții gratuite în planul gratuit Claude

11 februarie — Anthropic extinde funcționalitățile accesibile în planul gratuit Claude. Crearea de fișiere, conectorii, abilitățile și compactarea sunt acum disponibile fără abonament. Compactarea permite lui Claude să rezume automat contextul anterior, astfel încât conversațiile lungi să poată continua fără a reîncepe.

🔗 Anunț plan gratuit


Claude Code Plan Mode în Slack

11 februarie — Integrarea Claude Code în Slack primește Plan Mode. Când îi dai lui Claude o sarcină de cod în Slack, acesta poate acum elabora un plan înainte de a executa, permițând validarea abordării înainte de implementare.

FuncționalitateDescriere
Plan ModeElaborarea unui plan înainte de execuție
Detectare automatăRutare inteligentă între cod și chat
Creare PRButon “Create PR” direct din Slack
Condiții prealabilePlan Pro, Max, Team sau Enterprise + GitHub conectat

🔗 Thread Boris Cherny


ElevenLabs lansează Modul Expresiv pentru agenții săi vocali

10 februarie — ElevenLabs dezvăluie Expressive Mode pentru ElevenAgents, o evoluție care face ca agenții săi vocali IA să fie capabili să își adapteze tonul, emoția și accentul în timp real.

Modul se bazează pe Eleven v3 Conversational, un model de sinteză vocală optimizat pentru dialogul în timp real, cuplat cu un nou sistem de preluare a cuvântului care reduce întreruperile. Prețul rămâne la 0,08 $ pe minut. În paralel, ElevenLabs își restructurează platforma în trei familii de produse: ElevenAgents (agenți vocali), ElevenCreative (instrumente creative) și ElevenAPI (platformă pentru dezvoltatori).

🔗 Blog Expressive Mode


Kimi K2.5 integrat pe Qoder

9 februarie — Qoder (platformă IA pentru dezvoltatori) implementează Kimi K2.5 ca model flagship al marketplace-ului său, cu un scor SWE-bench Verified de 76,8% și un tarif avantajos (0,3x credit în nivelul Efficient). Fluxul de lucru recomandat: utilizarea modelelor grele pentru design și arhitectură, apoi K2.5 pentru implementare.

🔗 Anunț Qoder


Ce înseamnă asta

Open-source continuă să progreseze rapid către modelele frontier. GLM-5 de la Z.ai reduce decalajul față de Claude Opus 4.5 și GPT-5.2 pe benchmark-urile de coding și sarcini agentice, fiind în același timp disponibil sub licență MIT. Publicarea raportului de sabotaj ASL-4 de către Anthropic stabilește un precedent în materie de transparență a siguranței pe care alte laboratoare vor fi probabil obligate să îl urmeze.

Pe partea dezvoltatorilor, primitivele agentice ale OpenAI (compactare server-side, containere de rețea, abilități API) și abordarea “Harness Engineering” desenează un viitor în care agenții autonomi gestionează sesiuni de mai multe ore. Kimi Agent Swarm împinge această logică și mai departe cu orchestrarea a sute de sub-agenți în paralel.


Surse