GPT-5.4 cu computer use nativ, NotebookLM Cinematic Videos, Codex pe Windows

Săptămâna se încheie cu mai multe anunțuri importante: GPT-5.4 de la OpenAI consolidează computer use nativ, obținând 75% pe OSWorld și o fereastră de context de un milion de tokens, NotebookLM introduce Cinematic Video Overviews în care Gemini joacă rolul de regizor, iar Codex își extinde suportul pentru Windows cu un bac à sable (sandbox) nativ. În zona de instrumente pentru dezvoltatori, Anthropic îmbunătățește skill-creator și lansează HTTP hooks în Claude Code, iar GitHub activează Copilot Memory implicit pentru toți utilizatorii Pro.

GPT-5.4 — Computer use nativ, 1M tokens, unealtă de căutare

5 martie 2026 — OpenAI lansează GPT-5.4, modelul său frontier pentru munca profesională. Disponibil în ChatGPT (sub numele GPT-5.4 Thinking), în API (identificator gpt-5.4) și în Codex, acest model consolidează într-o singură arhitectură capacitățile de raționament, programare și fluxuri de lucru agentice (fluxuri de lucru agentice) introduse în modelele anterioare.

Noutatea tehnică cea mai semnificativă este integrarea nativă a computer use: GPT-5.4 poate controla interfețe grafice prin capturi de ecran și tastatură/mouse fără pluginuri terțe. Pe OSWorld-Verified — benchmark-ul de referință pentru interacțiunea cu interfețe software reale — GPT-5.4 atinge 75,0 %, comparativ cu 47,3 % pentru GPT-5.2. Fereastra de context crește la 1 million de tokens în Codex și în API.

O altă noutate notabilă este tool search: în loc să primească întreaga listă de unelte disponibile la fiecare apel, modelul primește o listă ușoară și caută uneltele la cerere. OpenAI măsoară o reducere de 47 % a consumului de tokens pe fluxurile de lucru cu multe unelte (testat pe Scale MCP Atlas). Modul /fast în Codex câștigă 1,5× în viteză la aceeași inteligență.

Benchmarks :

Evaluare	GPT-5.4	GPT-5.3-Codex	GPT-5.2
GDPval (muncă profesională)	83,0 %	70,9 %	70,9 %
SWE-Bench Pro	57,7 %	56,8 %	55,6 %
OSWorld-Verified (computer use)	75,0 %	74,0 %	47,3 %
BrowseComp (căutare web)	82,7 %	77,3 %	65,8 %
Toolathlon (utilizare de unelte)	54,6 %	51,9 %	46,3 %
ARC-AGI-2 (raționament abstract)	73,3 %	—	52,9 %

Tarife API :

Model	Intrare	Ieșire
gpt-5.2	1,75 $ / M tokens	14 $ / M tokens
gpt-5.4	2,50 $ / M tokens	15 $ / M tokens
gpt-5.2-pro	21 $ / M tokens	168 $ / M tokens
gpt-5.4-pro	30 $ / M tokens	180 $ / M tokens

GPT-5.4 Thinking este accesibil de astăzi abonaților ChatGPT Plus, Team și Pro. GPT-5.2 Thinking va rămâne disponibil sub «Legacy Models» până pe 5 iunie 2026. Din punct de vedere al securității, OpenAI clasifică GPT-5.4 ca „High cyber capability” în cadrul său de Preparedness. Compania publică simultan CoT-Control, o suită de evaluare open source care măsoară controlabilitatea lanțului de gândire a 13 modele frontier — scorurile, scăzute (0,1 % până la 15,4 %), indică faptul că supravegherea lanțurilor de gândire rămâne un instrument de securitate fiabil.

🔗 Prezentarea GPT-5.4 | OpenAI

NotebookLM — Prezentări video cinematografice

4 martie 2026 — NotebookLM introduce Cinematic Video Overviews în Studio. Aceste videoclipuri depășesc Audio Overviews (format podcast) lansate în 2024 și șabloanele (templates) video standard.

Principiul: Gemini este poziționat ca regizor. Modelul analizează sursele utilizatorului, decide formatul cel mai potrivit (tutorial, documentar etc.), alege un stil vizual, generează imaginile și apoi le auto-critică înainte de a produce versiunea finală. Rezultatul este un videoclip imersiv și personalizat, unic pentru fiecare set de surse.

Funcționalitatea este disponibilă pentru abonații Google AI Ultra, în engleză, din 4 martie 2026. Implementarea completă pentru utilizatorii Ultra a fost confirmată în aceeași zi. Un acces pentru abonații Pro este planificat în foaia de parcurs, fără calendar precis. Tweet-ul de anunț a strâns 3 milioane de vizualizări.

🔗 Anunț NotebookLM pe X

OpenAI — Codex pe Windows, cercetare CoT-Control

Codex disponibil pe Windows

4 martie 2026 — Aplicația Codex este acum disponibilă pe Windows, cu un bac à sable (sandbox) de agenți nativ și suport pentru medii de dezvoltare Windows prin PowerShell. Două noi competențe (skills) sunt disponibile: $aspnet-core pentru aplicații Blazor, ASP.NET MVC și Razor Pages, și $winui-app pentru aplicații native Windows cu WinUI 3.

🔗 @OpenAIDevs pe X

Cercetare — controlabilitatea lanțului de gândire

5 martie 2026 — OpenAI publică „Modelele de raționament au dificultăți în a controla lanțurile lor de gândire, și asta e bine” (Modelele de raționament au dificultăți în a controla lanțurile lor de gândire, și asta e bine). Suita de evaluare open source CoT-Control măsoară controlabilitatea lanțului de gândire a 13 modele frontier. Scorurile variază între 0,1 % și 15,4 %, ceea ce indică faptul că modelele actuale au dificultăți în a modifica deliberat raționamentul pentru a ocoli sistemele de supraveghere — rezultat prezentat ca pozitiv pentru securitate. OpenAI intenționează să includă aceste metrici în fișele de sistem (system cards) ale viitoarelor modele.

🔗 Cercetare CoT-Control | OpenAI

Anthropic — Skill-creator și HTTP hooks

Skill-creator îmbunătățit

3 martie 2026 — Anthropic publică o actualizare majoră a instrumentului său skill-creator pentru Claude Code și Claude.ai. Anunțul introduce două tipuri formale de competențe (Agent Skills) :

Tip	Descriere	Durabilitate
Capability uplift	Ajută Claude să facă ceva ce încă nu știe bine	Poate deveni depășit dacă modelul se îmbunătățește
Encoded preference	Encodifică procesele și preferințele unei echipe	Durabil, depinde de fidelitatea față de fluxul de lucru real

Noile funcționalități: evals (teste automatizate) pentru a verifica că o competență produce rezultatul așteptat, mod benchmark pentru a măsura rata de succes, timpul și consumul de tokens, și suport multi-agent pentru a executa evaluările în paralel fără contaminare între teste. Un mod comparator A/B permite confruntarea a două versiuni ale unei competențe. Skill-creator este disponibil acum pe Claude.ai și Cowork; pentru Claude Code se instalează ca plugin.

🔗 Improving skill-creator: Test, measure, and refine Agent Skills

HTTP hooks în Claude Code

4 martie 2026 — Claude Code lansează HTTP hooks, o alternativă la hooks de comandă (command hooks) existenți. În loc să execute un script shell local, Claude Code trimite un eveniment către o URL aleasă de utilizator și așteaptă un răspuns. Cazuri de utilizare: construirea unei aplicații web pentru a vizualiza progresul, gestionarea permisiunilor sau sincronizarea stării între mai multe instanțe Claude Code printr-o bază de date. HTTP hooks funcționează în pluginuri, agenți personalizați și în setările enterprise gestionate.

🔗 Tweet @dickson_tsai

Gemini CLI v0.32.0 — Generalist Agent activ implicit

3 martie 2026 — Versiunea 0.32.0 a Gemini CLI activează implicit Generalist Agent pentru a îmbunătăți delegarea și rutarea sarcinilor. Actualizarea aduce, de asemenea, pilotare de model (Model Steering) direct în workspace, îmbunătățiri ale Plan Mode (deschiderea și modificarea planurilor într-un editor extern, gestionarea multi-selecție pentru sarcini complexe), autocompletare interactivă în shell și încărcare paralelă a extensiilor pentru performanțe mai bune la pornire.

🔗 Changelog Gemini CLI

GitHub Copilot — Memory implicit, mobil și metrici

Copilot Memory activat implicit

4 martie 2026 — GitHub activează Copilot Memory implicit pentru toți utilizatorii planurilor Pro și Pro+. Funcționalitatea, anterior în previzualizare la cerere, permite lui Copilot să rețină informații persistente la nivel de depozit: convenții de codare, pattern-uri arhitecturale, dependențe critice.

Memoriile sunt strict limitate la un singur depozit și validate față de codul curent înainte de aplicare, evitând folosirea unui context învechit. Ele expiră automat după 28 de zile. Funcționalitatea este activă pe agentul de codare, revizuirea de cod și CLI Copilot — cunoștințele descoperite de un agent sunt imediat disponibile celorlalți. Utilizatorii pot dezactiva Copilot Memory din setările lor (Settings > Features > Copilot Memory) ; administratorii Enterprise păstrează controlul total.

🔗 Copilot Memory now on by default for Pro and Pro+ users

Notificări în timp real pentru agenți în GitHub Mobile

4 martie 2026 — GitHub Mobile primește notificări în timp real pentru sesiunile agenților Copilot. Dezvoltatorii pot urmări progresul agenților lor, indiferent dacă sesiunea a fost pornită de pe un computer sau de pe telefon.

🔗 GitHub Mobile | Anunț pe X

Grok Code Fast 1 în Copilot Free Auto

4 martie 2026 — GitHub adaugă Grok Code Fast 1 de la xAI în selecția automată de modele (Auto) a Copilot Free. Acest model poate fi selectat acum de Copilot în sesiunile de chat din Visual Studio Code, Visual Studio, JetBrains IDEs, Xcode și Eclipse.

🔗 Grok Code Fast 1 in Copilot Free auto model selection

Metrici Copilot CLI la nivel de utilizator

5 martie 2026 — GitHub extinde metricile de utilizare Copilot pentru activitatea CLI la nivel de utilizator. Această actualizare urmează lansării de săptămâna precedentă la nivel enterprise. Administratorii pot acum identifica utilizatorii activi pe CLI, consulta numărul de cereri și sesiuni și urmări consumul de tokens pe utilizator.

🔗 Copilot usage metrics — user-level CLI activity

Perplexity — GPT-5.4 și Voice Mode în Computer

GPT-5.4 Thinking disponibil pe Perplexity

5 martie 2026 — GPT-5.4 și GPT-5.4 Thinking sunt acum accesibile pe Perplexity pentru abonații Pro și Max. Versiunea Thinking activează raționamentul extins al GPT-5.4 pentru răspunsuri mai profunde la cereri complexe.

🔗 Anunț pe X

Voice Mode în Perplexity Computer

4 martie 2026 — Perplexity introduce un mod vocal (Voice Mode) în Perplexity Computer. Interfața, care deja permitea căutare, codare și deploy de proiecte, acceptă acum instrucțiuni vocale directe.

🔗 Anunț pe X

Cohere × Aston Martin F1 — parteneriat plurianual

4 martie 2026 — Cohere anunță un parteneriat plurianual cu echipa Aston Martin Aramco F1. Fiecare membru al echipei va avea acces la modelele enterprise și la platforma de IA agentică a Cohere (North) pentru a lucra într-unul dintre mediile de date cele mai exigente din sportul mondial. Sigla Cohere apare pe monopost începând cu Marele Premiu al Australiei 2026.

🔗 Anunț Cohere pe X

Black Forest Labs — Self-Flow, cercetare multi-modală

4 martie 2026 — Black Forest Labs (creatorii FLUX) publică Self-Flow în research preview. Această abordare antrenează modele generative multi-modale (imagine, video, audio, text) fără a depinde de modele externe pentru reprezentare, printr-o metodă de self-supervised flow matching.

Rezultate prezentate: până la 2,8× mai rapidă în convergența cross-modală, coerență temporală îmbunătățită în video, redare tipografică mai clară. Demonstrațiile includ un model video de 4B parametri antrenat pe 6M videoclipuri, un model de imagine de 4B parametri antrenat pe 200M imagini și un model audio-video combinat. BFL poziționează Self-Flow ca un drum către world models: „Self-Flow deschide un drum spre world models: combinând scalabilitatea vizuală cu abstracția semantică pentru planificare și înțelegere.”

🔗 Tweet @bfl_ml

Pe scurt

Runway a lansat un hub de modele unificate pe 3 martie, centralizând accesul la modele terțe de imagine, video, audio și limbaj direct în platformă. 🔗 Anunț

Claude a ajuns pe locul 1 în App Store iOS în 14 țări simultan pe 5 martie — Australia, Austria, Belgia, Canada, Franța, Germania, Irlanda, Italia, Noua Zeelandă, Norvegia, Singapore, Elveția, Regatul Unit, Statele Unite. 🔗 Tweet

Manus a publicat scrisoarea anuală pe 5 martie cu ocazia primului său an, punând în prim-plan mărturii ale utilizatorilor (o mamă, un lingvist de 86 de ani, o florăreasă). 🔗 Scrisoare

Grok a depășit pragul de un milion de recenzii în App Store-ul american. 🔗 Tweet @grok

Ce înseamnă

GPT-5.4 confirmă că computer use trece din stadiul experimental în funcționalitate integrată într-un model polivalent. Scorul de 75 % pe OSWorld-Verified și reducerea de 47 % a tokens prin tool search sunt măsuri concrete ale unei schimbări de paradigmă: agenții IA pot acum opera interfețe software complexe fără infrastructură specializată.

Din perspectiva instrumentelor pentru dezvoltatori, săptămâna arată o convergență: Anthropic îmbunătățește modul de testare și supraveghere a competențelor agenților, GitHub activează memoria persistentă pentru agenții săi de programare, iar Perplexity adaugă modul vocal agentului Computer. Mediile de execuție agentice se îmbogățesc cu straturi de memorie, observabilitate (HTTP hooks, notificări mobile) și interacțiune naturală (vocal).

NotebookLM Cinematic Video Overviews ilustrează o direcție diferită: generarea de conținut pedagogic de lungă durată din surse personale. Gemini ca regizor — analizează, critică, recompune — este un exemplu de utilizare a IA ca meta-uneltă de producție creativă, mai degrabă decât ca simplu asistent de generare.

Surse - Introducere GPT-5.4 | OpenAI

Acest document a fost tradus din versiunea fr în limba ro folosind modelul gpt-5-mini. Pentru mai multe informații despre procesul de traducere, consultați https://gitlab.com/jls42/ai-powered-markdown-translator