GPT-5.4 met native computer use, NotebookLM Cinematic Videos, Codex op Windows

De week sluit af met meerdere belangrijke aankondigingen: GPT-5.4 van OpenAI verstevigt native computer use met 75% op OSWorld en een contextvenster van een miljoen tokens, NotebookLM introduceert Cinematic Video Overviews waarbij Gemini de rol van regisseur speelt, en Codex breidt ondersteuning uit naar Windows met een native sandbox. Op het gebied van ontwikkelaarstools verbetert Anthropic de skill-creator en introduceert HTTP hooks in Claude Code, en GitHub zet Copilot Memory standaard aan voor alle Pro-gebruikers.

GPT-5.4 — Native computer use, 1M tokens, tool search

5 maart 2026 — OpenAI lanceert GPT-5.4, hun frontier-model voor professioneel werk. Beschikbaar in ChatGPT (onder de naam GPT-5.4 Thinking), in de API (identificator gpt-5.4) en in Codex, brengt dit model redeneercapaciteit, coderingsvaardigheden en agentische workflowmogelijkheden samen in één architectuur.

De belangrijkste technische vernieuwing is de native integratie van computer use: GPT-5.4 kan grafische interfaces bedienen via screenshots en toetsenbord/muis zonder externe plug-ins. Op OSWorld-Verified — de referentie-benchmark voor interactie met echte softwareinterfaces — haalt GPT-5.4 75,0 %, tegenover 47,3 % voor GPT-5.2. Het contextvenster gaat naar 1 miljoen tokens in Codex en de API.

Een andere opvallende vernieuwing is de tool search: in plaats van bij elk verzoek de volledige lijst beschikbare tools te ontvangen, krijgt het model een lichte lijst en zoekt het hulpmiddelen op aanvraag. OpenAI meet een vermindering van 47 % in tokenverbruik op workflows met veel tools (getest op Scale MCP Atlas). De /fast modus in Codex wint 1,5× snelheid bij gelijke intelligentie.

Benchmarks :

Evaluatie	GPT-5.4	GPT-5.3-Codex	GPT-5.2
GDPval (professioneel werk)	83,0 %	70,9 %	70,9 %
SWE-Bench Pro	57,7 %	56,8 %	55,6 %
OSWorld-Verified (computer use)	75,0 %	74,0 %	47,3 %
BrowseComp (webonderzoek)	82,7 %	77,3 %	65,8 %
Toolathlon (toolgebruik)	54,6 %	51,9 %	46,3 %
ARC-AGI-2 (abstract redeneren)	73,3 %	—	52,9 %

API-tarieven :

Model	Invoer	Uitvoer
gpt-5.2	1,75 $ / M tokens	14 $ / M tokens
gpt-5.4	2,50 $ / M tokens	15 $ / M tokens
gpt-5.2-pro	21 $ / M tokens	168 $ / M tokens
gpt-5.4-pro	30 $ / M tokens	180 $ / M tokens

GPT-5.4 Thinking is vanaf vandaag beschikbaar voor ChatGPT Plus-, Team- en Pro-abonnees. GPT-5.2 Thinking blijft beschikbaar onder “Legacy Models” tot 5 juni 2026. Op het gebied van veiligheid classificeert OpenAI GPT-5.4 als “High cyber capability” binnen het Preparedness Framework. Tegelijk publiceert het bedrijf CoT-Control, een open source evaluatieset die de controleerbaarheid van de chain of thought meet voor 13 frontier-modellen — de scores, laag (0,1 % tot 15,4 %), geven aan dat monitoring van chain-of-thoughts een betrouwbaar beveiligingsinstrument blijft.

🔗 Introductie GPT-5.4 | OpenAI

NotebookLM — Cinematic Video Overviews

4 maart 2026 — NotebookLM introduceert Cinematic Video Overviews in zijn Studio. Deze video’s gaan verder dan de Audio Overviews (podcast-formaat) die in 2024 werden gelanceerd en de standaard video-templates.

Het principe: Gemini wordt gepositioneerd als regisseur. Het model analyseert de bronnen van de gebruiker, beslist het meest geschikte format (tutorial, documentaire, enz.), kiest een visuele stijl, genereert de beelden en beoordeelt die zelfkritisch voordat het de definitieve versie produceert. Het resultaat is een meeslepende en gepersonaliseerde video, uniek voor elke set bronnen.

De functionaliteit is beschikbaar voor Google AI Ultra-abonnees, in het Engels, sinds 4 maart 2026. De volledige uitrol naar Ultra-gebruikers werd diezelfde dag bevestigd. Toegang voor Pro-abonnees staat op de roadmap, zonder concrete datum. De aankondiging op X verzamelde 3 miljoen views.

🔗 Aankondiging NotebookLM op X

OpenAI — Codex op Windows, CoT-Control onderzoek

Codex beschikbaar op Windows

4 maart 2026 — De Codex-app is nu beschikbaar op Windows, met een native agent-sandbox en ondersteuning voor Windows-ontwikkelomgevingen via PowerShell. Twee nieuwe skills zijn beschikbaar: $aspnet-core voor Blazor-, ASP.NET MVC- en Razor Pages-applicaties, en $winui-app voor native Windows-apps met WinUI 3.

🔗 @OpenAIDevs op X

Onderzoek — controleerbaarheid van de chain of thought

5 maart 2026 — OpenAI publiceert “Reasoning models struggle to control their chains of thought, and that’s good”. De open source evaluatieset CoT-Control meet de controleerbaarheid van de chain of thought voor 13 frontier-modellen. De scores variëren tussen 0,1 % en 15,4 %, wat aangeeft dat huidige modellen moeite hebben om hun redenering opzettelijk aan te passen om toezichtssystemen te omzeilen — een resultaat dat als positief voor de veiligheid wordt gepresenteerd. OpenAI is van plan deze metrics op te nemen in de systeemkaarten (system cards) van toekomstige modellen.

🔗 CoT-Control onderzoek | OpenAI

Anthropic — Skill-creator en HTTP hooks

Verbeterde skill-creator

3 maart 2026 — Anthropic publiceert een grote update van zijn skill-creator voor Claude Code en Claude.ai. De aankondiging introduceert twee formele types van Agent Skills:

Type	Beschrijving	Duurzaamheid
Capability uplift	Helpt Claude iets te doen wat hij nog niet goed kan	Kan verouderen als het model verbetert
Encoded preference	Encodeert de processen en voorkeuren van een team	Duurzaam, afhankelijk van trouw aan de echte workflow

Nieuwe functies: evals (geautomatiseerde tests) om te verifiëren dat een skill het verwachte resultaat oplevert, benchmark-modus om succeskans, tijd en tokenverbruik te meten, en multi-agent ondersteuning om evaluaties parallel uit te voeren zonder kruisbesmetting tussen tests. Een A/B-vergelijkingsmodus maakt het mogelijk twee versies van een skill tegenover elkaar te zetten. De skill-creator is nu beschikbaar op Claude.ai en Cowork; voor Claude Code wordt het geïnstalleerd als plugin.

🔗 Improving skill-creator: Test, measure, and refine Agent Skills

HTTP hooks in Claude Code

4 maart 2026 — Claude Code introduceert HTTP hooks, een alternatief voor de bestaande command hooks. In plaats van een lokaal shellscript uit te voeren, stuurt Claude Code een event naar een door de gebruiker gekozen URL en wacht op een respons. Gebruikscases: een webapp bouwen om voortgang te visualiseren, permissies beheren, of toestand synchroniseren tussen meerdere Claude Code-instanties via een database. HTTP hooks werken in plugins, aangepaste agents en beheerde enterprise-instellingen.

🔗 Tweet @dickson_tsai

Gemini CLI v0.32.0 — Generalist Agent standaard

3 maart 2026 — Versie 0.32.0 van de Gemini CLI zet de Generalist Agent standaard aan om delegatie en routering van taken te verbeteren. De update brengt ook Model Steering direct in de workspace, verbeteringen aan Plan Mode (openen en aanpassen van plannen in een externe editor, multi-select beheer voor complexe taken), interactieve autocompletie in de shell, en parallelle laadtijd van extensies voor betere opstartprestaties.

🔗 Changelog Gemini CLI

GitHub Copilot — Memory standaard aan, mobiel en metrics

Copilot Memory standaard ingeschakeld

4 maart 2026 — GitHub zet Copilot Memory standaard aan voor alle gebruikers met Pro- en Pro+-plannen. De functie, eerder in preview als opt-in, laat Copilot persistente repository-gebonden informatie onthouden: coderingsconventies, architectuurpatronen, kritieke afhankelijkheden.

De memories zijn strikt beperkt tot één repository en worden gevalideerd tegen de huidige code vóór toepassing, wat het gebruik van verouderde context voorkomt. Ze verlopen automatisch na 28 dagen. De functionaliteit is actief in de coding agent, code review en de Copilot CLI — kennis die door één agent wordt ontdekt, is direct beschikbaar voor anderen. Gebruikers kunnen Copilot Memory uitschakelen in hun instellingen (Settings > Features > Copilot Memory); Enterprise-beheerders behouden volledige controle.

🔗 Copilot Memory now on by default for Pro and Pro+ users

Live notificaties voor agents in GitHub Mobile

4 maart 2026 — GitHub Mobile krijgt realtime notificaties voor Copilot agent-sessies. Ontwikkelaars kunnen de voortgang van hun agents volgen, ongeacht of de sessie vanaf een computer of vanaf de telefoon werd gestart.

🔗 GitHub Mobile | Aankondiging op X

Grok Code Fast 1 in Copilot Free Auto

4 maart 2026 — GitHub voegt Grok Code Fast 1 van xAI toe aan de automatische modelselectie (Auto) van Copilot Free. Dit model kan nu door Copilot geselecteerd worden tijdens chat-sessies in Visual Studio Code, Visual Studio, JetBrains IDEs, Xcode en Eclipse.

🔗 Grok Code Fast 1 in Copilot Free auto model selection

Copilot CLI-metrics per gebruiker

5 maart 2026 — GitHub breidt Copilot gebruiksmetrics uit naar CLI-activiteit op gebruikersniveau. Deze update volgt op de release van vorige week op ondernemingsniveau. Beheerders kunnen nu actieve CLI-gebruikers identificeren, het aantal verzoeken en sessies bekijken, en tokenverbruik per gebruiker volgen.

🔗 Copilot usage metrics — user-level CLI activity

Perplexity — GPT-5.4 en Voice Mode in Computer

GPT-5.4 Thinking beschikbaar op Perplexity

5 maart 2026 — GPT-5.4 en GPT-5.4 Thinking zijn nu beschikbaar in Perplexity voor Pro- en Max-abonnees. De Thinking-versie activeert het uitgebreide redeneren van GPT-5.4 voor diepgaandere antwoorden op complexe queries.

🔗 Aankondiging op X

Voice Mode in Perplexity Computer

4 maart 2026 — Perplexity introduceert een Voice Mode in Perplexity Computer. De interface, die al toeliet om te zoeken, coderen en projecten uit te rollen, accepteert nu ook direct spraakopdrachten.

🔗 Aankondiging op X

Cohere × Aston Martin F1 — meerjarig partnerschap

4 maart 2026 — Cohere kondigt een meerjarig partnerschap aan met het Aston Martin Aramco F1-team. Elk teamlid krijgt toegang tot enterprise-modellen en Cohere’s agentische AI-platform (North) om te werken in één van de meest veeleisende data-omgevingen in de mondiale sport. Het Cohere-logo verschijnt op de bolide vanaf de Grand Prix van Australië 2026.

🔗 Aankondiging Cohere op X

Black Forest Labs — Self-Flow, multimodaal onderzoek

4 maart 2026 — Black Forest Labs (makers van FLUX) publiceert Self-Flow in research preview. Deze aanpak traint generatieve multimodale modellen (beeld, video, audio, tekst) zonder te vertrouwen op externe modellen voor representatie, via een zelf-gesuperviseerde flow matching-methode.

Gepresenteerde resultaten: tot 2,8× snellere cross-modale convergentie, betere temporele coherentie in video, scherpere typografische rendering. Demonstraties tonen een video-model van 4B parameters getraind op 6M video’s, een beeldmodel van 4B parameters getraind op 200M beelden, en een gezamenlijk audio-video model. BFL positioneert Self-Flow als een route naar world models: “Self-Flow opens a path toward world models: combining visual scalability with semantic abstraction for planning and understanding.”

🔗 Tweet @bfl_ml

In het kort

Runway lanceerde op 3 maart een hub van uniforme modellen, die toegang tot externe beeld-, video-, audio- en taalmodellen centraal beschikbaar maakt in het platform. 🔗 Aankondiging

Claude bereikte op 5 maart de 1e plaats van de iOS App Store in 14 landen gelijktijdig — Australië, Oostenrijk, België, Canada, Frankrijk, Duitsland, Ierland, Italië, Nieuw-Zeeland, Noorwegen, Singapore, Zwitserland, Verenigd Koninkrijk, Verenigde Staten. 🔗 Tweet

Manus publiceerde op 5 maart zijn jaarbrief bij zijn eerste verjaardag, met gebruikersverhalen (een moeder, een 86-jarige taalkundige, een bloemiste). 🔗 Brief

Grok passeerde de mijlpaal van een miljoen recensies in de Amerikaanse App Store. 🔗 Tweet @grok

Wat het betekent

GPT-5.4 bevestigt dat computer use verschuift van experimentele status naar een geïntegreerde functionaliteit binnen een veelzijdig model. De 75%-score op OSWorld-Verified en de 47%-reductie van tokens via tool search zijn concrete maatstaven voor een paradigmaverschuiving: AI-agents kunnen nu complexe softwareinterfaces bedienen zonder gespecialiseerde infrastructuur.

Aan de kant van ontwikkelaarstools toont de week convergentie: Anthropic verbetert hoe agent skills getest en toezicht gehouden worden, GitHub zet persistente geheugenfunctie aan voor zijn coding agents, en Perplexity voegt voice mode toe aan zijn Computer agent. Agentic runtimes verrijken zich met lagen van geheugen, observeerbaarheid (HTTP hooks, mobiele notificaties) en natuurlijke interactie (spraak).

NotebookLM Cinematic Video Overviews illustreert een ander pad: generatie van langvormige pedagogische content uit persoonlijke bronnen. Gemini als regisseur — analyseren, bekritiseren, hercomponeren — is een gebruik van AI als meta-productietool, eerder dan louter een generatieve assistent.

Bronnen - Introductie van GPT-5.4 | OpenAI

Dit document is vertaald van de Franse versie naar het Nederlands met behulp van het model gpt-5-mini. Voor meer informatie over het vertaalproces, raadpleeg https://gitlab.com/jls42/ai-powered-markdown-translator