De week sluit af met meerdere belangrijke aankondigingen: GPT-5.4 van OpenAI verstevigt native computer use met 75% op OSWorld en een contextvenster van een miljoen tokens, NotebookLM introduceert Cinematic Video Overviews waarbij Gemini de rol van regisseur speelt, en Codex breidt ondersteuning uit naar Windows met een native sandbox. Op het gebied van ontwikkelaarstools verbetert Anthropic de skill-creator en introduceert HTTP hooks in Claude Code, en GitHub zet Copilot Memory standaard aan voor alle Pro-gebruikers.
GPT-5.4 — Native computer use, 1M tokens, tool search
5 maart 2026 — OpenAI lanceert GPT-5.4, hun frontier-model voor professioneel werk. Beschikbaar in ChatGPT (onder de naam GPT-5.4 Thinking), in de API (identificator gpt-5.4) en in Codex, brengt dit model redeneercapaciteit, coderingsvaardigheden en agentische workflowmogelijkheden samen in één architectuur.
De belangrijkste technische vernieuwing is de native integratie van computer use: GPT-5.4 kan grafische interfaces bedienen via screenshots en toetsenbord/muis zonder externe plug-ins. Op OSWorld-Verified — de referentie-benchmark voor interactie met echte softwareinterfaces — haalt GPT-5.4 75,0 %, tegenover 47,3 % voor GPT-5.2. Het contextvenster gaat naar 1 miljoen tokens in Codex en de API.
Een andere opvallende vernieuwing is de tool search: in plaats van bij elk verzoek de volledige lijst beschikbare tools te ontvangen, krijgt het model een lichte lijst en zoekt het hulpmiddelen op aanvraag. OpenAI meet een vermindering van 47 % in tokenverbruik op workflows met veel tools (getest op Scale MCP Atlas). De /fast modus in Codex wint 1,5× snelheid bij gelijke intelligentie.
Benchmarks :
| Evaluatie | GPT-5.4 | GPT-5.3-Codex | GPT-5.2 |
|---|---|---|---|
| GDPval (professioneel werk) | 83,0 % | 70,9 % | 70,9 % |
| SWE-Bench Pro | 57,7 % | 56,8 % | 55,6 % |
| OSWorld-Verified (computer use) | 75,0 % | 74,0 % | 47,3 % |
| BrowseComp (webonderzoek) | 82,7 % | 77,3 % | 65,8 % |
| Toolathlon (toolgebruik) | 54,6 % | 51,9 % | 46,3 % |
| ARC-AGI-2 (abstract redeneren) | 73,3 % | — | 52,9 % |
API-tarieven :
| Model | Invoer | Uitvoer |
|---|---|---|
| gpt-5.2 | 1,75 $ / M tokens | 14 $ / M tokens |
| gpt-5.4 | 2,50 $ / M tokens | 15 $ / M tokens |
| gpt-5.2-pro | 21 $ / M tokens | 168 $ / M tokens |
| gpt-5.4-pro | 30 $ / M tokens | 180 $ / M tokens |
GPT-5.4 Thinking is vanaf vandaag beschikbaar voor ChatGPT Plus-, Team- en Pro-abonnees. GPT-5.2 Thinking blijft beschikbaar onder “Legacy Models” tot 5 juni 2026. Op het gebied van veiligheid classificeert OpenAI GPT-5.4 als “High cyber capability” binnen het Preparedness Framework. Tegelijk publiceert het bedrijf CoT-Control, een open source evaluatieset die de controleerbaarheid van de chain of thought meet voor 13 frontier-modellen — de scores, laag (0,1 % tot 15,4 %), geven aan dat monitoring van chain-of-thoughts een betrouwbaar beveiligingsinstrument blijft.
🔗 Introductie GPT-5.4 | OpenAI
NotebookLM — Cinematic Video Overviews
4 maart 2026 — NotebookLM introduceert Cinematic Video Overviews in zijn Studio. Deze video’s gaan verder dan de Audio Overviews (podcast-formaat) die in 2024 werden gelanceerd en de standaard video-templates.
Het principe: Gemini wordt gepositioneerd als regisseur. Het model analyseert de bronnen van de gebruiker, beslist het meest geschikte format (tutorial, documentaire, enz.), kiest een visuele stijl, genereert de beelden en beoordeelt die zelfkritisch voordat het de definitieve versie produceert. Het resultaat is een meeslepende en gepersonaliseerde video, uniek voor elke set bronnen.
De functionaliteit is beschikbaar voor Google AI Ultra-abonnees, in het Engels, sinds 4 maart 2026. De volledige uitrol naar Ultra-gebruikers werd diezelfde dag bevestigd. Toegang voor Pro-abonnees staat op de roadmap, zonder concrete datum. De aankondiging op X verzamelde 3 miljoen views.
🔗 Aankondiging NotebookLM op X
OpenAI — Codex op Windows, CoT-Control onderzoek
Codex beschikbaar op Windows
4 maart 2026 — De Codex-app is nu beschikbaar op Windows, met een native agent-sandbox en ondersteuning voor Windows-ontwikkelomgevingen via PowerShell. Twee nieuwe skills zijn beschikbaar: $aspnet-core voor Blazor-, ASP.NET MVC- en Razor Pages-applicaties, en $winui-app voor native Windows-apps met WinUI 3.
Onderzoek — controleerbaarheid van de chain of thought
5 maart 2026 — OpenAI publiceert “Reasoning models struggle to control their chains of thought, and that’s good”. De open source evaluatieset CoT-Control meet de controleerbaarheid van de chain of thought voor 13 frontier-modellen. De scores variëren tussen 0,1 % en 15,4 %, wat aangeeft dat huidige modellen moeite hebben om hun redenering opzettelijk aan te passen om toezichtssystemen te omzeilen — een resultaat dat als positief voor de veiligheid wordt gepresenteerd. OpenAI is van plan deze metrics op te nemen in de systeemkaarten (system cards) van toekomstige modellen.
🔗 CoT-Control onderzoek | OpenAI
Anthropic — Skill-creator en HTTP hooks
Verbeterde skill-creator
3 maart 2026 — Anthropic publiceert een grote update van zijn skill-creator voor Claude Code en Claude.ai. De aankondiging introduceert twee formele types van Agent Skills:
| Type | Beschrijving | Duurzaamheid |
|---|---|---|
| Capability uplift | Helpt Claude iets te doen wat hij nog niet goed kan | Kan verouderen als het model verbetert |
| Encoded preference | Encodeert de processen en voorkeuren van een team | Duurzaam, afhankelijk van trouw aan de echte workflow |
Nieuwe functies: evals (geautomatiseerde tests) om te verifiëren dat een skill het verwachte resultaat oplevert, benchmark-modus om succeskans, tijd en tokenverbruik te meten, en multi-agent ondersteuning om evaluaties parallel uit te voeren zonder kruisbesmetting tussen tests. Een A/B-vergelijkingsmodus maakt het mogelijk twee versies van een skill tegenover elkaar te zetten. De skill-creator is nu beschikbaar op Claude.ai en Cowork; voor Claude Code wordt het geïnstalleerd als plugin.
🔗 Improving skill-creator: Test, measure, and refine Agent Skills
HTTP hooks in Claude Code
4 maart 2026 — Claude Code introduceert HTTP hooks, een alternatief voor de bestaande command hooks. In plaats van een lokaal shellscript uit te voeren, stuurt Claude Code een event naar een door de gebruiker gekozen URL en wacht op een respons. Gebruikscases: een webapp bouwen om voortgang te visualiseren, permissies beheren, of toestand synchroniseren tussen meerdere Claude Code-instanties via een database. HTTP hooks werken in plugins, aangepaste agents en beheerde enterprise-instellingen.
Gemini CLI v0.32.0 — Generalist Agent standaard
3 maart 2026 — Versie 0.32.0 van de Gemini CLI zet de Generalist Agent standaard aan om delegatie en routering van taken te verbeteren. De update brengt ook Model Steering direct in de workspace, verbeteringen aan Plan Mode (openen en aanpassen van plannen in een externe editor, multi-select beheer voor complexe taken), interactieve autocompletie in de shell, en parallelle laadtijd van extensies voor betere opstartprestaties.
GitHub Copilot — Memory standaard aan, mobiel en metrics
Copilot Memory standaard ingeschakeld
4 maart 2026 — GitHub zet Copilot Memory standaard aan voor alle gebruikers met Pro- en Pro+-plannen. De functie, eerder in preview als opt-in, laat Copilot persistente repository-gebonden informatie onthouden: coderingsconventies, architectuurpatronen, kritieke afhankelijkheden.
De memories zijn strikt beperkt tot één repository en worden gevalideerd tegen de huidige code vóór toepassing, wat het gebruik van verouderde context voorkomt. Ze verlopen automatisch na 28 dagen. De functionaliteit is actief in de coding agent, code review en de Copilot CLI — kennis die door één agent wordt ontdekt, is direct beschikbaar voor anderen. Gebruikers kunnen Copilot Memory uitschakelen in hun instellingen (Settings > Features > Copilot Memory); Enterprise-beheerders behouden volledige controle.
🔗 Copilot Memory now on by default for Pro and Pro+ users
Live notificaties voor agents in GitHub Mobile
4 maart 2026 — GitHub Mobile krijgt realtime notificaties voor Copilot agent-sessies. Ontwikkelaars kunnen de voortgang van hun agents volgen, ongeacht of de sessie vanaf een computer of vanaf de telefoon werd gestart.
🔗 GitHub Mobile | Aankondiging op X
Grok Code Fast 1 in Copilot Free Auto
4 maart 2026 — GitHub voegt Grok Code Fast 1 van xAI toe aan de automatische modelselectie (Auto) van Copilot Free. Dit model kan nu door Copilot geselecteerd worden tijdens chat-sessies in Visual Studio Code, Visual Studio, JetBrains IDEs, Xcode en Eclipse.
🔗 Grok Code Fast 1 in Copilot Free auto model selection
Copilot CLI-metrics per gebruiker
5 maart 2026 — GitHub breidt Copilot gebruiksmetrics uit naar CLI-activiteit op gebruikersniveau. Deze update volgt op de release van vorige week op ondernemingsniveau. Beheerders kunnen nu actieve CLI-gebruikers identificeren, het aantal verzoeken en sessies bekijken, en tokenverbruik per gebruiker volgen.
🔗 Copilot usage metrics — user-level CLI activity
Perplexity — GPT-5.4 en Voice Mode in Computer
GPT-5.4 Thinking beschikbaar op Perplexity
5 maart 2026 — GPT-5.4 en GPT-5.4 Thinking zijn nu beschikbaar in Perplexity voor Pro- en Max-abonnees. De Thinking-versie activeert het uitgebreide redeneren van GPT-5.4 voor diepgaandere antwoorden op complexe queries.
Voice Mode in Perplexity Computer
4 maart 2026 — Perplexity introduceert een Voice Mode in Perplexity Computer. De interface, die al toeliet om te zoeken, coderen en projecten uit te rollen, accepteert nu ook direct spraakopdrachten.
Cohere × Aston Martin F1 — meerjarig partnerschap
4 maart 2026 — Cohere kondigt een meerjarig partnerschap aan met het Aston Martin Aramco F1-team. Elk teamlid krijgt toegang tot enterprise-modellen en Cohere’s agentische AI-platform (North) om te werken in één van de meest veeleisende data-omgevingen in de mondiale sport. Het Cohere-logo verschijnt op de bolide vanaf de Grand Prix van Australië 2026.
Black Forest Labs — Self-Flow, multimodaal onderzoek
4 maart 2026 — Black Forest Labs (makers van FLUX) publiceert Self-Flow in research preview. Deze aanpak traint generatieve multimodale modellen (beeld, video, audio, tekst) zonder te vertrouwen op externe modellen voor representatie, via een zelf-gesuperviseerde flow matching-methode.
Gepresenteerde resultaten: tot 2,8× snellere cross-modale convergentie, betere temporele coherentie in video, scherpere typografische rendering. Demonstraties tonen een video-model van 4B parameters getraind op 6M video’s, een beeldmodel van 4B parameters getraind op 200M beelden, en een gezamenlijk audio-video model. BFL positioneert Self-Flow als een route naar world models: “Self-Flow opens a path toward world models: combining visual scalability with semantic abstraction for planning and understanding.”
In het kort
Runway lanceerde op 3 maart een hub van uniforme modellen, die toegang tot externe beeld-, video-, audio- en taalmodellen centraal beschikbaar maakt in het platform. 🔗 Aankondiging
Claude bereikte op 5 maart de 1e plaats van de iOS App Store in 14 landen gelijktijdig — Australië, Oostenrijk, België, Canada, Frankrijk, Duitsland, Ierland, Italië, Nieuw-Zeeland, Noorwegen, Singapore, Zwitserland, Verenigd Koninkrijk, Verenigde Staten. 🔗 Tweet
Manus publiceerde op 5 maart zijn jaarbrief bij zijn eerste verjaardag, met gebruikersverhalen (een moeder, een 86-jarige taalkundige, een bloemiste). 🔗 Brief
Grok passeerde de mijlpaal van een miljoen recensies in de Amerikaanse App Store. 🔗 Tweet @grok
Wat het betekent
GPT-5.4 bevestigt dat computer use verschuift van experimentele status naar een geïntegreerde functionaliteit binnen een veelzijdig model. De 75%-score op OSWorld-Verified en de 47%-reductie van tokens via tool search zijn concrete maatstaven voor een paradigmaverschuiving: AI-agents kunnen nu complexe softwareinterfaces bedienen zonder gespecialiseerde infrastructuur.
Aan de kant van ontwikkelaarstools toont de week convergentie: Anthropic verbetert hoe agent skills getest en toezicht gehouden worden, GitHub zet persistente geheugenfunctie aan voor zijn coding agents, en Perplexity voegt voice mode toe aan zijn Computer agent. Agentic runtimes verrijken zich met lagen van geheugen, observeerbaarheid (HTTP hooks, mobiele notificaties) en natuurlijke interactie (spraak).
NotebookLM Cinematic Video Overviews illustreert een ander pad: generatie van langvormige pedagogische content uit persoonlijke bronnen. Gemini als regisseur — analyseren, bekritiseren, hercomponeren — is een gebruik van AI als meta-productietool, eerder dan louter een generatieve assistent.
Bronnen - Introductie van GPT-5.4 | OpenAI
- @OpenAI op X
- @OpenAIDevs op X — Codex voor Windows
- Codex voor Windows | OpenAI Developers
- Redeneermodellen CoT-Control | OpenAI
- Aankondiging NotebookLM op X
- Verbeteren van skill-creator | Anthropic
- HTTP-hooks Claude Code — @dickson_tsai
- Claude #1 in de App Store — @RyD0ne
- Wijzigingslog Gemini CLI
- Copilot Memory nu standaard ingeschakeld | GitHub
- GitHub Mobile live agent-meldingen
- Grok Code Fast 1 nu beschikbaar in Copilot Free auto | GitHub
- Copilot CLI-metrics op gebruikersniveau | GitHub
- GPT-5.4 op Perplexity
- Voice Mode op Perplexity Computer
- Cohere × Aston Martin F1
- BFL Self-Flow
- Runway Hub multi-modellen
- Manus verjaardagsbrief
- Grok 1M beoordelingen in de App Store
Dit document is vertaald van de Franse versie naar het Nederlands met behulp van het model gpt-5-mini. Voor meer informatie over het vertaalproces, raadpleeg https://gitlab.com/jls42/ai-powered-markdown-translator