GPT-5.4 med inbyggd computer use, NotebookLM Cinematic Videos, Codex på Windows

Veckan avslutas med flera betydande tillkännagivanden: OpenAIs GPT-5.4 konsoliderar inbyggd computer use med 75 % på OSWorld och ett kontextfönster på en miljon tokens, NotebookLM introducerar Cinematic Video Overviews där Gemini agerar regissör, och Codex utökar stöd till Windows med en inbyggd sandbox. På utvecklarfronten förbättrar Anthropic skill-creator och lanserar HTTP hooks i Claude Code, och GitHub aktiverar Copilot Memory som standard för Pro-användare.

GPT-5.4 — Inbyggd computer use, 1M tokens, tool search

5 mars 2026 — OpenAI släpper GPT-5.4, sin frontier-modell för professionellt arbete. Tillgänglig i ChatGPT (under namnet GPT-5.4 Thinking), i API:et (identifier gpt-5.4) och i Codex, konsoliderar denna modell i en enda arkitektur förmågor inom resonemang, kodning och agentiska arbetsflöden (agentic workflows) som introducerats i tidigare modeller.

Den mest betydande tekniska nyheten är integrationen av inbyggd computer use: GPT-5.4 kan operera grafiska gränssnitt via skärmdumpar och tangentbord/mus utan tredjepartsplugin. På OSWorld-Verified — benchmarken för interaktion med verkliga programgränssnitt — når GPT-5.4 75,0 %, jämfört med 47,3 % för GPT-5.2. Kontextfönstret utökas till 1 miljon tokens i Codex och API:et.

En annan viktig nyhet är tool search: istället för att få hela listan över tillgängliga verktyg vid varje anrop får modellen en lättviktslista och söker upp verktyg vid behov. OpenAI mäter en minskning på 47 % i tokenförbrukning för arbetsflöden med många verktyg (testat på Scale MCP Atlas). Läget /fast i Codex vinner 1,5× i hastighet vid samma intelligensnivå.

Benchmarks :

Utvärdering	GPT-5.4	GPT-5.3-Codex	GPT-5.2
GDPval (professionellt arbete)	83,0 %	70,9 %	70,9 %
SWE-Bench Pro	57,7 %	56,8 %	55,6 %
OSWorld-Verified (computer use)	75,0 %	74,0 %	47,3 %
BrowseComp (webbsökning)	82,7 %	77,3 %	65,8 %
Toolathlon (verktygsanvändning)	54,6 %	51,9 %	46,3 %
ARC-AGI-2 (abstrakt resonemang)	73,3 %	—	52,9 %

API-priser :

Modell	Inmatning	Utmatning
gpt-5.2	1,75 $ / M tokens	14 $ / M tokens
gpt-5.4	2,50 $ / M tokens	15 $ / M tokens
gpt-5.2-pro	21 $ / M tokens	168 $ / M tokens
gpt-5.4-pro	30 $ / M tokens	180 $ / M tokens

GPT-5.4 Thinking är tillgänglig idag för ChatGPT Plus-, Team- och Pro-prenumeranter. GPT-5.2 Thinking förblir tillgänglig under “Legacy Models” fram till 5 juni 2026. Vad gäller säkerhet klassificerar OpenAI GPT-5.4 som “High cyber capability” i sitt Preparedness Framework. Företaget publicerar samtidigt CoT-Control, en öppen källkodssvit för utvärdering som mäter kontrollerbarheten i chain-of-thought hos 13 frontier-modeller — poängen, låga (0,1 % till 15,4 %), indikerar att övervakning av tankekedjor fortfarande är ett tillförlitligt säkerhetsverktyg.

🔗 Introducerar GPT-5.4 | OpenAI

NotebookLM — Cinematic Video Overviews

4 mars 2026 — NotebookLM introducerar Cinematic Video Overviews i sitt Studio. Dessa videor går längre än Audio Overviews (podcast-formatet) som lanserades 2024 och standardvideotemplaten.

Principen: Gemini är positionerad som regissör. Modellen analyserar användarens källor, bestämmer det mest lämpliga formatet (handledning, dokumentär etc.), väljer en visuell stil, genererar bilder och självkritiserar dem innan den producerar slutversionen. Resultatet är en uppslukande och personaliserad video, unik för varje källmaterial.

Funktionen är tillgänglig för Google AI Ultra-abonnenter, på engelska, sedan 4 mars 2026. Full utrullning till Ultra-användare bekräftades samma dag. Ett tillträde för Pro-abonnenter finns med i roadmapen utan exakt tidplan. Tillkännagivandet på Twitter fick 3 miljoner visningar.

🔗 NotebookLM-annonsering på X

OpenAI — Codex på Windows, CoT-Control-forskning

Codex tillgängligt på Windows

4 mars 2026 — Applikationen Codex finns nu tillgänglig på Windows, med en inbyggd agent-sandbox och stöd för Windows-utvecklingsmiljöer via PowerShell. Två nya skills finns: $aspnet-core för Blazor-, ASP.NET MVC- och Razor Pages-appar, och $winui-app för native Windows-appar med WinUI 3.

🔗 @OpenAIDevs på X

Forskning — kontroll över chain-of-thought

5 mars 2026 — OpenAI publicerar “Reasoning models struggle to control their chains of thought, and that’s good”. Den öppna utvärderingssviten CoT-Control mäter controllability i chain-of-thought för 13 frontier-modeller. Poängen varierar mellan 0,1 % och 15,4 %, vilket antyder att dagens modeller har svårt att avsiktligt ändra sitt resonemang för att kringgå övervakningssystem — ett resultat som presenteras som positivt för säkerheten. OpenAI planerar att inkludera dessa mätvärden i framtida system cards.

🔗 CoT-Control-forskning | OpenAI

Anthropic — Förbättrat skill-creator och HTTP hooks

Förbättrat skill-creator

3 mars 2026 — Anthropic publicerar en stor uppdatering av sitt tool skill-creator för Claude Code och Claude.ai. Tillkännagivandet introducerar två formella typer av Agent Skills:

Typ	Beskrivning	Hållbarhet
Capability uplift	Hjälper Claude att göra något hen ännu inte behärskar väl	Kan bli föråldrad om modellen förbättras
Encoded preference	Kodar teamets processer och preferenser	Hållbar, beroende av trohet till verkligt arbetsflöde

Nya funktioner: evals (automatiska tester) för att verifiera att en skill ger väntat resultat, benchmark-läge för att mäta framgångsgrad, tid och tokenförbrukning, samt multi-agent-stöd för att köra utvärderingar parallellt utan korskontaminering mellan tester. Ett A/B-jämförelseläge låter två versioner av en skill ställas mot varandra. Skill-creator finns nu tillgängligt på Claude.ai och Cowork; för Claude Code installeras det som plugin.

🔗 Förbättra skill-creator: Testa, mät och finslipa Agent Skills

HTTP hooks i Claude Code

4 mars 2026 — Claude Code lanserar HTTP hooks, ett alternativ till befintliga command hooks. Istället för att köra ett lokalt shell-skript skickar Claude Code en händelse till en användarvald URL och väntar på ett svar. Användningsfall: bygga en webbapp för att visualisera framsteg, hantera behörigheter eller synkronisera status mellan flera instanser av Claude Code via en databas. HTTP hooks fungerar i plugins, anpassade agenter och i företagsstyrda inställningar.

🔗 Tweet @dickson_tsai

Gemini CLI v0.32.0 — Generalist Agent som standard

3 mars 2026 — Gemini CLI version 0.32.0 aktiverar Generalist Agent som standard för att förbättra delegering och routing av uppgifter. Uppdateringen innehåller också Model Steering direkt i workspace, förbättringar av Plan Mode (öppna och ändra planer i en extern editor, multi-val för komplexa uppgifter), interaktiv autokomplettering i shell och parallell laddning av extensions för snabbare uppstart.

🔗 Changelog Gemini CLI

GitHub Copilot — Memory som standard, mobil och mätvärden

Copilot Memory aktiverat som standard

4 mars 2026 — GitHub aktiverar Copilot Memory som standard för alla användare på Pro- och Pro+-planerna. Funktionen, tidigare i preview som frivillig prenumeration, gör att Copilot kan behålla persistent information på repositoriesnivå: kodningskonventioner, arkitekturmönster, kritiska beroenden.

Minnena begränsas strikt till ett repo och valideras mot aktuell kod innan de appliceras, vilket förhindrar användning av föråldrat kontext. De löper ut automatiskt efter 28 dagar. Funktionen är aktiv i kodningsagenten, kodgranskning och Copilot CLI — kunskap som upptäcks av en agent blir omedelbart tillgänglig för andra. Användare kan stänga av Copilot Memory i sina inställningar (Settings > Features > Copilot Memory); Enterprise-administratörer behåller full kontroll.

🔗 Copilot Memory now on by default for Pro and Pro+ users

Live-notiser för agenter i GitHub Mobile

4 mars 2026 — GitHub Mobile får realtidsnotiser för Copilot-agent-sessioner. Utvecklare kan följa sina agenter, oavsett om sessionen startats från en dator eller telefon.

🔗 GitHub Mobile | Tillkännagivande på X

Grok Code Fast 1 i Copilot Free Auto

4 mars 2026 — GitHub lägger till Grok Code Fast 1 från xAI i den automatiska modellurvalet (Auto) för Copilot Free. Denna modell kan nu väljas automatiskt av Copilot under chatt-sessioner i Visual Studio Code, Visual Studio, JetBrains IDEs, Xcode och Eclipse.

🔗 Grok Code Fast 1 i Copilot Free auto model selection

Copilot CLI-metriker på användarnivå

5 mars 2026 — GitHub utökar Copilot-användningsmetrik till att omfatta CLI-aktivitet på användarnivå. Denna uppdatering följer förra veckans enterprise-release. Administratörer kan nu identifiera aktiva CLI-användare, se antal förfrågningar och sessioner, samt följa tokenförbrukning per användare.

🔗 Copilot usage metrics — user-level CLI activity

Perplexity — GPT-5.4 och Voice Mode i Computer

GPT-5.4 Thinking tillgänglig på Perplexity

5 mars 2026 — GPT-5.4 och GPT-5.4 Thinking är nu tillgängliga i Perplexity för Pro- och Max-prenumeranter. Thinking-versionen aktiverar GPT-5.4:s utökade resonemang för mer djupgående svar på komplexa frågor.

🔗 Tillkännagivande på X

Voice Mode i Perplexity Computer

4 mars 2026 — Perplexity introducerar ett Voice Mode i Perplexity Computer. Gränssnittet, som redan kunde söka, koda och distribuera projekt, accepterar nu talade instruktioner direkt.

🔗 Tillkännagivande på X

Cohere × Aston Martin F1 — flerårigt partnerskap

4 mars 2026 — Cohere tillkännager ett flerårigt partnerskap med Aston Martin Aramco F1-teamet. Varje teammedlem får tillgång till företagsmodellerna och Cohere North-plattformen för agentisk AI, för att arbeta i en av de mest krävande datamiljöerna inom internationell motorsport. Cohere-logotypen syns på bilen från Australiens Grand Prix 2026.

🔗 Cohere-annonsering på X

Black Forest Labs — Self-Flow, multimodal forskning

4 mars 2026 — Black Forest Labs (skaparna av FLUX) publicerar Self-Flow i research preview. Metoden tränar generativa multimodala modeller (bild, video, ljud, text) utan att förlita sig på externa representationsmodeller, genom en självövervakad flow-matching-metod (self-supervised flow matching).

Presenterade resultat: upp till 2,8× snabbare konvergens i cross-modal träning, bättre temporal koherens i video, skarpare typografisk rendering. Demonstrationerna inkluderar en videomodell på 4B parametrar tränad på 6M videor, en bildmodell på 4B parametrar tränad på 200M bilder, samt en gemensam audio-video-modell. BFL positionerar Self-Flow som en väg mot world models: “Self-Flow opens a path toward world models: combining visual scalability with semantic abstraction for planning and understanding.”

🔗 Tweet @bfl_ml

Kort sagt

Runway lanserade en hub för enhetliga modeller den 3 mars, som centraliserar åtkomst till tredjepartsmodeller för bild, video, ljud och språk direkt i plattformen. 🔗 Tillkännagivande

Claude nådde förstaplatsen i iOS App Store i 14 länder samtidigt den 5 mars — Australien, Österrike, Belgien, Kanada, Frankrike, Tyskland, Irland, Italien, Nya Zeeland, Norge, Singapore, Schweiz, Storbritannien, USA. 🔗 Tweet

Manus publicerade sitt årsbrev den 5 mars i samband med sitt första jubileum, med användarberättelser (en mamma, en 86-årig lingvist, en blomsterhandlare). 🔗 Brev

Grok passerade milstolpen en miljon recensioner i amerikanska App Store. 🔗 Tweet @grok

Vad det betyder

GPT-5.4 bekräftar att computer use går från experimentell status till en inbyggd funktion i en mångsidig modell. 75 %-resultatet på OSWorld-Verified och 47 %-minskningen i tokens tack vare tool search är konkreta mått på ett paradigmskifte: AI-agenter kan nu operera komplexa programgränssnitt utan specialiserad infrastruktur.

På verktygsfronten visar veckan en konvergens: Anthropic förbättrar hur man testar och övervakar agent-skills, GitHub aktiverar persistenta minnen för sina kodningsagenter, och Perplexity lägger till talstyrning i sitt Computer-agent. Agentiska runtime-miljöer förses med lager av minne, observabilitet (HTTP hooks, mobila notiser) och naturlig interaktion (tal).

NotebookLM:s Cinematic Video Overviews illustrerar en annan riktning: generering av längre pedagogiskt innehåll från personliga källor. Gemini som regissör — analysera, kritisera, återskapa — är ett exempel på AI som ett meta-produktionsverktyg, snarare än en enkel generativ assistent.

Källor - Introducerar GPT-5.4 | OpenAI

Detta dokument har översatts från fr-versionen till sv-språket med modellen gpt-5-mini. För mer information om översättningsprocessen, se https://gitlab.com/jls42/ai-powered-markdown-translator