Veckan avslutas med flera betydande tillkännagivanden: OpenAIs GPT-5.4 konsoliderar inbyggd computer use med 75 % på OSWorld och ett kontextfönster på en miljon tokens, NotebookLM introducerar Cinematic Video Overviews där Gemini agerar regissör, och Codex utökar stöd till Windows med en inbyggd sandbox. På utvecklarfronten förbättrar Anthropic skill-creator och lanserar HTTP hooks i Claude Code, och GitHub aktiverar Copilot Memory som standard för Pro-användare.
GPT-5.4 — Inbyggd computer use, 1M tokens, tool search
5 mars 2026 — OpenAI släpper GPT-5.4, sin frontier-modell för professionellt arbete. Tillgänglig i ChatGPT (under namnet GPT-5.4 Thinking), i API:et (identifier gpt-5.4) och i Codex, konsoliderar denna modell i en enda arkitektur förmågor inom resonemang, kodning och agentiska arbetsflöden (agentic workflows) som introducerats i tidigare modeller.
Den mest betydande tekniska nyheten är integrationen av inbyggd computer use: GPT-5.4 kan operera grafiska gränssnitt via skärmdumpar och tangentbord/mus utan tredjepartsplugin. På OSWorld-Verified — benchmarken för interaktion med verkliga programgränssnitt — når GPT-5.4 75,0 %, jämfört med 47,3 % för GPT-5.2. Kontextfönstret utökas till 1 miljon tokens i Codex och API:et.
En annan viktig nyhet är tool search: istället för att få hela listan över tillgängliga verktyg vid varje anrop får modellen en lättviktslista och söker upp verktyg vid behov. OpenAI mäter en minskning på 47 % i tokenförbrukning för arbetsflöden med många verktyg (testat på Scale MCP Atlas). Läget /fast i Codex vinner 1,5× i hastighet vid samma intelligensnivå.
Benchmarks :
| Utvärdering | GPT-5.4 | GPT-5.3-Codex | GPT-5.2 |
|---|---|---|---|
| GDPval (professionellt arbete) | 83,0 % | 70,9 % | 70,9 % |
| SWE-Bench Pro | 57,7 % | 56,8 % | 55,6 % |
| OSWorld-Verified (computer use) | 75,0 % | 74,0 % | 47,3 % |
| BrowseComp (webbsökning) | 82,7 % | 77,3 % | 65,8 % |
| Toolathlon (verktygsanvändning) | 54,6 % | 51,9 % | 46,3 % |
| ARC-AGI-2 (abstrakt resonemang) | 73,3 % | — | 52,9 % |
API-priser :
| Modell | Inmatning | Utmatning |
|---|---|---|
| gpt-5.2 | 1,75 $ / M tokens | 14 $ / M tokens |
| gpt-5.4 | 2,50 $ / M tokens | 15 $ / M tokens |
| gpt-5.2-pro | 21 $ / M tokens | 168 $ / M tokens |
| gpt-5.4-pro | 30 $ / M tokens | 180 $ / M tokens |
GPT-5.4 Thinking är tillgänglig idag för ChatGPT Plus-, Team- och Pro-prenumeranter. GPT-5.2 Thinking förblir tillgänglig under “Legacy Models” fram till 5 juni 2026. Vad gäller säkerhet klassificerar OpenAI GPT-5.4 som “High cyber capability” i sitt Preparedness Framework. Företaget publicerar samtidigt CoT-Control, en öppen källkodssvit för utvärdering som mäter kontrollerbarheten i chain-of-thought hos 13 frontier-modeller — poängen, låga (0,1 % till 15,4 %), indikerar att övervakning av tankekedjor fortfarande är ett tillförlitligt säkerhetsverktyg.
🔗 Introducerar GPT-5.4 | OpenAI
NotebookLM — Cinematic Video Overviews
4 mars 2026 — NotebookLM introducerar Cinematic Video Overviews i sitt Studio. Dessa videor går längre än Audio Overviews (podcast-formatet) som lanserades 2024 och standardvideotemplaten.
Principen: Gemini är positionerad som regissör. Modellen analyserar användarens källor, bestämmer det mest lämpliga formatet (handledning, dokumentär etc.), väljer en visuell stil, genererar bilder och självkritiserar dem innan den producerar slutversionen. Resultatet är en uppslukande och personaliserad video, unik för varje källmaterial.
Funktionen är tillgänglig för Google AI Ultra-abonnenter, på engelska, sedan 4 mars 2026. Full utrullning till Ultra-användare bekräftades samma dag. Ett tillträde för Pro-abonnenter finns med i roadmapen utan exakt tidplan. Tillkännagivandet på Twitter fick 3 miljoner visningar.
OpenAI — Codex på Windows, CoT-Control-forskning
Codex tillgängligt på Windows
4 mars 2026 — Applikationen Codex finns nu tillgänglig på Windows, med en inbyggd agent-sandbox och stöd för Windows-utvecklingsmiljöer via PowerShell. Två nya skills finns: $aspnet-core för Blazor-, ASP.NET MVC- och Razor Pages-appar, och $winui-app för native Windows-appar med WinUI 3.
Forskning — kontroll över chain-of-thought
5 mars 2026 — OpenAI publicerar “Reasoning models struggle to control their chains of thought, and that’s good”. Den öppna utvärderingssviten CoT-Control mäter controllability i chain-of-thought för 13 frontier-modeller. Poängen varierar mellan 0,1 % och 15,4 %, vilket antyder att dagens modeller har svårt att avsiktligt ändra sitt resonemang för att kringgå övervakningssystem — ett resultat som presenteras som positivt för säkerheten. OpenAI planerar att inkludera dessa mätvärden i framtida system cards.
🔗 CoT-Control-forskning | OpenAI
Anthropic — Förbättrat skill-creator och HTTP hooks
Förbättrat skill-creator
3 mars 2026 — Anthropic publicerar en stor uppdatering av sitt tool skill-creator för Claude Code och Claude.ai. Tillkännagivandet introducerar två formella typer av Agent Skills:
| Typ | Beskrivning | Hållbarhet |
|---|---|---|
| Capability uplift | Hjälper Claude att göra något hen ännu inte behärskar väl | Kan bli föråldrad om modellen förbättras |
| Encoded preference | Kodar teamets processer och preferenser | Hållbar, beroende av trohet till verkligt arbetsflöde |
Nya funktioner: evals (automatiska tester) för att verifiera att en skill ger väntat resultat, benchmark-läge för att mäta framgångsgrad, tid och tokenförbrukning, samt multi-agent-stöd för att köra utvärderingar parallellt utan korskontaminering mellan tester. Ett A/B-jämförelseläge låter två versioner av en skill ställas mot varandra. Skill-creator finns nu tillgängligt på Claude.ai och Cowork; för Claude Code installeras det som plugin.
🔗 Förbättra skill-creator: Testa, mät och finslipa Agent Skills
HTTP hooks i Claude Code
4 mars 2026 — Claude Code lanserar HTTP hooks, ett alternativ till befintliga command hooks. Istället för att köra ett lokalt shell-skript skickar Claude Code en händelse till en användarvald URL och väntar på ett svar. Användningsfall: bygga en webbapp för att visualisera framsteg, hantera behörigheter eller synkronisera status mellan flera instanser av Claude Code via en databas. HTTP hooks fungerar i plugins, anpassade agenter och i företagsstyrda inställningar.
Gemini CLI v0.32.0 — Generalist Agent som standard
3 mars 2026 — Gemini CLI version 0.32.0 aktiverar Generalist Agent som standard för att förbättra delegering och routing av uppgifter. Uppdateringen innehåller också Model Steering direkt i workspace, förbättringar av Plan Mode (öppna och ändra planer i en extern editor, multi-val för komplexa uppgifter), interaktiv autokomplettering i shell och parallell laddning av extensions för snabbare uppstart.
GitHub Copilot — Memory som standard, mobil och mätvärden
Copilot Memory aktiverat som standard
4 mars 2026 — GitHub aktiverar Copilot Memory som standard för alla användare på Pro- och Pro+-planerna. Funktionen, tidigare i preview som frivillig prenumeration, gör att Copilot kan behålla persistent information på repositoriesnivå: kodningskonventioner, arkitekturmönster, kritiska beroenden.
Minnena begränsas strikt till ett repo och valideras mot aktuell kod innan de appliceras, vilket förhindrar användning av föråldrat kontext. De löper ut automatiskt efter 28 dagar. Funktionen är aktiv i kodningsagenten, kodgranskning och Copilot CLI — kunskap som upptäcks av en agent blir omedelbart tillgänglig för andra. Användare kan stänga av Copilot Memory i sina inställningar (Settings > Features > Copilot Memory); Enterprise-administratörer behåller full kontroll.
🔗 Copilot Memory now on by default for Pro and Pro+ users
Live-notiser för agenter i GitHub Mobile
4 mars 2026 — GitHub Mobile får realtidsnotiser för Copilot-agent-sessioner. Utvecklare kan följa sina agenter, oavsett om sessionen startats från en dator eller telefon.
🔗 GitHub Mobile | Tillkännagivande på X
Grok Code Fast 1 i Copilot Free Auto
4 mars 2026 — GitHub lägger till Grok Code Fast 1 från xAI i den automatiska modellurvalet (Auto) för Copilot Free. Denna modell kan nu väljas automatiskt av Copilot under chatt-sessioner i Visual Studio Code, Visual Studio, JetBrains IDEs, Xcode och Eclipse.
🔗 Grok Code Fast 1 i Copilot Free auto model selection
Copilot CLI-metriker på användarnivå
5 mars 2026 — GitHub utökar Copilot-användningsmetrik till att omfatta CLI-aktivitet på användarnivå. Denna uppdatering följer förra veckans enterprise-release. Administratörer kan nu identifiera aktiva CLI-användare, se antal förfrågningar och sessioner, samt följa tokenförbrukning per användare.
🔗 Copilot usage metrics — user-level CLI activity
Perplexity — GPT-5.4 och Voice Mode i Computer
GPT-5.4 Thinking tillgänglig på Perplexity
5 mars 2026 — GPT-5.4 och GPT-5.4 Thinking är nu tillgängliga i Perplexity för Pro- och Max-prenumeranter. Thinking-versionen aktiverar GPT-5.4:s utökade resonemang för mer djupgående svar på komplexa frågor.
Voice Mode i Perplexity Computer
4 mars 2026 — Perplexity introducerar ett Voice Mode i Perplexity Computer. Gränssnittet, som redan kunde söka, koda och distribuera projekt, accepterar nu talade instruktioner direkt.
Cohere × Aston Martin F1 — flerårigt partnerskap
4 mars 2026 — Cohere tillkännager ett flerårigt partnerskap med Aston Martin Aramco F1-teamet. Varje teammedlem får tillgång till företagsmodellerna och Cohere North-plattformen för agentisk AI, för att arbeta i en av de mest krävande datamiljöerna inom internationell motorsport. Cohere-logotypen syns på bilen från Australiens Grand Prix 2026.
Black Forest Labs — Self-Flow, multimodal forskning
4 mars 2026 — Black Forest Labs (skaparna av FLUX) publicerar Self-Flow i research preview. Metoden tränar generativa multimodala modeller (bild, video, ljud, text) utan att förlita sig på externa representationsmodeller, genom en självövervakad flow-matching-metod (self-supervised flow matching).
Presenterade resultat: upp till 2,8× snabbare konvergens i cross-modal träning, bättre temporal koherens i video, skarpare typografisk rendering. Demonstrationerna inkluderar en videomodell på 4B parametrar tränad på 6M videor, en bildmodell på 4B parametrar tränad på 200M bilder, samt en gemensam audio-video-modell. BFL positionerar Self-Flow som en väg mot world models: “Self-Flow opens a path toward world models: combining visual scalability with semantic abstraction for planning and understanding.”
Kort sagt
Runway lanserade en hub för enhetliga modeller den 3 mars, som centraliserar åtkomst till tredjepartsmodeller för bild, video, ljud och språk direkt i plattformen. 🔗 Tillkännagivande
Claude nådde förstaplatsen i iOS App Store i 14 länder samtidigt den 5 mars — Australien, Österrike, Belgien, Kanada, Frankrike, Tyskland, Irland, Italien, Nya Zeeland, Norge, Singapore, Schweiz, Storbritannien, USA. 🔗 Tweet
Manus publicerade sitt årsbrev den 5 mars i samband med sitt första jubileum, med användarberättelser (en mamma, en 86-årig lingvist, en blomsterhandlare). 🔗 Brev
Grok passerade milstolpen en miljon recensioner i amerikanska App Store. 🔗 Tweet @grok
Vad det betyder
GPT-5.4 bekräftar att computer use går från experimentell status till en inbyggd funktion i en mångsidig modell. 75 %-resultatet på OSWorld-Verified och 47 %-minskningen i tokens tack vare tool search är konkreta mått på ett paradigmskifte: AI-agenter kan nu operera komplexa programgränssnitt utan specialiserad infrastruktur.
På verktygsfronten visar veckan en konvergens: Anthropic förbättrar hur man testar och övervakar agent-skills, GitHub aktiverar persistenta minnen för sina kodningsagenter, och Perplexity lägger till talstyrning i sitt Computer-agent. Agentiska runtime-miljöer förses med lager av minne, observabilitet (HTTP hooks, mobila notiser) och naturlig interaktion (tal).
NotebookLM:s Cinematic Video Overviews illustrerar en annan riktning: generering av längre pedagogiskt innehåll från personliga källor. Gemini som regissör — analysera, kritisera, återskapa — är ett exempel på AI som ett meta-produktionsverktyg, snarare än en enkel generativ assistent.
Källor - Introducerar GPT-5.4 | OpenAI
- @OpenAI på X
- @OpenAIDevs på X — Codex för Windows
- Codex för Windows | OpenAI Developers
- Resoneringsmodeller CoT-Control | OpenAI
- NotebookLM-tillkännagivande på X
- Förbättra skill-creator | Anthropic
- HTTP-hooks för Claude Code — @dickson_tsai
- Claude #1 i App Store — @RyD0ne
- Ändringslogg Gemini CLI
- Copilot Memory är nu aktiverat som standard | GitHub
- GitHub Mobile live agent-notifikationer
- Grok Code Fast 1 i Copilot Free auto | GitHub
- Copilot CLI-metriker på användarnivå | GitHub
- GPT-5.4 på Perplexity
- Röstläge Perplexity Computer
- Cohere × Aston Martin F1
- BFL Self-Flow
- Runway Hub multimodeller
- Manus jubileumsbrev
- Grok 1M recensioner i App Store
Detta dokument har översatts från fr-versionen till sv-språket med modellen gpt-5-mini. För mer information om översättningsprocessen, se https://gitlab.com/jls42/ai-powered-markdown-translator