Claude Opus 4.6 och GPT-5.3-Codex: Dubbellansering, Gemini 3-uppdatering

Dubbellansering på toppen: Anthropic släpper Claude Opus 4.6 med 1M token-kontext och agentteam, medan OpenAI svarar med GPT-5.3-Codex och en företagsplattform. Google pushar Gemini 3 på alla fronter, och GitHub svarar äntligen på en 8 år gammal förfrågan.

Claude Opus 4.6: SOTA inom agentic coding och 1M kontext

5 februari — Anthropic lanserar Claude Opus 4.6, en stor uppdatering av sin smartaste modell. Modellen gör framsteg inom planering, långa sessioner, kodgranskning och erbjuder för första gången en 1 miljon token-kontext i beta för en Opus-modell.

Benchmark	Poäng	Detalj
Terminal-Bench 2.0	SOTA	Högsta poäng för agentic coding
Humanity’s Last Exam	SOTA	Multidisciplinärt resonemang
GDPval-AA	+144 Elo vs GPT-5.2	Professionellt arbete (finans, juridik)
BrowseComp	SOTA	Komplex informationssökning
MRCR v2 (8-needle 1M)	76%	vs 18.5% för Sonnet 4.5

API- och produktnyheter

Funktion	Beskrivning
Agent teams	Flera Claude Code-agenter parallellt (research preview)
Adaptive thinking	Modellen väljer när den ska använda djupt tänkande
Effort controls	4 nivåer: låg, medium, hög (standard), max
Context compaction	Automatisk sammanfattning av kontext för långa sessioner
128k output tokens	Längre utdata i en enda begäran
Claude in PowerPoint	Research preview (Max, Team, Enterprise)

Prissättning: Oförändrad vid $5/$ 25 per miljon tokens (input/output). Premiumpriser över 200k tokens ( $10/$ 37.50).

Tillgänglighet: claude.ai, API (claude-opus-4-6) och alla större molnplattformar.

Ingenjörsbloggar: infrastrukturbrus och C-kompilator

Anthropic publicerar två tekniska artiklar samma dag. Den första kvantifierar infrastrukturbrus i agentic coding benchmarks: på Terminal-Bench 2.0 kan enbart resurskonfigurationen skapa luckor på 6 procentenheter mellan uppsättningar. Den andra dokumenterar byggandet av en C-kompilator i Rust av 16 parallella Claude-agenter: 100 000 rader kod, kapabel att kompilera Linux 6.9-kärnan på x86, ARM och RISC-V, i ~2 000 Claude Code-sessioner för ~$20 000.

Opus 4.6 i GitHub Copilot

Samma dag blir Claude Opus 4.6 tillgänglig i GA i GitHub Copilot via Agent HQ, efter den offentliga förhandsvisningen som tillkännagavs dagen innan.

🔗 Opus 4.6 Tillkännagivande | Infrastrukturbrus | Bygga en C-kompilator

GPT-5.3-Codex: kodningsgräns + proffskunskap

5 februari — OpenAI lanserar GPT-5.3-Codex, som slår samman kodningsprestandan hos GPT-5.2-Codex med resonemangsförmågan hos GPT-5.2, allt 25% snabbare.

Benchmark	Poäng
SWE-Bench Pro (Offentlig)	56.8%
Terminal-Bench 2.0	77.3%
OSWorld-Verified	64.7%
GDPval (vinster eller oavgjort)	70.9%
Cybersecurity CTF	77.6%
SWE-Lancer IC Diamond	81.4%

GPT-5.3-Codex är den första modellen som har bidragit till sin egen skapelse: teamet använde preliminära versioner för att felsöka träning, hantera distribution och analysera testresultat.

Bortom kod

Modellen producerar presentationer, kalkylblad, dataanalys och hanterar produktivitetsuppgifter i en skrivbordsmiljö (64.7% på OSWorld-Verified).

Cybersäkerhet: hög kapacitet

GPT-5.3-Codex är den första modellen som klassats som hög kapacitet för cybersäkerhet under OpenAI:s beredskapsramverk, och den första som specifikt tränats för att identifiera programvarusårbarheter.

🔗 GPT-5.3-Codex Blogg | System Card

OpenAI: Frontier, MCP Apps, säkerhet och bioteknik

OpenAI Frontier: plattform för företagsagenter

5 februari — OpenAI lanserar Frontier, en plattform för att utveckla, distribuera och hantera AI-agenter i företaget. Agenter får en delad affärskontext, behörigheter och lär sig av erfarenhet.

Aspekt	Detalj
Första kunder	HP, Intuit, Oracle, State Farm, Thermo Fisher, Uber
AI-partners	Abridge, Clay, Ambience, Decagon, Harvey, Sierra
Tillvägagångssätt	Forward Deployed Engineers (FDE) integrerade i team
Standarder	Öppna standarder, kompatibel med befintliga system

ChatGPT: MCP Apps i beta

5 februari — MCP Apps kommer i beta i ChatGPT Business, Enterprise och Edu. Nya partnerkopplingar: Amplitude, Fireflies, Vercel, Monday.com, Stripe, Hex, Egnyte och andra. Organisationer kan bygga anpassade MCP-appar via utvecklarläge.

Trusted Access for Cyber

5 februari — OpenAI lanserar Trusted Access for Cyber, ett förtroendebaserat pilotprogram för åtkomst till avancerade cyberförmågor. Användare kan verifiera sin identitet på chatgpt.com/cyber. 10 miljoner dollar i API-krediter tilldelas cyberförsvar via Cybersecurity Grant Program.

GPT-5 sänker kostnaden för proteinsyntes

5 februari — I samarbete med Ginkgo Bioworks kopplar OpenAI GPT-5 till ett robotlabb för att optimera cellfri proteinsyntes (CFPS). Resultat: 40% minskning av produktionskostnaden och 57% förbättring av reagenskostnaden, efter 36 000 sammansättningar testade på 580 automatiserade plattor i sex experimentomgångar.

🔗 OpenAI Frontier | MCP Apps | Trusted Access for Cyber | GPT-5 proteiner

Google: Gemini 3, Super Bowl och NotebookLM

Gemini 3: uppdateringar och Super Bowl

5-6 februari — Google pushar Gemini 3 på alla fronter. Gemini 3 Flash, nyligen lanserad, erbjuder resonemang på Pro-nivå med Flash-hastighet: 90.4% på GPQA Diamond och 33.7% på Humanity’s Last Exam (utan verktyg). Gemini 3 blir standardmodellen för AI Overviews i Google Sök.

Google förbereder också en 60-sekunders Gemini-reklam för Super Bowl LX (8 februari) — “New Home”-spotten visar ett barn som förbereder en flytt med hjälp av Gemini, och illustrerar sökmöjligheter i Google Foton och bildgenerering.

NotebookLM: Infographics och Slide Decks

NotebookLM, nu byggt på Gemini 3, rullar ut Infographics och Slide Decks för Free- och Pro-användare. Slide Decks är redan den näst mest populära utdatastudion. Ultra-användare kan ta bort vattenstämpeln.

🔗 Gemini 3 Flash | Gemini 3 App | NotebookLM Infographics

GitHub: fästa kommentarer på Issues

5 februari — GitHub lanserar fästa kommentarer på Issues. Det är nu möjligt att fästa en kommentar högst upp i ett ärende från snabbmenyn. En funktion som efterfrågats sedan 2017 för att lyfta fram beslut, uppdateringar och viktiga nästa steg i långa trådar.

🔗 Changelog

Vad detta innebär

Den 5 februari 2026 kommer att förbli en minnesvärd dag: Anthropic och OpenAI lanserar samtidigt sina mest avancerade kodningsmodeller. Claude Opus 4.6 dominerar benchmarks för professionellt arbete och informationssökning, medan GPT-5.3-Codex utmärker sig i terminalkodning och datoranvändning. Båda modellerna gör anspråk på SOTA (State Of The Art) på Terminal-Bench 2.0 — Anthropics artikel om infrastrukturbrus är helt logisk.

Bortom modellerna intensifieras plattformskriget: OpenAI Frontier attackerar företagssegmentet med agenter utplacerade hos Oracle och Uber, medan Anthropic satsar på utvecklarekosystemet (GitHub, Xcode, Claude Code). Google rycker fram på alla fronter med Gemini 3 i Sök, Chrome och NotebookLM, och förbereder Super Bowl för att förankra Gemini i mainstream.