Dubbellansering på toppen: Anthropic släpper Claude Opus 4.6 med 1M token-kontext och agentteam, medan OpenAI svarar med GPT-5.3-Codex och en företagsplattform. Google pushar Gemini 3 på alla fronter, och GitHub svarar äntligen på en 8 år gammal förfrågan.
Claude Opus 4.6: SOTA inom agentic coding och 1M kontext
5 februari — Anthropic lanserar Claude Opus 4.6, en stor uppdatering av sin smartaste modell. Modellen gör framsteg inom planering, långa sessioner, kodgranskning och erbjuder för första gången en 1 miljon token-kontext i beta för en Opus-modell.
| Benchmark | Poäng | Detalj |
|---|---|---|
| Terminal-Bench 2.0 | SOTA | Högsta poäng för agentic coding |
| Humanity’s Last Exam | SOTA | Multidisciplinärt resonemang |
| GDPval-AA | +144 Elo vs GPT-5.2 | Professionellt arbete (finans, juridik) |
| BrowseComp | SOTA | Komplex informationssökning |
| MRCR v2 (8-needle 1M) | 76% | vs 18.5% för Sonnet 4.5 |
API- och produktnyheter
| Funktion | Beskrivning |
|---|---|
| Agent teams | Flera Claude Code-agenter parallellt (research preview) |
| Adaptive thinking | Modellen väljer när den ska använda djupt tänkande |
| Effort controls | 4 nivåer: låg, medium, hög (standard), max |
| Context compaction | Automatisk sammanfattning av kontext för långa sessioner |
| 128k output tokens | Längre utdata i en enda begäran |
| Claude in PowerPoint | Research preview (Max, Team, Enterprise) |
Prissättning: Oförändrad vid 25 per miljon tokens (input/output). Premiumpriser över 200k tokens (37.50).
Tillgänglighet: claude.ai, API (claude-opus-4-6) och alla större molnplattformar.
Ingenjörsbloggar: infrastrukturbrus och C-kompilator
Anthropic publicerar två tekniska artiklar samma dag. Den första kvantifierar infrastrukturbrus i agentic coding benchmarks: på Terminal-Bench 2.0 kan enbart resurskonfigurationen skapa luckor på 6 procentenheter mellan uppsättningar. Den andra dokumenterar byggandet av en C-kompilator i Rust av 16 parallella Claude-agenter: 100 000 rader kod, kapabel att kompilera Linux 6.9-kärnan på x86, ARM och RISC-V, i ~2 000 Claude Code-sessioner för ~$20 000.
Opus 4.6 i GitHub Copilot
Samma dag blir Claude Opus 4.6 tillgänglig i GA i GitHub Copilot via Agent HQ, efter den offentliga förhandsvisningen som tillkännagavs dagen innan.
🔗 Opus 4.6 Tillkännagivande | Infrastrukturbrus | Bygga en C-kompilator
GPT-5.3-Codex: kodningsgräns + proffskunskap
5 februari — OpenAI lanserar GPT-5.3-Codex, som slår samman kodningsprestandan hos GPT-5.2-Codex med resonemangsförmågan hos GPT-5.2, allt 25% snabbare.
| Benchmark | Poäng |
|---|---|
| SWE-Bench Pro (Offentlig) | 56.8% |
| Terminal-Bench 2.0 | 77.3% |
| OSWorld-Verified | 64.7% |
| GDPval (vinster eller oavgjort) | 70.9% |
| Cybersecurity CTF | 77.6% |
| SWE-Lancer IC Diamond | 81.4% |
GPT-5.3-Codex är den första modellen som har bidragit till sin egen skapelse: teamet använde preliminära versioner för att felsöka träning, hantera distribution och analysera testresultat.
Bortom kod
Modellen producerar presentationer, kalkylblad, dataanalys och hanterar produktivitetsuppgifter i en skrivbordsmiljö (64.7% på OSWorld-Verified).
Cybersäkerhet: hög kapacitet
GPT-5.3-Codex är den första modellen som klassats som hög kapacitet för cybersäkerhet under OpenAI:s beredskapsramverk, och den första som specifikt tränats för att identifiera programvarusårbarheter.
🔗 GPT-5.3-Codex Blogg | System Card
OpenAI: Frontier, MCP Apps, säkerhet och bioteknik
OpenAI Frontier: plattform för företagsagenter
5 februari — OpenAI lanserar Frontier, en plattform för att utveckla, distribuera och hantera AI-agenter i företaget. Agenter får en delad affärskontext, behörigheter och lär sig av erfarenhet.
| Aspekt | Detalj |
|---|---|
| Första kunder | HP, Intuit, Oracle, State Farm, Thermo Fisher, Uber |
| AI-partners | Abridge, Clay, Ambience, Decagon, Harvey, Sierra |
| Tillvägagångssätt | Forward Deployed Engineers (FDE) integrerade i team |
| Standarder | Öppna standarder, kompatibel med befintliga system |
ChatGPT: MCP Apps i beta
5 februari — MCP Apps kommer i beta i ChatGPT Business, Enterprise och Edu. Nya partnerkopplingar: Amplitude, Fireflies, Vercel, Monday.com, Stripe, Hex, Egnyte och andra. Organisationer kan bygga anpassade MCP-appar via utvecklarläge.
Trusted Access for Cyber
5 februari — OpenAI lanserar Trusted Access for Cyber, ett förtroendebaserat pilotprogram för åtkomst till avancerade cyberförmågor. Användare kan verifiera sin identitet på chatgpt.com/cyber. 10 miljoner dollar i API-krediter tilldelas cyberförsvar via Cybersecurity Grant Program.
GPT-5 sänker kostnaden för proteinsyntes
5 februari — I samarbete med Ginkgo Bioworks kopplar OpenAI GPT-5 till ett robotlabb för att optimera cellfri proteinsyntes (CFPS). Resultat: 40% minskning av produktionskostnaden och 57% förbättring av reagenskostnaden, efter 36 000 sammansättningar testade på 580 automatiserade plattor i sex experimentomgångar.
🔗 OpenAI Frontier | MCP Apps | Trusted Access for Cyber | GPT-5 proteiner
Google: Gemini 3, Super Bowl och NotebookLM
Gemini 3: uppdateringar och Super Bowl
5-6 februari — Google pushar Gemini 3 på alla fronter. Gemini 3 Flash, nyligen lanserad, erbjuder resonemang på Pro-nivå med Flash-hastighet: 90.4% på GPQA Diamond och 33.7% på Humanity’s Last Exam (utan verktyg). Gemini 3 blir standardmodellen för AI Overviews i Google Sök.
Google förbereder också en 60-sekunders Gemini-reklam för Super Bowl LX (8 februari) — “New Home”-spotten visar ett barn som förbereder en flytt med hjälp av Gemini, och illustrerar sökmöjligheter i Google Foton och bildgenerering.
NotebookLM: Infographics och Slide Decks
NotebookLM, nu byggt på Gemini 3, rullar ut Infographics och Slide Decks för Free- och Pro-användare. Slide Decks är redan den näst mest populära utdatastudion. Ultra-användare kan ta bort vattenstämpeln.
🔗 Gemini 3 Flash | Gemini 3 App | NotebookLM Infographics
GitHub: fästa kommentarer på Issues
5 februari — GitHub lanserar fästa kommentarer på Issues. Det är nu möjligt att fästa en kommentar högst upp i ett ärende från snabbmenyn. En funktion som efterfrågats sedan 2017 för att lyfta fram beslut, uppdateringar och viktiga nästa steg i långa trådar.
Vad detta innebär
Den 5 februari 2026 kommer att förbli en minnesvärd dag: Anthropic och OpenAI lanserar samtidigt sina mest avancerade kodningsmodeller. Claude Opus 4.6 dominerar benchmarks för professionellt arbete och informationssökning, medan GPT-5.3-Codex utmärker sig i terminalkodning och datoranvändning. Båda modellerna gör anspråk på SOTA (State Of The Art) på Terminal-Bench 2.0 — Anthropics artikel om infrastrukturbrus är helt logisk.
Bortom modellerna intensifieras plattformskriget: OpenAI Frontier attackerar företagssegmentet med agenter utplacerade hos Oracle och Uber, medan Anthropic satsar på utvecklarekosystemet (GitHub, Xcode, Claude Code). Google rycker fram på alla fronter med Gemini 3 i Sök, Chrome och NotebookLM, och förbereder Super Bowl för att förankra Gemini i mainstream.
Källor
- Introducing Claude Opus 4.6
- Quantifying infrastructure noise
- Building a C compiler with parallel Claudes
- Introducing GPT-5.3-Codex
- GPT-5.3-Codex System Card
- Introducing OpenAI Frontier
- Introducing apps in ChatGPT
- Trusted Access for Cyber
- GPT-5 lowers protein synthesis cost
- Gemini 3 Flash
- NotebookLM Infographics
- Pinned comments on GitHub Issues