Z.ai lanserar GLM-5, sin nya open-source flaggskeppsmodell med 744 miljarder parametrar under MIT-licens, som klättrar till förstaplatsen bland open-source-modeller inom kodning och agentiska uppgifter. Anthropic publicerar en sabotageriskrapport enligt ASL-4 för Opus 4.6, OpenAI berikar sitt API med agentiska primitiver, och Kimi avslöjar ett system med 100 parallella underagenter. På ekosystemsidan tar Runway in 315 miljoner dollar och ElevenLabs lanserar ett uttrycksfullt läge för sina röstagenter.
Z.ai lanserar GLM-5: 744B parametrar, open-source under MIT-licens
11 februari — Z.ai (Zhipu AI) lanserar GLM-5, sin nya frontiermodell designad för komplex systemteknik och långvariga agentiska uppgifter. Jämfört med GLM-4.5 växer modellen från 355B parametrar (32B aktiva) till 744B parametrar (40B aktiva), med förträningsdata som ökar från 23T till 28,5T tokens.
GLM-5 integrerar DeepSeek Sparse Attention (DSA) för att minska driftsättningskostnader samtidigt som förmågan för lång kontext bevaras, och introducerar “slime”, en asynkron infrastruktur för förstärkningsinlärning som förbättrar genomströmningen efter träning.
| Benchmark | GLM-5 | GLM-4.7 | Kimi K2.5 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|---|
| SWE-bench Verified | 77,8% | 73,8% | 76,8% | 80,9% | 76,2% |
| HLE (text) | 30,5 | 24,8 | 31,5 | 28,4 | 37,2 |
| HLE w/ Tools | 50,4 | 42,8 | 51,8 | 43,4 | 45,8 |
| Terminal-Bench 2.0 | 56,2 | 41,0 | 50,8 | 59,3 | 54,2 |
| Vending Bench 2 | $4 432 | $2 377 | $1 198 | $4 967 | $5 478 |
GLM-5 positionerar sig som den bästa open-source-modellen inom resonemang, kodning och agentiska uppgifter, och minskar gapet till proprietära frontiermodeller. På Vending Bench 2, ett benchmark som simulerar hanteringen av en varuautomat under ett år, slutar GLM-5 med ett saldo på 4 967).
Utöver kod kan GLM-5 direkt generera .docx, .pdf och .xlsx-filer — offerter, finansiella rapporter, kalkylblad — levererade nyckelfärdiga. Z.ai driftsätter ett Agent-läge med inbyggda färdigheter för dokumentskapande, vilket stöder samarbete i flera turer.
Modellvikterna publiceras på Hugging Face under MIT-licens. GLM-5 är kompatibel med Claude Code och OpenClaw, och tillgänglig på OpenRouter. Driftsättningen är progressiv och börjar med Coding Plan Max-prenumeranter.
🔗 GLM-5 Teknisk Blogg 🔗 Tillkännagivande på X
Anthropic publicerar första ASL-4 sabotageriskrapport
11 februari — Anthropic publicerar en sabotageriskrapport för Claude Opus 4.6, i väntan på säkerhetströskeln ASL-4 (AI Safety Level 4) för autonom AI FoU.
Vid lanseringen av Claude Opus 4.5 åtog sig Anthropic att skriva sabotageriskrapporter för varje ny frontiermodell. Istället för att navigera bland vaga trösklar valde företaget att proaktivt respektera den högre säkerhetsstandarden ASL-4.
| Element | Detalj |
|---|---|
| Utvärderad modell | Claude Opus 4.6 |
| Säkerhetströskel | ASL-4 (AI Safety Level 4) |
| Domän | Autonom AI FoU |
| Format | Offentlig PDF-rapport |
| Prejudikat | Åtagande gjort under lanseringen av Opus 4.5 |
Detta är ett betydande steg i transparensen kring AI-säkerhet: Anthropic är ett av de första laboratorierna som publicerar en sådan sabotagerapport för en modell i produktion.
When we released Claude Opus 4.5, we knew future models would be close to our AI Safety Level 4 threshold for autonomous AI R&D. We therefore committed to writing sabotage risk reports for future frontier models. Today we’re delivering on that commitment for Claude Opus 4.6.
🇸🇪 När vi släppte Claude Opus 4.5 visste vi att framtida modeller skulle ligga nära vår tröskel AI Safety Level 4 för autonom AI FoU. Vi åtog oss därför att skriva sabotageriskrapporter för framtida frontiermodeller. Idag uppfyller vi det åtagandet för Claude Opus 4.6. — @AnthropicAI på X
OpenAI: nya agentiska primitiver i Responses API
10 februari — OpenAI introducerar tre nya primitiver i Responses API för långvarigt agentiskt arbete.
Server-side compaction
Möjliggör agentsessioner på flera timmar utan att nå kontextgränserna. Kompakteringen hanteras på serversidan. Triple Whale, en testare med tidig åtkomst, rapporterar att de har genomfört 150 verktygsanrop och 5 miljoner tokens i en enda session utan precisionsförlust.
Containers med nätverk
Containrar som hostas av OpenAI kan nu få tillgång till internet på ett kontrollerat sätt. Administratörer definierar en vitlista med domäner i dashboarden, förfrågningar måste explicit definiera en network_policy, och domänhemligheter kan injiceras utan att exponera råa värden för modellen.
Skills i API:et
Inbyggt stöd för standarden Agent Skills med en första förbyggd färdighet (kalkylblad). Färdigheter är återanvändbara och versionshanterade paket som kan monteras i hostade skalmiljöer, och modeller bestämmer vid körning om de ska anropas.
| Primitiv | Beskrivning | Status |
|---|---|---|
| Server-side compaction | Flerimmarssessioner utan kontextgränser | Tillgänglig |
| Containers med nätverk | Kontrollerad internetåtkomst för hostade containrar | Tillgänglig |
| Skills i API:et | Återanvändbara paket (första färdighet: kalkylblad) | Tillgänglig |
Kimi Agent Swarm: orkestrering av 100 underagenter
10 februari — Kimi (Moonshot AI) avslöjar Agent Swarm, en förmåga för multi-agent-koordinering som gör det möjligt att parallellisera komplexa uppgifter med upp till 100 specialiserade underagenter.
Systemet kan utföra mer än 1 500 verktygsanrop och når en hastighet som är 4,5 gånger högre än sekventiella körningar. Användningsfallen täcker samtidig generering av flera filer (Word, Excel, PDF:er), parallell innehållsanalys och kreativ generering i flera stilar parallellt. Agent Swarm löser en strukturell gräns hos LLM:er: försämringen av resonemang under långa uppgifter som fyller kontexten.
OpenAI Harness Engineering: noll rader manuell kod med Codex
11 februari — OpenAI publicerar erfarenheter från byggandet av en intern mjukvaruprodukt med noll rader kod skriven manuellt. Under 5 månader använde ett team på 3 till 7 ingenjörer uteslutande Codex för att generera all kod.
| Mätvärde | Värde |
|---|---|
| Genererade kodrader | ~1 miljon |
| Pull requests | ~1 500 |
| PR per ingenjör per dag | 3,5 i genomsn |
| Interna användare | Flera hundra |
| Beräknad tid | 1/10 av tiden som krävs för hand |
| Codex-sessioner | Upp till 6+ timmar |
Metoden “Harness Engineering” omdefinierar ingenjörens roll: att designa miljöer, specificera avsikt och bygga feedbackloopar för agenter, snarare än att skriva kod. Dokumentationen strukturerad i repot fungerar som en guide (AGENTS.md som innehållsförteckning), arkitekturen är rigid med linters och strukturella tester genererade av Codex, och återkommande uppgifter skannar efter avvikelser och öppnar refaktorerings-PR:s automatiskt.
Runway tar in 315 miljoner dollar i Serie E
10 februari — Runway tillkännager en Serie E-finansiering på 315 miljoner dollar, vilket tar värderingen till 5,3 miljarder dollar. Rundan leds av General Atlantic, med deltagande av NVIDIA, Adobe Ventures, AMD Ventures, Fidelity, AllianceBernstein och andra.
| Detalj | Värde |
|---|---|
| Belopp | 315 M$ |
| Serie | E |
| Värdering | 5,3 Mdr i Serie D) |
| Huvudinvesterare | General Atlantic |
| Totalt insamlat sedan 2018 | 860 M$ |
Medlen kommer att användas för att förträna nästa generation av “world models” — modeller som kan simulera den fysiska världen — och driftsätta dem i nya produkter och branscher. Detta tillkännagivande kommer efter lanseringen av Gen-4.5, Runways senaste videogenereringsmodell.
🔗 Officiellt Tillkännagivande 🔗 Runway Inlägg på X
Cowork tillgängligt på Windows
10 februari — Claude Cowork, skrivbordsapplikationen för flerstegsuppgifter, är nu tillgänglig på Windows i research preview med full funktionsparitet jämfört med macOS.
| Funktion | Beskrivning |
|---|---|
| Filåtkomst | Läsning och skrivning av lokala filer |
| Plugins | Stöd för Cowork-plugins |
| MCP-kopplingar | Integration med MCP-servrar |
| Instruktioner per mapp | Stil Claude.md — instruktioner på naturligt språk per projekt |
Cowork på Windows är tillgängligt för alla betalda Claude-planer via claude.com/cowork.
🔗 Cowork Windows Tillkännagivande
Gratis funktioner i Claude gratisplan
11 februari — Anthropic utökar funktionerna som är tillgängliga i Claudes gratisplan. Filskapande, kopplingar, färdigheter och kompaktering är nu tillgängliga utan prenumeration. Kompaktering gör att Claude automatiskt kan sammanfatta tidigare kontext så att långa konversationer kan fortsätta utan att starta om.
Claude Code Plan Mode i Slack
11 februari — Claude Code-integrationen i Slack får Plan Mode. När man ger Claude en koduppgift i Slack kan den nu utarbeta en plan innan den exekverar, vilket gör det möjligt att validera tillvägagångssättet före implementering.
| Funktion | Beskrivning |
|---|---|
| Plan Mode | Utarbetande av en plan före exekvering |
| Automatisk detektering | Intelligent routing mellan kod och chatt |
| PR-skapande | Knapp “Create PR” direkt från Slack |
| Förutsättningar | Plan Pro, Max, Team eller Enterprise + ansluten GitHub |
ElevenLabs lanserar Uttrycksfullt Läge för sina röstagenter
10 februari — ElevenLabs avslöjar Expressive Mode för ElevenAgents, en utveckling som gör dess AI-röstagenter kapabla att anpassa sin ton, känsla och betoning i realtid.
Läget bygger på Eleven v3 Conversational, en röstsyntesmodell optimerad för dialog i realtid, kopplad till ett nytt system för turtagning som minskar avbrott. Priset ligger kvar på 0,08 $ per minut. Parallellt omstrukturerar ElevenLabs sin plattform i tre produktfamiljer: ElevenAgents (röstagenter), ElevenCreative (kreativa verktyg) och ElevenAPI (utvecklarplattform).
Kimi K2.5 integrerad på Qoder
9 februari — Qoder (AI-plattform för utvecklare) driftsätter Kimi K2.5 som flaggskeppsmodell på sin marknadsplats, med ett SWE-bench Verified-resultat på 76,8% och ett fördelaktigt pris (0,3x kredit i Efficient-nivån). Det rekommenderade arbetsflödet: använd tunga modeller för design och arkitektur, sedan K2.5 för implementering.
Vad detta innebär
Open-source fortsätter att göra snabba framsteg mot frontiermodeller. GLM-5 från Z.ai minskar gapet till Claude Opus 4.5 och GPT-5.2 på benchmarks för kodning och agentiska uppgifter, samtidigt som den är tillgänglig under MIT-licens. Publiceringen av sabotagerapporten ASL-4 av Anthropic sätter ett prejudikat för transparens kring säkerhet som andra laboratorier sannolikt kommer att tvingas följa.
På utvecklarsidan ritar OpenAIs agentiska primitiver (server-side compaction, nätverkscontainrar, API-färdigheter) och metoden “Harness Engineering” upp en framtid där autonoma agenter hanterar flerimmarssessioner. Kimi Agent Swarm driver denna logik ännu längre med orkestrering av hundratals underagenter parallellt.
Källor
- Z.ai — GLM-5 Teknisk Blogg
- Z.ai — GLM-5 Tillkännagivande på X
- Anthropic — Tråd om Sabotageriskrapport
- OpenAIDevs — Agentiska Primitiver
- OpenAI — Harness Engineering
- Kimi — Agent Swarm
- Runway — Serie E Finansiering
- Claude — Cowork Windows
- Claude — Gratisplanens funktioner
- Boris Cherny — Claude Code Slack
- ElevenLabs — Uttrycksfullt Läge
- Qoder — Kimi K2.5