Sök

AI Nyheter 23 jan 2026: Claude i Excel, Tasks Claude Code, Codex Agent Loop

AI Nyheter 23 jan 2026: Claude i Excel, Tasks Claude Code, Codex Agent Loop

Upptagen vecka för AI-agenter

Från 21 till 23 januari 2026, flera stora tillkännagivanden gällande coding agents och infrastruktur. Anthropic lanserar Claude i Excel och publicerar tre artiklar om multi-agent-system, OpenAI detaljerar den interna arkitekturen för Codex och dess PostgreSQL-infrastruktur, Qwen släpper sin text-to-speech-modell som open-source, och Runway lägger till Image to Video i Gen-4.5.


Anthropic: Claude i Excel och Claude Code

Claude i Excel

23 januari — Claude är nu tillgänglig i Microsoft Excel i beta. Integrationen gör det möjligt att analysera kompletta Excel-arbetsböcker med deras kapslade formler och beroenden mellan flikar.

Funktioner:

  • Förståelse av hela arbetsboken (formler, beroenden över flera flikar)
  • Förklaringar med citeringar på cellnivå
  • Uppdatering av antaganden med bibehållna formler

Tillgängligt för prenumeranter av Claude Pro, Max, Team och Enterprise.

🔗 Claude i Excel


Claude Code v2.1.19: Tasks-system

23 januari — Version 2.1.19 introducerar Tasks, ett nytt uppgiftshanteringssystem för komplexa fler-sessionsprojekt.

We’re turning Todos into Tasks in Claude Code. Tasks are a new primitive that help Claude Code track and complete more complicated projects and collaborate on them across multiple sessions or subagents.

🇸🇪 Vi omvandlar Todos till Tasks i Claude Code. Tasks är en ny primitiv som hjälper Claude Code att spåra och slutföra mer komplicerade projekt och samarbeta kring dem över flera sessioner eller underagenter.Thariq (@trq212), Claude Code-teamet Anthropic

Tasks-funktioner:

AspektDetalj
Lagring~/.claude/tasks (filer, gör det möjligt att bygga verktyg ovanpå)
SamarbeteCLAUDE_CODE_TASK_LIST_ID=namn claude för att dela mellan sessioner
BeroendenTasks med beroenden och blockeringar lagrade i metadata
BroadcastUppdatering av en Task sänds till alla sessioner på samma Task List
KompatibilitetFungerar med claude -p och AgentSDK

Vad det är till för: På ett komplext projekt (refaktorisering av flera filer, migrering, lång funktion), kan Claude dela upp arbetet i tasks, spåra vad som är gjort och vad som återstår. Tasks lagras på disk — de överlever kontextkomprimering, stängning av session och omstart. Flera sessioner eller underagenter kan samarbeta på samma uppgiftslista i realtid.

I praktiken: Claude skapar tasks (TaskCreate), listar dem (TaskList), och uppdaterar deras status (TaskUpdate: pending → in_progress → completed). Exempel vid en autentiseringsrefaktorisering:

#1 [completed] Migrera sessionslagring till Redis
#2 [in_progress] Implementera rotation av refresh tokens
#3 [pending] Lägg till OAuth integrationstester
#4 [pending] Uppdatera API-dokumentation

Tasks lagras i ~/.claude/tasks/ och kan delas mellan sessioner via CLAUDE_CODE_TASK_LIST_ID.

Andra nyheter v2.1.19:

  • Kortform $0, $1 för argument i anpassade kommandon
  • VSCode session forking och tillbakaspolning för alla
  • Skills utan behörigheter körs utan godkännande
  • CLAUDE_CODE_ENABLE_TASKS=false för att tillfälligt inaktivera

🔗 CHANGELOG Claude Code | Tråd @trq212


Claude Code v2.1.18: anpassningsbara kortkommandon

Föregående version som lägger till möjligheten att konfigurera kortkommandon per kontext och skapa ackordsekvenser.

Kommando: /keybindings

⚠️ Obs: Denna funktion är för närvarande i förhandsvisning och är inte tillgänglig för alla användare.

🔗 Dokumentation Keybindings


Petri 2.0: automatiserade alignment audits

22 januari — Anthropic publicerar Petri 2.0, en uppdatering av deras verktyg för automatiserad beteendeauditering för språkmodeller.

Vad det är till för: Petri testar om en LLM skulle kunna bete sig problematiskt — manipulation, bedrägeri, kringgående av regler. Verktyget genererar realistiska scenarier och observerar modellens svar för att upptäcka oönskade beteenden innan de inträffar i produktion.

FörbättringBeskrivning
70 nya scenarierUtökat seed-bibliotek för att täcka fler kantfall
Eval-awareness mitigeringarModellen får inte veta att den testas — annars anpassar den sitt beteende. Petri 2.0 förbättrar realismen i scenarierna för att undvika denna upptäckt.
Frontier-jämförelserUtvärderingsresultat för senaste modeller (Claude, GPT, Gemini)

🔗 Petri 2.0 | GitHub


Blogg: när man ska använda (eller inte) multi-agent-system

23 januari — Anthropic publicerar en pragmatisk guide om multi-agent-arkitekturer. Huvudbudskapet: använd inte multi-agent som standard.

We’ve seen teams invest months building elaborate multi-agent architectures only to discover that improved prompting on a single agent achieved equivalent results.

🇸🇪 Vi har sett team investera månader i att bygga utarbetade multi-agent-arkitekturer bara för att upptäcka att förbättrad prompting på en enda agent uppnådde likvärdiga resultat.

Artikeln identifierar 3 fall där multi-agent verkligen tillför värde:

FallProblemMulti-agent Lösning
KontextföroreningEn agent genererar omfattande data varav endast en sammanfattning är användbar efteråtEn underagent hämtar 2000 tokens historik, returnerar bara “order levererad” till huvudagenten
ParallelliseringFlera oberoende sökningar att göraStarta 5 agenter parallellt på 5 olika källor istället för att bearbeta dem sekventiellt
SpecialiseringFör många verktyg (20+) i en enda agent försämrar dess förmåga att välja rättDela upp i specialiserade agenter: en för CRM, en för marknadsföring, en för meddelanden

Fällan att undvika: Dela upp efter typ av arbete (en agent planerar, en annan implementerar, en annan testar). Varje överlämning förlorar kontext och försämrar kvaliteten. Det är bättre att en enda agent hanterar en funktion från början till slut.

Verklig kostnad: 3-10x fler tokens än en enskild agent för samma uppgift.

Andra artiklar i serien:

Building agents with Skills (22 jan)

Istället för att bygga agenter specialiserade per domän, föreslår Anthropic att bygga skills: samlingar av filer (arbetsflöden, skript, bästa praxis) som en generalistagent laddar vid behov.

Progressivt avslöjande i 3 nivåer:

NivåInnehållStorlek
1Metadata (namn, beskrivning)~50 tokens
2Fullständig SKILL.md-fil~500 tokens
3Referensdokumentation2000+ tokens

Varje nivå laddas endast om det är nödvändigt. Resultat: en agent kan ha hundratals skills utan att mätta sin kontext.

🔗 Building agents with Skills


Anthropic identifierar 8 trender för mjukvaruutveckling 2026.

Nyckelbudskap: Ingenjörer går från att skriva kod till att koordinera agenter som skriver kod.

Viktig nyans: AI används i ~60% av arbetet, men bara 0-20% kan delegeras helt — mänsklig övervakning förblir avgörande.

FöretagResultat
RakutenClaude Code på vLLM-kodbas (12,5M rader), 7h autonomt arbete
TELUS30% snabbare, 500k timmar sparade
Zapier89% AI-adoption, 800+ interna agenter

🔗 Eight trends 2026


OpenAI: Codex-arkitektur och infrastruktur

Unrolling the Codex agent loop

23 januari — OpenAI öppnar kulisserna för Codex CLI. Första artikeln i en serie om den interna funktionen hos deras mjukvaruagent.

Vad vi lär oss:

Agent-loopen är enkel i teorin: användaren skickar en begäran → modellen genererar ett svar eller begär ett verktyg → agenten kör verktyget → modellen återupptar med resultatet → till ett slutgiltigt svar. I praktiken ligger subtiliteterna i kontexthanteringen.

Prompt caching — nyckeln till prestanda:

Varje konversationsrunda lägger till innehåll i prompten. Utan optimering är det kvadratiskt i skickade tokens. Prompt caching gör det möjligt att återanvända beräkningar från tidigare rundor. Villkor: den nya prompten måste vara ett exakt prefix av den gamla. OpenAI detaljerar fallgroparna som bryter cachen (ändra ordning på MCP-verktyg, ändra konfiguration mitt i konversationen).

Automatisk komprimering:

När kontexten överskrider en tröskel, anropar Codex /responses/compact vilket returnerar en komprimerad version av konversationen. Modellen behåller en latent förståelse via ett ogenomskinligt encrypted_content.

Zero Data Retention (ZDR):

För kunder som inte vill att deras data ska lagras, tillåter encrypted_content att bevara modellens resonemang mellan rundor utan att lagra data på serversidan.

Första artikeln i en serie — de kommande kommer att täcka CLI-arkitektur, verktygsimplementering och sandboxing.

🔗 Unrolling the Codex agent loop | Codex GitHub


Scaling PostgreSQL: 800 miljoner ChatGPT-användare

22 januari — OpenAI detaljerar hur PostgreSQL driver ChatGPT och API:et för 800 miljoner användare med miljontals förfrågningar per sekund.

MätvärdeVärde
Användare800 miljoner
GenomströmningMiljontals QPS
Replikor~50 multi-region read replicas
p99 LatencyDubbelsiffriga ms klientsida
TillgänglighetFive-nines (99.999%)

Arkitektur:

  • Single primary Azure PostgreSQL flexible server
  • PgBouncer för connection pooling (anslutningslatens: 50ms → 5ms)
  • Skrivintensiva arbetsbelastningar migrerade till Azure Cosmos DB
  • Cache locking för att skydda mot cache miss-stormar
  • Kaskadreplikering i test för att överstiga 100 replikor

Enda SEV-0 PostgreSQL under de senaste 12 månaderna: under den virala lanseringen av ChatGPT ImageGen (100M nya användare på en vecka, skrivtrafik x10).

🔗 Scaling PostgreSQL


Qwen: Qwen3-TTS open-source

22-23 januari — Alibaba släpper Qwen3-TTS som open-source under Apache 2.0-licens.

EgenskapDetalj
LicensApache 2.0
Voice cloningJa
MLX-Audio stödTillgängligt

Installation:

uv pip install -U mlx-audio --prerelease=allow

🔗 Qwen3-TTS på X


Runway: Gen-4.5 Image to Video

21 januari — Runway lägger till Image to Video-funktionalitet i Gen-4.5.

FunktionalitetBeskrivning
Image to VideoTransformation av en bild till filmisk video
Camera controlExakt kamerakontroll
Coherent narrativesSammanhängande berättelser över tid
Character consistencyKaraktärer som förblir konsekventa

Tillgängligt för alla betalda Runway-planer. Tillfällig kampanj: 15% rabatt.

🔗 Runway på X


Vad detta innebär

Denna vecka markerar en mognad av verktyg för coding agents. De två jättarna (Anthropic och OpenAI) publicerar detaljerad teknisk dokumentation om arkitekturen för sina agenter — ett tecken på att marknaden går från “demo”-fasen till “produktions”-fasen.

På infrastruktursidan visar PostgreSQL-artikeln från OpenAI att en single-primary-arkitektur kan hålla i skalan av hundratals miljoner användare med rätt optimeringar.

Ankomsten av Claude i Excel öppnar en ny front: AI integrerad direkt i dagliga produktivitetsverktyg.


Källor