Sök

OpenAI lanserar GPT-5.5, Anthropic öppnar minnet för Managed Agents, Kimi K2.6 Agent Swarm

OpenAI lanserar GPT-5.5, Anthropic öppnar minnet för Managed Agents, Kimi K2.6 Agent Swarm

Den 23 april 2026 markerar en tät dag: OpenAI lanserar GPT-5.5 med 85% på ARC-AGI-2 och ett API-pris på $5/M tokens in, medan Anthropic öppnar persistent minne i beta för sina Managed Agents och publicerar en post-mortem om Claude Code. Parallellt levererar GitHub Copilot sju uppdateringar på tre dagar, Kimi K2.6 driftsätter en svärm (swarm) av 300 underagenter, och SpaceX sluter ett kodpartnerskap med Cursor.


GPT-5.5: OpenAI:s frontier-modell

23 april — OpenAI lanserar GPT-5.5, sin mest kraftfulla modell hittills, utformad för verkligt arbete och agenter. Den förbättrar avsevärt agentisk kodning, datoranvändning (computer use), kunskapsarbete och vetenskaplig forskning, samtidigt som den behåller GPT-5.4:s latens.

Tillgänglighet och prissättning

GPT-5.5 är omedelbart tillgänglig för ChatGPT Plus-, Pro-, Business- och Enterprise-prenumeranter, samt i Codex. API-åtkomst kommer “mycket snart”.

ErbjudandeAPI-åtkomstInmatningUtmatning
GPT-5.5 standardSnart$5 / M tokens$30 / M tokens
GPT-5.5 ProSnart$30 / M tokens$180 / M tokens

Kontextfönstret i Codex når 400K tokens. Ett Fast-läge — 1,5× snabbare, 2,5× kostnaden — är tillgängligt.

Benchmarks

UtvärderingGPT-5.5GPT-5.4Claude Opus 4.7Gemini 3.1 Pro
Terminal-Bench 2.082.7%75.1%69.4%68.5%
Expert-SWE (intern)73.1%68.5%
SWE-Bench Pro58.6%57.7%64.3%54.2%
GDPval84.9%83.0%80.3%67.3%
OSWorld-Verified78.7%75.0%78.0%
ARC-AGI-285.0%73.3%75.8%77.1%
FrontierMath Tier 435.4%27.1%22.9%16.7%
CyberGym81.8%79.0%73.1%
BixBench (bioinformatik)80.5%74.0%

GPT-5.5 ligger i täten på majoriteten av benchmarks, med ett anmärkningsvärt undantag: SWE-Bench Pro där Claude Opus 4.7 behåller försprånget (64.3% mot 58.6%).

Infrastruktur och säkerhet

Modellen har samutvecklats med NVIDIA GB200/GB300 NVL72. Codex använde GPT-5.5 för att optimera sin egen infrastruktur och vann +20% i hastighet för token-generering. När det gäller cybersäkerhet klassas GPT-5.5 som High i OpenAI:s Preparedness Framework (inte Critical); programmet Trusted Access Cyber utökas till den.

Vetenskaplig forskning

Utöver kod har GPT-5.5 hjälpt till att bevisa ett nytt teorem om Ramseytal (kombinatorik), formellt verifierat i Lean. Den analyserade också en genomisk datamängd med 62 prover och 28 000 gener på några minuter — en uppgift som skulle ha krävt månader för ett team av forskare.

« GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use. »

🇸🇪 GPT-5.5 är betydligt smartare och mer uthållig än GPT-5.4, med bättre prestanda i kodning och mer tillförlitlig användning av verktyg. — Michael Truell, medgrundare och vd för Cursor

🔗 GPT-5.5-annonsement


Vågen av persistenta agenter

Tre stora tillkännagivanden sammanstrålar denna 23 april kring den persistenta agenten, som kan agera autonomt under långa perioder och behålla kontexten från en session till nästa.

OpenAI Workspace Agents i ChatGPT

22 april — OpenAI presenterar arbetsyteagenter (Workspace Agents): delade agenter som ett team skapar en gång, använder tillsammans i ChatGPT eller Slack och förbättrar gradvis. Drivna av Codex i molnet kan de utföra komplexa uppgifter även när användaren är frånkopplad. Workspace Agents ersätter gradvis GPT:erna, som förblir tillgängliga under övergången.

Typ av agentFunktionalitet
MjukvarukontrollantGranskar ärenden, jämför policyer, skapar IT-tickets
ProduktfeedbackrouterÖvervakar Slack/support/forum → prioriterade tickets
RapportgeneratorHämtar data på fredagar, skapar diagram, sammanfattning
ProspekteringsagentSöker leads, bedömer, skriver e-post, uppdaterar CRM
TredjepartsriskansvarigUtvärderar leverantörer, producerar strukturerad rapport

Tillgängliga i research preview för Business, Enterprise, Edu och Teachers; gratis fram till 6 maj 2026, därefter debitering i krediter.

Enligt Ankur Bhatt (AI Engineering, Rippling) körs det som tidigare tog 5 till 6 timmar per vecka för säljarna nu automatiskt i bakgrunden på varje affärsmöjlighet.

🔗 Workspace Agents


Anthropic — Minne för Claude Managed Agents

23 april — Minne för Claude Managed Agents är tillgängligt i offentlig beta på Claude Platform. Agenterna kan nu lära sig från en session till nästa tack vare ett minneslager som är monterat direkt ovanpå ett filsystem: agenterna använder samma bash- och kodexekveringsförmågor som de redan använder för agentiska uppgifter.

FunktionDetalj
Delbara lagringarFlera agenter, olika åtkomstnivåer (skrivskyddad / läs- och skrivåtkomst)
Samtidig åtkomstUtan överskrivning mellan parallella sessioner
RevisionsloggVilken session, vilken agent, vilket minne
ÅterställningTill vilken tidigare version som helst
ExporterbarhetMinnen som kan hanteras via API:n

Kundresultaten illustrerar den konkreta effekten:

KundResultat
Rakuten-97% färre fel vid första genomgång, -27% kostnad, -34% latens
Wisedocs+30% snabbare dokumentverifiering
NetflixKontextkontinuitet mellan sessioner utan manuell uppdatering
AndoPlattformminne utan dedikerad infrastruktur

Memory in Claude Managed Agents lets us put continuous learning into production at scale. Our agents distill lessons from every session, delivering 97% fewer first-pass errors at 27% lower cost and 34% lower latency.

🇸🇪 Minnet i Managed Agents gör det möjligt för oss att sätta kontinuerligt lärande i produktion i stor skala. Våra agenter destillerar lärdomar från varje session och ger 97 % färre fel vid första genomgång, 27 % lägre kostnad och 34 % lägre latens. — Yusuke Kaji, General Manager AI for Business, Rakuten

🔗 Managed Agents-minne


Claude Code: kvalitets-post-mortem och två nya versioner

Post-mortem och återställning av gränser

23 april — Claude Code-teamet har publicerat en post-mortem om tre kvalitetsproblem som rapporterats under den gångna månaden. Alla är åtgärdade i v2.1.116+. Användningsgränserna har återställts för alla prenumeranter.

Over the past month, some of you reported Claude Code’s quality had slipped. We investigated, and published a post-mortem on the three issues we found. All are fixed in v2.1.116+ and we’ve reset usage limits for all subscribers.

🇸🇪 Under den gångna månaden rapporterade vissa av er en försämring av kvaliteten i Claude Code. Vi undersökte saken och publicerade en post-mortem om de tre identifierade problemen. Alla är åtgärdade i v2.1.116+ och vi har återställt användningsgränserna för alla prenumeranter.@ClaudeDevs

v2.1.117 och v2.1.118

VersionHuvudfunktioner
v2.1.118Vim visuellt läge (v/V) med markering och operatorer; enhetlig /usage (slår ihop /cost och /stats); anpassade teman i /theme; hooks som anropar MCP-verktyg via type: "mcp_tool"; strikt DISABLE_UPDATES; arv av managed settings i Windows via WSL
v2.1.117Standardinsatsen höjd till high för Pro/Max på Opus 4.6 och Sonnet 4.6 (var medium); fork av underagenter aktiverbar på externa builds; glob/Grep ersatta av inbäddade bfs/ugrep för snabbare sökningar; fix för Opus 4.7-sessioner (1M-kontext beräknas korrekt); fix för Bedrock+Opus 4.7 med thinking inaktiverat

🔗 CHANGELOG Claude Code


Nya Claude-kopplingar för vardagen

23 april — Anthropic breddar sitt utbud av kopplingar till konsumentapplikationer. Sedan juli 2025 fanns mer än 200 kopplingar för professionella verktyg tillgängliga; denna uppdatering lägger till 15 vardagstjänster.

ApplikationKategori
AllTrailsVandring
AudibleLjudböcker
Booking.comResor
InstacartMatinköp online
Intuit Credit KarmaEkonomi
Intuit TurboTaxSkatter
ResyRestaurangbokningar
SpotifyMusik
StubHubBiljetter
TaskrabbitHemtjänster
ThumbtackLokala yrkespersoner
TripAdvisorResor
UberTransport
Uber EatsMatleverans
ViatorTuristaktiviteter

Claude föreslår nu automatiskt relevanta kopplingar beroende på kontexten i konversationen. Tillgängliga på alla planer (inklusive gratis), webb, dator och mobil (mobil i beta). Ingen betald placering eller sponsrat svar; data från en app används inte för att träna modellerna.

🔗 Kopplingar för vardagen


GitHub Copilot — Sju uppdateringar på tre dagar

GitHub Copilot publicerade sju poster i sin changelog mellan 22 och 23 april.

Chat för pull requests (3 nya funktioner)

23 april — Copilot Chat integrerar nu tre funktioner för pull requests, åtkomliga via github.com/copilot eller Copilot-knappen på diffs (offentlig preview):

  • Förståelse av PR (pull request understanding) : kommentarer, ändringar, commits och integrerade granskningar som kontext
  • PR-granskning : strukturerad granskning på begäran
  • PR-sammanfattning : koncis sammanfattning av ändringarna

🔗 Copilot Chat PR-förbättringar

Agentsessioner som kan styras från issues och projekt

23 april — Cloud agent kan nu styras direkt från GitHub-issues och projektboardar: sessionsindikator i issue-huvudet, sidopanel för framsteg, sessioner aktiverade som standard i alla projektvyer.

🔗 Agentsessioner från issues

Strukturerad felsökning av stack traces på webben

23 april — Copilot Chat på github.com vägleder nu analysen av stack traces i sex strukturerade steg: vad som misslyckades, varför, rotorsaken, bevis från koden, förtroendenivån och nästa kontroller.

🔗 Felsökning av stack traces

BYOK VS Code tillgängligt (GA)

22 april — Bring Your Own Key (ta med din egen API-nyckel) är i allmän tillgänglighet för Copilot Business- och Enterprise-användare i VS Code. Anthropic, Gemini, OpenAI, OpenRouter, Azure stöds, liksom lokala modeller via Ollama och Foundry Local. Faktureringen sker direkt via den valda leverantören, utanför Copilot-kvoterna.

🔗 BYOK VS Code GA

C++ Language Server i offentlig preview för Copilot CLI

22 april — Microsoft C++ Language Server (IntelliSense-motorn i Visual Studio/VS Code) är tillgänglig i offentlig preview för Copilot CLI. Den ger precisa semantiska data (symbolsdefinitioner, referenser, anropshierarkier, typer) som ersättning för iterativ grep-sökning. Förutsättningar: Copilot CLI-autentisering + compile_commands.json.

🔗 C++ Language Server

Nya Business self-serve-registreringar pausas

22 april — GitHub pausar nya self-serve-registreringar för Copilot Business på GitHub Free- och GitHub Team-planerna. Befintliga kunder påverkas inte.

🔗 Paus för Business self-serve

Fältet used_copilot_cloud_agent i API-mätningar

23 april — I kölvattnet av rebrandingen “coding agent” → “cloud agent” lägger Metrics API till fältet used_copilot_cloud_agent i användarrapporter (1 dag och rullande 28 dagar). Det tidigare fältet used_copilot_coding_agent behålls fram till den 1 augusti 2026.

🔗 Mätvärden för cloud agent


Gemini CLI v0.39.0 och Deep Think för alla Ultra ### Gemini CLI v0.39.0

23 april — Google publicerar Gemini CLI v0.39.0, en stabil version märkt “Latest”. Höjdpunkten är det nya kommandot /memory inbox för att granska och validera de skills som CLI:t automatiskt extraherar under arbetspass.

FunktionalitetBeskrivning
/memory inboxGranskning av automatiskt extraherade skills
invoke_subagent enhetligOmdesignat underagentverktyg med ett enda gränssnitt
Kompakt formateringBättre läsbarhet i kompakt läge
Plan Mode — bekräftelserValidering krävs innan aktivering av skills
Avskalad startLätt föräldraprocess för snabbare start
Migrering av JSONL-streamingLagring av chattsessioner i JSONL

Tillagda kortkommandon: Ctrl+Backspace för radering ord för ord (Windows Terminal), Ctrl+Shift+G.

🔗 Gemini CLI v0.39.0

Deep Think öppet för alla Ultra-prenumeranter

22 april — Google öppnar läget Deep Think (fördjupat resonemang, extended thinking) för alla Gemini Ultra-prenumeranter. Läget var tidigare tillgängligt endast i begränsad åtkomst; det finns nu direkt i Gemini-appens verktygsmeny (webb och mobil).

🔗 Tweet @GeminiApp


Kimi K2.6 : svärm med 300 underagenter och open-weights-benchmarks

Agent Swarm — 300 parallella underagenter

23 april — Moonshot AI lanserar Kimi K2.6 Agent Swarm: ett system som kan distribuera 300 underagenter parallellt över 4 000 steg per körning, jämfört med 100 agenter och 1 500 steg för K2.5.

KapacitetK2.5K2.6
Parallella underagenter100300
Steg per körning1 5004 000
Typ av outputChatttext100+ riktiga filer, 100 000 ords recensioner, dataset med 20 000 rader

Underagenterna kombinerar heterogena färdigheter: webbsökning, dataanalys, kodning, längre skrivande och visuell generering. Tillgängligt på kimi.com/agent-swarm.

🔗 Tweet @Kimi_Moonshot

Benchmarks: nummer 1 bland open-weights

23 april — Kimi K2.6 tar förstaplatsen bland open-weights-modeller på två benchmarks:

  • Design Arena: samma prestandazon som Claude Opus 4.7
  • MathArena open (Think-läge): före GLM 5.1

🔗 Design Arena


SpaceXAI × Cursor och Grok Imagine

Partnerskap mellan SpaceXAI × Cursor

22 april — SpaceXAI (en enhet som uppstått ur sammanslagningen av xAI/SpaceX) och Cursor tillkännager ett partnerskap för att skapa “världens mest kraftfulla AI för kodning och kunskapsarbete”. SpaceX bidrar med superdatorn Colossus (motsvarande en miljon H100); Cursor ger bolaget rätt att förvärvas senare under 2026 för $60 miljarder, eller att betala $10 miljarder för enbart samarbetet.

🔗 Tweet @SpaceX

Grok Imagine — delbara anpassade mallar

22 april — SuperGrok- och Premium+-prenumeranter kan nu skapa anpassade mallar i Grok Imagine och dela dem offentligt.

🔗 Tweet @imagine


NVIDIA × Google Cloud Next

22 april — På Google Cloud Next (Las Vegas) tillkännager NVIDIA och Google Cloud flera stora framsteg kring agentisk AI-infrastruktur.

TillkännagivandeDetalj
A5X-instans(er) (Vera Rubin NVL72)Upp till 960 000 Rubin-GPU:er i ett multisite-kluster, 10× billigare per token, 10× högre genomströmning per megawatt
Gemini på Google Distributed CloudPreview med Blackwell- och Blackwell Ultra-GPU:er — datasuveränitet
Confidential VMs BlackwellFörsta erbjudandet för konfidentiell beräkning (confidential computing) med Blackwell i publika molnet
Nemotron 3 SuperTillgänglig på Gemini Enterprise Agent Platform
NeMo RL APIHanterad förstärkningsinlärning (Reinforcement Learning) i stor skala

🔗 Blogg NVIDIA × Google Cloud


Kling AI Video 3.0 — inbyggt 4K-läge

23 april — Kling AI lanserar inbyggt 4K-läge i sin Video 3.0-serie. 4K-genereringen sker med ett enda klick, utan extra uppskalningssteg. Den visuella konsekvensen (karaktärer, texter, stilar, ljussättning) säkerställs i inbyggd upplösning för produktion i premiumklass. Finns också via fal.ai för företag.

Kling AI anordnar samtidigt en 4K Short Film Creative Contest, en global tävling som bjuder in kreatörer att skicka in kortfilmer gjorda med det nya läget.

🔗 Tweet @Kling_ai


ChatGPT for Clinicians och OpenAI Privacy Filter

ChatGPT for Clinicians + HealthBench Professional

22 april — OpenAI lanserar ChatGPT for Clinicians, en gratisversion för verifierade vårdprofessionella i USA (läkare, specialistsjuksköterskor, medicinska assistenter, farmaceuter). Tjänsten inkluderar åtkomst till frontier-modeller för komplexa kliniska frågor, skills för repetitiva arbetsflöden (remissbrev, förhandsauktorisationer), citerad klinisk forskning i realtid och automatisk generering av fortbildningskrediter (CME). HIPAA-hantering finns som tillval via avtal.

OpenAI publicerar också HealthBench Professional, ett öppet benchmark som utvärderar AI på verkliga kliniska uppgifter (700 000+ svar bedömda av läkare). GPT-5.4 i ChatGPT for Clinicians överträffar mänskliga läkare på detta benchmark under obegränsade tidsvillkor med webbtillgång.

🔗 ChatGPT for Clinicians

OpenAI Privacy Filter

22 april — OpenAI publicerar Privacy Filter, en open-weight-modell (Apache 2.0) för att upptäcka och maskera personligt identifierbar information (Personally Identifiable Information, PII) i text. Modellen körs lokalt (inga data skickas till en server), stöder ett kontextfönster på 128K tokens och uppnår ett F1-värde på 97.43% på benchmarken PII-Masking-300k.

EgenskapVärde
ArkitekturTvåvägs tokensklassificerare (begränsad Viterbi-avkodning)
Storlek1.5B totala parametrar, 50M aktiva
Kontext128 000 tokens
LicensApache 2.0 (Hugging Face + GitHub)
F197.43% på korrigerad PII-Masking-300k

PII-kategorier som täcks: private_person, private_address, private_email, private_phone, private_url, private_date, account_number, secret (lösenord och API-nycklar).

🔗 OpenAI Privacy Filter


Perplexity och Cohere

Perplexity integrerar Kimi K2.6

23 april — Kimi K2.6 från Moonshot AI finns nu tillgänglig för alla Pro- och Max-prenumeranter hos Perplexity.

🔗 Tweet @perplexity_ai

Cohere — W4A8 produktionsklar i vLLM

22 april — Cohere tillkännager integrationen av sin W4A8-inferens (4-bitars kvantisering för vikter, 8 bitar för aktiveringar) i vLLM. Resultat på Hopper-GPU jämfört med W4A16: +58% på tid till första token (Time To First Token) och +45% på tid per utgående token (Time Per Output Token). Integrationen riktar sig i första hand till MoE-modellerna Command A i stor skala i produktion.

🔗 Blogg Cohere W4A8


Kortnotiser

Suno nummer 1 i App Store musik

21 april — Suno, plattformen för AI-generering av musik, når förstaplatsen i App Store i kategorin musik. VD Mikey Shulman meddelar: « The future of music is one where everyone enjoys creating. »

🔗 Tweet @suno

Anthropic Economic Index Survey

22 april — Anthropic lanserar Anthropic Economic Index Survey, en månatlig undersökning som genomförs via Anthropic Interviewer på ett slumpmässigt urval av Claude-användare. Målet är att samla kvalitativa data om AI:s ekonomiska påverkan: delegerade uppgifter, produktivitetsvinster, förändringar i roller. Resultaten kommer att mata framtida rapporter från Anthropic Economic Index.

🔗 Tillkännagivande av undersökning

Anthropic — MCP-agenter i produktion: siffrorna

22 april — En teknisk artikel från Anthropic dokumenterar fördelarna med MCP för produktionsagenter: MCP SDK:er överstiger 300 miljoner nedladdningar per månad, tool search minskar tokens för verktygsdefinitioner med 85%, och programmatiska verktygssamtal (programmatic tool calling) minskar tokenanvändningen med 37% i komplexa fler-stegs-arbetsflöden.

🔗 Blogg MCP production agents

OpenAI — WebSockets i Responses API: 40% lägre latens

22 april — En tillbakablickande artikel från OpenAI förklarar hur WebSocket-läget i Responses API minskar latensen i agentloopar med 40%. Den ihållande anslutningen håller en minnescache över tillståndet i tidigare svar, vilket gör att hela historiken inte behöver bearbetas om vid varje anrop. Redan i produktion: Codex, Vercel AI SDK, Cline (+39%), Cursor (+30%).

🔗 Artikel om WebSockets

Perplexity Research — Träning av modeller för sökförstärkt inlärning

22 april — Perplexity publicerar forskning om sin SFT + RL-pipeline (Supervised Fine-Tuning + Reinforcement Learning) för att förbättra kvaliteten på sökresultatsvar. Nyckelresultat: eftertränade Qwen-modeller når GPT-modellernas fakticitet till lägre kostnad.

🔗 Perplexity Research


Vad detta betyder

Den 23 april 2026 tecknar två konvergerande trender. Å ena sidan bekräftar GPT-5.5 att OpenAI har återtagit ledningen i de agentiska benchmarkerna (Terminal-Bench, ARC-AGI-2, OSWorld) efter flera månader då Claude Opus 4.7 dominerade. Gapet förblir litet på SWE-Bench Pro, där Anthropic behåller fördelen — ett tecken på att de två labben är överens om samma prioriterade användningsfall.

Å andra sidan markerar dagen inträdet i eran av persistenta agenter med minne: OpenAI Workspace Agents, Anthropic Managed Agents Memory och Kimi K2.6 Agent Swarm lanseras samtidigt med olika angreppssätt (Slack-integration, filesystem-based, svärm av underagenter), men med samma mål — att agenten ska minnas, lära och agera utan konstant övervakning. Rakuten-siffrorna (-97% fel, -27% kostnad) ger en första industriell måttstock för effekten.

GitHub Copilot fortsätter sin strategi med djup integration i GitHub.com (PR-chatt, agent sessions från issues, strukturerade stack traces) samtidigt som det öppnas utåt via BYOK. BYOK VS Code GA signalerar att Copilot positionerar sig lika mycket som ett gränssnitt som som en modell.


Källor

Detta dokument har översatts från versionen fr till språket sv med hjälp av modellen gpt-5.4-mini. För mer information om översättningsprocessen, se https://github.com/jls42/ai-powered-markdown-translator