OpenAI lance GPT-5.5, Anthropic ouvre la mémoire aux Managed Agents, Kimi K2.6 Agent Swarm

Op 23 april 2026 is het een drukke dag: OpenAI lanceert GPT-5.5 met 85% op ARC-AGI-2 en een API-tarief van $5/M tokens voor invoer, terwijl Anthropic persistente geheugen in bèta opent voor zijn Managed Agents en een post-mortem publiceert over Claude Code. Tegelijkertijd brengt GitHub Copilot zeven updates in drie dagen uit, zet Kimi K2.6 een zwerm (swarm) van 300 subagents in, en sluit SpaceX een codeerpartnerschap met Cursor af.

GPT-5.5 : het frontier-model van OpenAI

23 april — OpenAI lanceert GPT-5.5, zijn krachtigste model tot nu toe, ontworpen voor echt werk en agents. Het verbetert agentisch coderen aanzienlijk, het gebruik van de computer (computer use), kenniswerk en wetenschappelijk onderzoek, terwijl de latentie van GPT-5.4 behouden blijft.

Beschikbaarheid en prijsstelling

GPT-5.5 is direct beschikbaar voor abonnees van ChatGPT Plus, Pro, Business en Enterprise, evenals in Codex. API-toegang komt “zeer binnenkort”.

Aanbod	API-toegang	Invoer	Uitvoer
GPT-5.5 standaard	Binnenkort	$5 / M tokens	$30 / M tokens
GPT-5.5 Pro	Binnenkort	$30 / M tokens	$180 / M tokens

De contextwindow in Codex bereikt 400K tokens. Een Fast-modus — 1,5× sneller, 2,5× de kosten — is beschikbaar.

Benchmarks

Evaluatie	GPT-5.5	GPT-5.4	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82.7%	75.1%	69.4%	68.5%
Expert-SWE (intern)	73.1%	68.5%	—	—
SWE-Bench Pro	58.6%	57.7%	64.3%	54.2%
GDPval	84.9%	83.0%	80.3%	67.3%
OSWorld-Verified	78.7%	75.0%	78.0%	—
ARC-AGI-2	85.0%	73.3%	75.8%	77.1%
FrontierMath Tier 4	35.4%	27.1%	22.9%	16.7%
CyberGym	81.8%	79.0%	73.1%	—
BixBench (bioinformatica)	80.5%	74.0%	—	—

GPT-5.5 staat aan kop op de meerderheid van de benchmarks, met één opvallende uitzondering: SWE-Bench Pro waar Claude Opus 4.7 het voordeel behoudt (64.3% vs 58.6%).

Infrastructuur en veiligheid

Het model is mede ontworpen met NVIDIA GB200/GB300 NVL72. Codex gebruikte GPT-5.5 om zijn eigen infrastructuur te optimaliseren, met een winst van +20% in tokens-generatiesnelheid. Op het gebied van cyberbeveiliging wordt GPT-5.5 geclassificeerd als High in het Preparedness Framework van OpenAI (niet Critical); het Trusted Access Cyber-programma wordt erop uitgebreid.

Wetenschappelijk onderzoek

Naast code heeft GPT-5.5 geholpen bij het bewijzen van een nieuwe stelling over de Ramseynummers (combinatoriek), formeel geverifieerd in Lean. Het analyseerde ook een genomische dataset van 62 monsters en 28 000 genen in enkele minuten — een taak die voor een onderzoeksteam maanden had gekost.

« GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use. »

🇳🇱 GPT-5.5 is merkbaar slimmer en hardnekkiger dan GPT-5.4, met sterkere codeerprestaties en betrouwbaarder gebruik van tools. — Michael Truell, medeoprichter en CEO van Cursor

🔗 Aankondiging GPT-5.5

De golf van persistente agents

Drie grote aankondigingen komen op 23 april samen rond de persistente agent, die autonoom over lange periodes kan handelen en context van de ene sessie naar de andere kan onthouden.

OpenAI Workspace Agents in ChatGPT

22 april — OpenAI presenteert workspace-agents (Workspace Agents): gedeelde agents die een team één keer aanmaakt, samen gebruikt in ChatGPT of Slack, en geleidelijk verbetert. Aangedreven door Codex in de cloud kunnen ze complexe taken uitvoeren, zelfs wanneer de gebruiker offline is. De Workspace Agents vervangen geleidelijk de GPT’s, die tijdens de overgang beschikbaar blijven.

Type agent	Functionaliteit
Softwareverificateur	Controleert verzoeken, vergelijkt beleidsregels, maakt IT-tickets aan
Productfeedbackrouter	Monitort Slack/support/forums → geprioriteerde tickets
Rapportgenerator	Haalt vrijdag gegevens op, maakt grafieken, samenvatting
Prospectie-agent	Zoekt leads, beoordeelt ze, schrijft e-mails, werkt CRM bij
Verantwoordelijke derde-partijrisico’s	Beoordeelt leveranciers, produceert gestructureerd rapport

Beschikbaar in research preview voor Business, Enterprise, Edu en Teachers; gratis tot 6 mei 2026, daarna facturering in credits.

Volgens Ankur Bhatt (AI Engineering, Rippling) wordt wat voorheen 5 tot 6 uur per week kostte voor verkopers, nu automatisch op de achtergrond uitgevoerd voor elke kans.

🔗 Workspace Agents

Anthropic — Geheugen voor Claude Managed Agents

23 april — Geheugen voor Claude Managed Agents is beschikbaar in openbare bèta op het Claude Platform. Agents kunnen nu leren van de ene sessie naar de andere dankzij een geheugenlaag die rechtstreeks bovenop een bestandssysteem is gemonteerd: agents gebruiken dezelfde bash- en code-uitvoeringsmogelijkheden die ze al inzetten voor agentische taken.

Functionaliteit	Detail
Deelbare stores	Meerdere agents, verschillende toegangsrechten (alleen-lezen / lezen-schrijven)
Gelijktijdige toegang	Zonder overschrijven tussen parallelle sessies
Auditlogboek	Welke sessie, welke agent, welk geheugen
Terugspoelen	Naar eender welke eerdere versie
Exporteerbaarheid	Geheugens beheersbaar via de API

De klantresultaten illustreren de concrete impact:

Klant	Resultaat
Rakuten	-97% fouten bij eerste passage, -27% kosten, -34% latentie
Wisedocs	+30% snelheid van documentverificatie
Netflix	Continuïteit van context tussen sessies zonder handmatige update
Ando	Platformgeheugen zonder speciale infrastructuur

Memory in Claude Managed Agents lets us put continuous learning into production at scale. Our agents distill lessons from every session, delivering 97% fewer first-pass errors at 27% lower cost and 34% lower latency.

🇳🇱 Geheugen in Claude Managed Agents stelt ons in staat continu leren op schaal in productie te brengen. Onze agents destilleren lessen uit elke sessie en leveren 97% minder fouten bij de eerste passage, tegen 27% lagere kosten en 34% lagere latentie. — Yusuke Kaji, General Manager AI for Business, Rakuten

🔗 Geheugen Managed Agents

Claude Code : kwaliteits-post-mortem en twee nieuwe versies

Post-mortem en reset van de limieten

23 april — Het Claude Code-team publiceerde een post-mortem over drie kwaliteitsproblemen die in de afgelopen maand waren gemeld. Ze zijn allemaal opgelost in v2.1.116+. De gebruikslimieten zijn voor alle abonnees opnieuw ingesteld.

Over the past month, some of you reported Claude Code’s quality had slipped. We investigated, and published a post-mortem on the three issues we found. All are fixed in v2.1.116+ and we’ve reset usage limits for all subscribers.

🇳🇱 In de afgelopen maand meldden sommigen van jullie dat de kwaliteit van Claude Code was teruggelopen. We hebben dit onderzocht en een post-mortem gepubliceerd over de drie problemen die we hebben gevonden. Alles is opgelost in v2.1.116+ en we hebben de gebruikslimieten voor alle abonnees opnieuw ingesteld. — @ClaudeDevs

v2.1.117 en v2.1.118

Versie	Belangrijkste functies
v2.1.118	Visuele Vim-modus (`v`/`V`) met selectie en operatoren; `/usage` verenigd (voegt `/cost` en `/stats` samen); aangepaste thema’s in `/theme`; hooks die MCP-tools aanroepen via `type: "mcp_tool"`; strikte `DISABLE_UPDATES`; overerving van managed settings Windows via WSL
v2.1.117	Standaardinspanning gewijzigd naar `high` voor Pro/Max op Opus 4.6 en Sonnet 4.6 (was `medium`); sub-agent-fork inschakelbaar op externe builds; `glob`/`Grep` vervangen door ingebouwde `bfs`/`ugrep` voor snellere zoekopdrachten; fix voor Opus 4.7-sessies (1M context correct berekend); fix voor Bedrock+Opus 4.7 met thinking uitgeschakeld

🔗 CHANGELOG Claude Code

Nieuwe Claude-connectors voor het dagelijkse leven

23 april — Anthropic breidt zijn connectorenrepertoire uit naar consumentenapps. Sinds juli 2025 waren er al meer dan 200 connectoren voor professionele tools beschikbaar; deze update voegt 15 alledaagse diensten toe.

Applicatie	Categorie
AllTrails	Wandelen
Audible	Audioboeken
Booking.com	Reizen
Instacart	Boodschappen online
Intuit Credit Karma	Financiën
Intuit TurboTax	Belastingen
Resy	Restaurantreserveringen
Spotify	Muziek
StubHub	Ticketverkoop
Taskrabbit	Diensten aan huis
Thumbtack	Lokale professionals
TripAdvisor	Reizen
Uber	Vervoer
Uber Eats	Maaltijdbezorging
Viator	Toeristische activiteiten

Claude suggereert voortaan automatisch relevante connectors op basis van de context van het gesprek. Beschikbaar op alle plannen (inclusief gratis), web, desktop en mobiel (mobiel in bèta). Geen betaalde plaatsing of gesponsorde antwoorden; gegevens van een app worden niet gebruikt om modellen te trainen.

🔗 Connectors voor het dagelijks leven

GitHub Copilot — Zeven updates in drie dagen

GitHub Copilot publiceerde zeven vermeldingen in zijn changelog tussen 22 en 23 april.

Chat voor pull requests (3 nieuwe mogelijkheden)

23 april — Copilot Chat integreert voortaan drie mogelijkheden voor pull requests, toegankelijk via github.com/copilot of de Copilot-knop op diffs (openbare preview):

Begrip van PR (pull request understanding): opmerkingen, wijzigingen, commits en reviews geïntegreerd als context
PR-review: gestructureerde review op verzoek
PR-samenvatting: beknopte samenvatting van de wijzigingen

🔗 Copilot Chat-verbeteringen voor pull requests

Agentsessies bestuurbaar vanuit issues en projecten

23 april — De cloud agent is voortaan direct bestuurbaar vanuit GitHub-issues en projectboards: sessie-indicator in de issue-header, voortgangspaneel aan de zijkant, sessies standaard ingeschakeld in alle projectweergaven.

🔗 Agentsessies vanuit issues

Gestructureerde debugging van stack traces op het web

23 april — Copilot Chat op github.com begeleidt voortaan de analyse van stack traces in zes gestructureerde stappen: wat is mislukt, waarom, de root cause, bewijsmateriaal uit de code, het vertrouwensniveau en de volgende controles.

🔗 Debugging van stack traces

BYOK VS Code beschikbaar (GA)

22 april — Bring Your Own Key (breng je eigen API-sleutel mee) is algemeen beschikbaar voor Copilot Business- en Enterprise-gebruikers in VS Code. Anthropic, Gemini, OpenAI, OpenRouter, Azure worden ondersteund, evenals lokale modellen via Ollama en Foundry Local. Facturering verloopt rechtstreeks via de gekozen provider, buiten de Copilot-quota.

🔗 BYOK VS Code GA

C++ Language Server in openbare preview voor Copilot CLI

22 april — De Microsoft C++ Language Server (de IntelliSense-engine van Visual Studio/VS Code) is beschikbaar in openbare preview voor Copilot CLI. Hij levert nauwkeurige semantische gegevens (symbooldefinities, referenties, aanroepshiërarchieën, types) als vervanging van iteratief grep-zoeken. Vereisten: Copilot CLI-authenticatie + compile_commands.json.

🔗 C++ Language Server

Nieuwe Business self-serve-inschrijvingen gepauzeerd

22 april — GitHub pauzeert nieuwe self-serve-inschrijvingen voor Copilot Business op de GitHub Free- en GitHub Team-abonnementen. Bestaande klanten worden niet प्रभावित.

🔗 Pauze voor Business self-serve

Veld `used_copilot_cloud_agent` in API-metrics

23 april — Naar aanleiding van de rebranding “coding agent” → “cloud agent” voegt de API-metrics het veld used_copilot_cloud_agent toe in gebruikersrapporten (rollende vensters van 1 dag en 28 dagen). Het oude veld used_copilot_coding_agent blijft behouden tot 1 augustus 2026.

🔗 Metrieken voor cloud agent

Gemini CLI v0.39.0 en Deep Think voor alle Ultra-gebruikers

Gemini CLI v0.39.0

23 april — Google publiceert Gemini CLI v0.39.0, stabiele versie gemarkeerd als “Latest”. Het hoogtepunt is het nieuwe commando /memory inbox om de skills te beoordelen en te valideren die de CLI automatisch tijdens werksessies extraheert.

Functionaliteit	Beschrijving
`/memory inbox`	Beoordeling van automatisch geëxtraheerde skills
`invoke_subagent` verenigd	Hervormd sub-agent-tool in één interface
Compacte opmaak	Betere leesbaarheid in compacte modus
Plan Mode — bevestigingen	Validatie vereist vóór activering van skills
Lichtgewicht opstart	Licht parent-proces voor snellere start
JSONL-streamingmigratie	Opslaan van chatsessies in JSONL

Toegevoegde sneltoetsen: Ctrl+Backspace voor woord-voor-woord verwijderen (Windows Terminal), Ctrl+Shift+G.

🔗 Gemini CLI v0.39.0

Deep Think geopend voor alle Ultra-abonnees

22 april — Google opent de modus Deep Think (diep redeneren, extended thinking) voor alle Gemini Ultra-abonnees. Deze modus was eerder slechts beperkt toegankelijk; hij is nu direct beschikbaar vanuit het toolsmenu van de Gemini-app (web en mobiel).

🔗 Tweet @GeminiApp

Kimi K2.6 : zwerm van 300 subagents en open-weights benchmarks

Agent Swarm — 300 parallelle subagents

23 april — Moonshot AI lanceert Kimi K2.6 Agent Swarm: een systeem dat 300 subagents parallel kan inzetten over 4 000 stappen per run, tegenover 100 agents en 1 500 stappen voor K2.5.

Mogelijkheid	K2.5	K2.6
Parallelle subagents	100	300
Stappen per run	1 500	4 000
Outputtypes	Chattekst	100+ echte bestanden, reviews van 100 000 woorden, datasets van 20 000 regels

De subagents combineren heterogene vaardigheden: webonderzoek, data-analyse, coderen, langvormige tekstproductie en visuele generatie. Beschikbaar op kimi.com/agent-swarm.

🔗 Tweet @Kimi_Moonshot

Benchmarks: nummer 1 open-weights

23 april — Kimi K2.6 behaalt de eerste plaats onder open-weightsmodellen op twee benchmarks: - Design Arena : dezelfde prestatielijn als Claude Opus 4.7

MathArena open (Think-modus) : voor GLM 5.1

🔗 Design Arena

SpaceXAI × Cursor en Grok Imagine

Partnerschap SpaceXAI × Cursor

22 april — SpaceXAI (entiteit voortgekomen uit de samensmelting van xAI/SpaceX) en Cursor kondigen een partnerschap aan om “de krachtigste codeer- en kenniswerk-IA ter wereld” te creëren. SpaceX brengt de supercomputer Colossus mee (equivalent van een miljoen H100’s); Cursor verleent het recht om het bedrijf later in 2026 over te nemen voor $60 miljard, of om $10 miljard te betalen voor alleen de samenwerking.

🔗 Tweet @SpaceX

Grok Imagine — Deelbare aangepaste templates

22 april — SuperGrok- en Premium+-abonnees kunnen nu aangepaste templates maken in Grok Imagine en die publiekelijk delen.

🔗 Tweet @imagine

NVIDIA × Google Cloud Next

22 april — Op Google Cloud Next (Las Vegas) kondigen NVIDIA en Google Cloud meerdere belangrijke ontwikkelingen aan rond agentische AI-infrastructuur.

Aankondiging	Detail
A5X-instances (Vera Rubin NVL72)	Tot 960.000 Rubin-GPU’s in een multisite cluster, 10× goedkoper per token, 10× meer throughput per megawatt
Gemini op Google Distributed Cloud	Preview met Blackwell- en Blackwell Ultra-GPU’s — datasoevereiniteit
Confidential VMs Blackwell	Eerste Blackwell-aanbod voor vertrouwelijke computing (confidential computing) in de publieke cloud
Nemotron 3 Super	Beschikbaar op het Gemini Enterprise Agent Platform
NeMo RL API	Beheerd versterkend leren (Reinforcement Learning) op grote schaal

🔗 NVIDIA × Google Cloud-blog

Kling AI Video 3.0 — Natieve 4K-modus

23 april — Kling AI lanceert de native 4K-modus in zijn Video 3.0-serie. De 4K-generatie gebeurt in één klik, zonder extra upscaling-stap. De visuele consistentie (personages, teksten, stijlen, belichting) is gegarandeerd in native resolutie voor high-end productie. Ook beschikbaar via fal.ai voor bedrijven.

Kling AI organiseert tegelijk een 4K Short Film Creative Contest, een wereldwijde wedstrijd die makers uitnodigt om korte films in te sturen die met de nieuwe modus zijn gemaakt.

🔗 Tweet @Kling_ai

ChatGPT for Clinicians en OpenAI Privacy Filter

ChatGPT for Clinicians + HealthBench Professional

22 april — OpenAI lanceert ChatGPT for Clinicians, een gratis versie voor geverifieerde zorgprofessionals in de VS (artsen, nurse practitioners, physician assistants, apothekers). De dienst omvat toegang tot frontier-modellen voor complexe klinische vragen, skills voor repetitieve workflows (verwijsbrieven, voorafgaande machtigingen), geciteerde klinische zoekresultaten in realtime, en automatische generatie van credits voor permanente educatie (CME). HIPAA-verwerking is optioneel beschikbaar via overeenkomst.

OpenAI publiceert ook HealthBench Professional, een open benchmark die AI beoordeelt op echte klinische taken (700.000+ antwoorden beoordeeld door artsen). GPT-5.4 in ChatGPT for Clinicians overtreft menselijke artsen op deze benchmark onder onbeperkte tijdscondities met webtoegang.

🔗 ChatGPT for Clinicians

OpenAI Privacy Filter

22 april — OpenAI publiceert Privacy Filter, een open-weight model (Apache 2.0) om persoonlijk identificeerbare informatie (Personally Identifiable Information, PII) in tekst te detecteren en te maskeren. Het model draait lokaal (geen gegevens verstuurd naar een server), ondersteunt 128K tokens context en behaalt een F1-score van 97,43% op de benchmark PII-Masking-300k.

Kenmerk	Waarde
Architectuur	Bidirectionele tokenclassifier (beperkte Viterbi-decodering)
Grootte	1,5B totale parameters, 50M actief
Context	128.000 tokens
Licentie	Apache 2.0 (Hugging Face + GitHub)
F1	97,43% op gecorrigeerde PII-Masking-300k

Gedekte PII-categorieën: private_person, private_address, private_email, private_phone, private_url, private_date, account_number, secret (wachtwoorden en API-sleutels).

🔗 OpenAI Privacy Filter

Perplexity en Cohere

Perplexity integreert Kimi K2.6

23 april — Moonshot AI’s Kimi K2.6 is nu beschikbaar voor alle Pro- en Max-abonnees van Perplexity.

🔗 Tweet @perplexity_ai

Cohere — W4A8 productie-klaar in vLLM

22 april — Cohere kondigt de integratie aan van zijn W4A8-inferentie (4-bits quantisatie voor de gewichten, 8 bits voor de activaties) in vLLM. Resultaten op Hopper-GPU versus W4A16: +58% op de tijd tot het eerste token (Time To First Token) en +45% op de tijd per outputtoken (Time Per Output Token). De integratie richt zich in de eerste plaats op grootschalige productie-MoE Command A-modellen.

🔗 Cohere W4A8-blog

Kort nieuws

Suno nummer 1 in de muziek-App Store

21 april — Suno, het platform voor AI-muziekgeneratie, bereikt de eerste plaats in de App Store in de categorie muziek. CEO Mikey Shulman kondigt aan: « The future of music is one where everyone enjoys creating. »

🔗 Tweet @suno

Anthropic Economic Index Survey

22 april — Anthropic lanceert de Anthropic Economic Index Survey, een maandelijkse enquête uitgevoerd via Anthropic Interviewer bij een willekeurige steekproef van Claude-gebruikers. Het doel is kwalitatieve gegevens te verzamelen over de economische impact van AI: gedelegeerde taken, productiviteitswinst, veranderende rollen. De resultaten zullen de toekomstige Anthropic Economic Index-rapporten voeden.

🔗 Enquête-aankondiging

Anthropic — MCP-agents in productie: de cijfers

22 april — Een technisch artikel van Anthropic documenteert de voordelen van MCP voor productieagents: MCP SDK’s overschrijden 300 miljoen downloads per maand, tool search vermindert tooldefinitie-tokens met 85%, en programmatic tool calling vermindert het tokengebruik met 37% bij complexe meerstaps-workflows.

🔗 Blog MCP productieagents

OpenAI — WebSockets in de Responses API: 40% minder latentie

22 april — Terugblikartikel van OpenAI dat uitlegt hoe de WebSocket-modus in de Responses API de latentie van agentlussen met 40% vermindert. De persistente verbinding houdt een cache in geheugen bij van de staat van eerdere antwoorden, waardoor het hele historiek niet bij elke oproep opnieuw verwerkt hoeft te worden. Al in productie: Codex, Vercel AI SDK, Cline (+39%), Cursor (+30%).

🔗 WebSockets-artikel

Perplexity Research — Training van retrieval-augmented modellen

22 april — Perplexity publiceert onderzoek naar zijn SFT + RL-pijplijn (Supervised Fine-Tuning + Reinforcement Learning) om de kwaliteit van zoekantwoorden te verbeteren. Belangrijk resultaat: nagesynchroniseerde Qwen-modellen bereiken de factualiteit van GPT-modellen tegen lagere kosten.

🔗 Perplexity Research

Wat dit betekent

23 april 2026 tekent twee samenkomende trends. Enerzijds bevestigt GPT-5.5 dat OpenAI de leiding heeft heroverd op de agentische benchmarks (Terminal-Bench, ARC-AGI-2, OSWorld) na meerdere maanden waarin Claude Opus 4.7 domineerde. De kloof blijft klein op SWE-Bench Pro, waar Anthropic het voordeel behoudt — een teken dat beide labs zich op dezelfde prioritaire use-cases richten.

Anderzijds markeert de dag de intrede in het tijdperk van persistente agents met geheugen: OpenAI Workspace Agents, Anthropic Managed Agents Memory en Kimi K2.6 Agent Swarm verschijnen gelijktijdig met verschillende benaderingen (Slack-integratie, filesystem-based, zwerm van subagents), maar met hetzelfde doel — dat de agent zich herinnert, leert en handelt zonder constante supervisie. De Rakuten-cijfers (-97% fouten, -27% kosten) geven een eerste industriële maatstaf voor de impact.

GitHub Copilot zet zijn strategie van diepe integratie in GitHub.com voort (PR-chat, agentsessies vanuit issues, gestructureerde stacktraces) en opent zich tegelijk naar buiten via BYOK. De BYOK VS Code GA geeft aan dat Copilot zich zowel als interface als als model positioneert.

Bronnen

Dit document is vertaald van de fr-versie naar de nl-taal met behulp van het model gpt-5.4-mini. Voor meer informatie over het vertaalproces, raadpleeg https://gitlab.com/jls42/ai-powered-markdown-translator