Sök

ChatGPT Images 2.0 med thinking, Gemini Deep Research Max, NVIDIA x Adobe x WPP

ChatGPT Images 2.0 med thinking, Gemini Deep Research Max, NVIDIA x Adobe x WPP

Den 21 april 2026 dominerar tre stora tillkännagivanden AI-nyheterna: OpenAI lanserar ChatGPT Images 2.0 med sin första bildmodell som kan resonera, Google DeepMind presenterar två autonoma sökagenter drivna av Gemini 3.1 Pro, och NVIDIA fördjupar ett treparts­samarbete med Adobe och WPP kring kreativa agenter för företagsmarknadsföring. Claude Code, Codex och Git 2.54 avrundar en dag rik på verktygsuppdateringar.


ChatGPT Images 2.0 och gpt-image-2

21 april — OpenAI lanserar ChatGPT Images 2.0, tillgängligt omedelbart för alla användare av ChatGPT och Codex. Den underliggande modellen, gpt-image-2, är samtidigt tillgänglig via API.

Den här nya versionen markerar ett brott jämfört med föregående generation: följandet av detaljerade instruktioner (instruction following) är avsevärt förbättrat, placeringen och den exakta relationen mellan objekt är mer tillförlitlig, återgivningen av tät text är omarbetad och flera format (stående, liggande, kvadrat) stöds inbyggt.

Resonemangsläget (thinking) är den viktigaste nyheten. ChatGPT Images 2.0 är den första bildmodellen från OpenAI med resonemangsförmåga. I thinking-läge, tillgängligt för Plus-, Pro- och Business-prenumeranter (Enterprise kommer snart), kan modellen:

  • Söka på webben i realtid efter uppdaterad information
  • Generera flera distinkta bilder från en enda prompt
  • Självkontrollera och korrigera sina egna resultat

OpenAIs forskarteam har beskrivit användningsfallen i en tråd: flerspråkig rendering och exakt text, professionella presentationer och infografik, flera format och upplösningar, följning av komplexa instruktioner.

FunktionTillgänglighet
ChatGPT Images 2.0 (standard)Alla användare av ChatGPT och Codex
Thinking-lägeChatGPT Plus, Pro, Business (Enterprise kommer snart)
API gpt-image-2Tillgängligt nu

OpenAIs riktlinje för lanseringen: modellen “går från bildgenerering till strategisk design, från ett verktyg till ett visuellt system.”

🔗 Introduktion till ChatGPT Images 2.0 🔗 Tweet @OpenAI


Google Deep Research och Deep Research Max

21 april — Google DeepMind lanserar två autonoma sökagenter drivna av Gemini 3.1 Pro: Deep Research och Deep Research Max.

Dessa agenter navigerar både på det öppna webben och i anpassade data — interna dokument, specialiserad finansiell information — för att producera helt citerade professionella rapporter.

Deep Research är optimerad för hastighet och låg latens, idealisk för gränssnitt som kräver snabba svar. Deep Research Max utnyttjar utökad beräkningstid (extended test-time compute) för att resonera iterativt, förfina sökningarna och producera en rapport av hög kvalitet — utformad för asynkrona bakgrundsjobb.

FunktionDetalj
MCP-stödSäker anslutning till proprietära eller tredjepartsdata
Inbyggd generering av visuellt materialFörsta agenten som genererar diagram och infografik (HTML eller Nano Banana 2)
SamarbetsplaneringAnvändaren kan förfina forskningsplanen före körning
MultimodalitetPDFs, CSVs, bilder, ljud, video accepteras som indata
TillgänglighetGemini API, betalande tredje parter, offentlig förhandsversion

Den inbyggda genereringen av visuellt material är anmärkningsvärd: Deep Research Max kan producera diagram och infografik direkt i sina rapporter, i HTML eller via Nano Banana 2, utan externt verktyg. Startups och företag inom Google Cloud kommer att få tillgång enligt ett senare meddelat schema.

🔗 Tillkännagivande @GoogleDeepMind 🔗 Artikel blog.google


NVIDIA × Adobe × WPP — Kreativa agenter för företagsmarknadsföring

20 april — NVIDIA breddar sina strategiska samarbeten med Adobe och WPP för att driftsätta autonoma AI-agenter i företagsmarknadsföringens verksamhet. Tillkännagivandet följs av en live-demonstration på Adobe Summit den 21 april, med Jensen Huang (CEO NVIDIA) och Shantanu Narayen (CEO Adobe).

Den nya lösningen Adobe CX Enterprise Coworker orkestreras av AI-agenter som bygger på:

  • NVIDIA OpenShell: säker, observerbar och revisionsbar exekveringsmiljö för agentiska arbetsflöden
  • NVIDIA Agent Toolkit och open source-modellerna Nemotron
  • Adobe Firefly Foundry accelererat av NVIDIA AI-infrastruktur

I praktiken kan en global återförsäljare nu generera miljontals produkt-/målgrupps-/kanal-kombinationer på några minuter i stället för månader. 3D-digitala tvillingar (Omniverse + OpenUSD) fungerar som beständiga produktidentiteter för att automatisera produktionen av högkvalitativt innehåll i stor skala.

🔗 Artikel blogs.nvidia.com 🔗 Tweet @NVIDIAAI


Claude Code v2.1.116

19–21 april — Claude Code v2.1.116 medför en rad förbättringar riktade mot prestanda, tillförlitlighet och terminalupplevelse.

Den mest påtagliga uppdateringen: kommandot /resume är upp till 67 % snabbare under stora sessioner (40 MB+), med bättre hantering av “dead-fork”-indata. MCP-starten är också snabbare med flera konfigurerade stdio-servrar.

Användarupplevelse:

  • Resonansindikatorn visar nu förloppet inline (“still thinking”, “thinking more”, “almost done thinking”), och ersätter den separata indikatorraden
  • /config kan söka efter alternativvärde (t.ex. att söka efter “vim” hittar parametern Editor mode)
  • /doctor kan öppnas medan Claude svarar, utan att vänta tills turen är slut

Säkerhet: sandboxens auto-allow kringgår inte längre kontrollen av farliga sökvägar för rm/rmdir som riktar sig mot /, $HOME eller andra kritiska systemkataloger.

8 terminalfixar inkluderar: Kitty-tangentbordsprotokoll (Ctrl+-, Cmd+Vänster/Höger), rendering av Devanagari-skript, blockering av Ctrl+Z via wrapper-process, duplicering av scrollback i inline-läge och flera VS Code/Warp/Ghostty-fixar.

KategoriHuvudförändring
Prestanda/resume 67 % snabbare på 40 MB+-sessioner
UXProgressiv thinking-spinner, /config efter värde
SäkerhetSandbox respekterar skyddet för kritiska sökvägar
Terminaler8 fixar (Kitty, VS Code, Warp, Ghostty, WezTerm)
PluginsAutomatisk installation av saknade beroenden

🔗 CHANGELOG Claude Code


Live Artifacts i Claude Cowork

20 april — Anthropic lanserar “Live Artifacts” i Claude Cowork: dynamiska instrumentpaneler och trackers direkt kopplade till användarens appar och filer.

Till skillnad från klassiska artefakter (statiska) uppdateras Live Artifacts automatiskt när de öppnas med aktuella data. De sparas i en ny dedikerad flik med versionshistorik, tillgänglig från vilken session som helst.

“In Cowork, Claude can now build live artifacts: dashboards and trackers connected to your apps and files. Open one any time and it refreshes with current data.”

🇸🇪 “I Cowork kan Claude nu skapa dynamiska artefakter: instrumentpaneler och trackers kopplade till dina appar och filer. Öppna en när som helst så uppdateras den med aktuella data.”@claudeai på X

Funktionen är tillgänglig på alla betalplaner via en uppdatering av Claude-appen.

🔗 Tillkännagivande @claudeai


Codex i företagsmiljö: Codex Labs och 7 partnerintegratörer

21 april — OpenAI tar ett nytt steg i Codex enterprise-satsning: 4 miljoner utvecklare använder det varje vecka (mot 3 miljoner i början av april, alltså +33 % på två veckor), och lanserar samtidigt Codex Labs samt ett partnerskapsprogram med 7 globala integratörer.

Codex Labs tar OpenAI-experter direkt in i organisationer för praktiska workshops och arbetspass, med målet att hjälpa team att gå från experimentell användning till reproducerbar driftsättning.

De 7 partnerintegratörerna (GSI): Accenture, Capgemini, CGI, Cognizant, Infosys, PwC och Tata Consultancy Services.

FöretagCodex-användning
Virgin AtlanticTesttäckning, minskning av teknisk skuld
RampSnabbare kodgranskningar (code review)
NotionSnabb utveckling av nya funktioner
CiscoFörståelse av stora sammankopplade kodbaser
RakutenIncidenthantering (incident response)

Codex sträcker sig nu bortom mjukvaruutveckling: webbläsarnavigering, bildgenerering, minne, orkestrering av tvärgående uppgifter.

🔗 Skala Codex till företag världen över


Nano Banana Pro i Google AI Studio

20 april — Prenumeranter på Google AI Pro och Ultra får nu utökad tillgång till Google AI Studio utan att någon API-nyckel krävs: tillgång till Nano Banana Pro och modellerna Gemini Pro med höjda användningsgränser.

Det räcker att logga in med sitt prenumerationskonto för att gå från prototyp till produktion. Den här utvecklingen positionerar Google AI-prenumerationen som en praktisk brygga för utvecklare som vill experimentera utan komplexiteten i debitering per anrop.

🔗 Tillkännagivande @GoogleAI 🔗 Artikel blog.google


Kimi FlashKDA open source

21 april — Moonshot AI publicerar FlashKDA med öppen källkod, deras högpresterande CUTLASS-implementation av Kimi Delta Attention (KDA)-kärnorna.

MätvärdeVärde
Speedup prefill vs baseline1,72× till 2,22× på H20
IntegrationDrop-in-backend för flash-linear-attention
KravSM90+, CUDA 12.9+, PyTorch 2.4+

FlashKDA fungerar som en utbytbar (drop-in) backend för flash-linear-attention. Integrationen finns tillgänglig via PR fla-org/flash-linear-attention#852.

🔗 GitHub-repo FlashKDA 🔗 Tweet @Kimi_Moonshot


Git 2.54

20 april — Git 2.54 är tillgängligt med tre strukturella förändringar.

git history (experimentell) — Ny underkommandon för att skriva om historik utan att gå via git rebase -i:

  • git history reword <commit>: ändra meddelandet för en commit och skriva om brancher på plats
  • git history split <commit>: dela upp en commit i två interaktivt

Config-based hooks — Hooks kan nu definieras i Git-konfigurationsfiler, inte bara i .git/hooks. Detta möjliggör delning mellan flera repos via ~/.gitconfig, flera hooks för samma händelse och individuell avaktivering via hook.<name>.enabled = false.

Geometric repacking som standardgit maintenance använder nu den geometriska strategin som standard, vilket förbättrar prestanda utan extra konfiguration.

🔗 Höjdpunkter från Git 2.54 🔗 Tweet @github


Genspark Build i offentlig förhandsversion

21 april — Genspark lanserar Genspark Build i offentlig förhandsversion (public preview): ett verktyg för att skapa appar och webbplatser drivet av Claude Opus 4.7, som täcker hela processen från idé till mockup, design, prototyp och fungerande kod.

Plus- och Pro-användare får 3 dagars åtkomst utan krediter från 21 till 24 april (9.00 PT). Genspark förtydligar att de lanserar “rough edges and all” — verktyget är under aktiv utveckling.

Samma dag integrerar Genspark också Lyria 3 Music i sin AI Music Agent och Gemini 3.1 Flash TTS i sin AI Audio Agent.

🔗 Tweet Genspark Build 🔗 Tweet Lyria 3 + TTS


Cohere — Forskning om spekulativ avkodning för MoE-modeller

21 april — Cohere publicerar en teknisk forskningsartikel om optimering av modeller med expertblandning (Mixture-of-Experts, MoE) med spekulativ avkodning (speculative decoding).

Teamet validerar på sina MoE-modeller i produktion — däribland Command A (111 miljarder parametrar) — en icke-monoton vinstkurva beroende på batchstorlek: vinsterna ökar först innan de minskar. Två nyckelmekanismer identifieras: tidsmässig korrelation i expert-routingen minskar med 20 till 31 % antalet unika experter som behöver laddas in i minnet, och en utjämning av fasta kostnader förklarar de höga vinsterna vid BS=1.

🔗 Artikel Cohere


Genspark Claw: Kimi K2.6 redan dag ett

21 april — Genspark integrerar Kimi K2.6 i sitt Claw-verktyg redan på lanseringsdagen (Day 0), via ett partnerskap med Fireworks AI som följde prelanserings- och testfaserna.

🔗 Tweet @genspark_ai


Anthropic STEM Fellows Program

21 april — Anthropic lanserar programmet STEM Fellows, riktat mot experter inom naturvetenskap och ingenjörsvetenskap som ska arbeta sida vid sida med forskningsteam på projekt som varar några månader, baserade i San Francisco.

🔗 Tillkännagivande @AnthropicAI


Vad detta betyder

Den 21 april markerar en konvergens mellan resonemang och multimodal generering. gpt-image-2 illustrerar en tydlig trend: generativa modeller integrerar resonemang som ett orkestreringslager, inte bara som en kvalitetsförbättring. Resultatet är en modell som kan söka, generera, verifiera och korrigera i samma session.

Deep Research Max driver samma logik på forskningssidan: med MCP-stöd kan agenten få tillgång till strukturerade proprietära data, vilket öppnar vägen för autonoma analytiska arbetsflöden utan att känsliga data exporteras till tredjepartstjänster.

NVIDIA × Adobe × WPP-partnerskapet signalerar att enterprise-användningen av kreativ AI lämnar pilotfasen. OpenShell som revisionsbar runtime svarar mot en verklig begränsning i stora organisationer: autonoma agenter måste kunna observeras och spåras, inte bara vara prestandastarka.

På verktygssidan är config-based hooks i Git 2.54 en diskret men viktig arkitektonisk förändring: delade hooks mellan repos via ~/.gitconfig kommer att förändra teamens arbetssätt för standardisering av lokala CI-flöden.


Källor - Introduktion av ChatGPT Images 2.0

Detta dokument har översatts från versionen fr till språket sv med hjälp av modellen gpt-5.4-mini. För mer information om översättningsprocessen, se https://gitlab.com/jls42/ai-powered-markdown-translator