ChatGPT Images 2.0 z thinking, Gemini Deep Research Max, NVIDIA x Adobe x WPP

21 kwietnia 2026 roku trzy ważne ogłoszenia dominują w wiadomościach o AI: OpenAI uruchamia ChatGPT Images 2.0 ze swoim pierwszym modelem obrazu zdolnym do rozumowania, Google DeepMind prezentuje dwóch autonomicznych agentów badawczych opartych na Gemini 3.1 Pro, a NVIDIA konsoliduje trójstronne partnerstwo z Adobe i WPP wokół kreatywnych agentów dla marketingu przedsiębiorstw. Claude Code, Codex i Git 2.54 dopełniają dnia bogatego w aktualizacje narzędziowe.

ChatGPT Images 2.0 i gpt-image-2

21 kwietnia — OpenAI uruchamia ChatGPT Images 2.0, dostępny natychmiast dla wszystkich użytkowników ChatGPT i Codex. Model bazowy, gpt-image-2, jest równocześnie dostępny przez API.

Ta nowa wersja stanowi przełom względem poprzedniej generacji: śledzenie szczegółowych instrukcji (instruction following) jest znacząco lepsze, dokładniejsze pozycjonowanie i relacje między obiektami są bardziej niezawodne, renderowanie gęstego tekstu zostało poprawione, a kilka formatów (portret, pejzaż, kwadrat) jest natywnie obsługiwanych.

Tryb rozumowania (thinking) jest główną nowością. ChatGPT Images 2.0 jest pierwszym modelem obrazu OpenAI wyposażonym w zdolności rozumowania. W trybie thinking, dostępnym dla subskrybentów Plus, Pro i Business (Enterprise wkrótce), model może:

Wyszukiwać sieć w czasie rzeczywistym po aktualne informacje
Generować kilka odrębnych obrazów z jednego promptu
Automatycznie weryfikować i poprawiać własne wyniki

Zespoły badawcze OpenAI opisały przypadki użycia w wątku: wielojęzyczne renderowanie i precyzyjny tekst, profesjonalne slajdy i infografiki, wiele formatów i rozdzielczości, obsługa złożonych instrukcji.

Funkcjonalność	Dostępność
ChatGPT Images 2.0 (standard)	Wszyscy użytkownicy ChatGPT i Codex
Tryb thinking	ChatGPT Plus, Pro, Business (Enterprise wkrótce)
API gpt-image-2	Dostępne od teraz

Linia przewodnia OpenAI dla tego wydania: model „przechodzi od generowania obrazów do projektowania strategicznego, od narzędzia do systemu wizualnego”.

🔗 Przedstawienie ChatGPT Images 2.0 🔗 Tweet @OpenAI

Google Deep Research i Deep Research Max

21 kwietnia — Google DeepMind uruchamia dwóch autonomicznych agentów badawczych opartych na Gemini 3.1 Pro: Deep Research i Deep Research Max.

Agenci ci poruszają się zarówno po otwartej sieci, jak i po danych niestandardowych — dokumentach wewnętrznych, wyspecjalizowanych informacjach finansowych — aby tworzyć w pełni cytowane raporty profesjonalne.

Deep Research jest zoptymalizowany pod kątem szybkości i niskiej latencji, idealny do interfejsów wymagających szybkich odpowiedzi. Deep Research Max wykorzystuje wydłużony czas obliczeń (extended test-time compute), aby iteracyjnie rozumować, dopracowywać wyszukiwania i tworzyć raport wysokiej jakości — zaprojektowany do asynchronicznego przetwarzania w tle.

Funkcjonalność	Szczegół
Obsługa MCP	Bezpieczne połączenie ze źródłami własnymi lub zewnętrznymi
Natywne generowanie wizualizacji	Pierwszy agent generujący wykresy i infografiki (HTML lub Nano Banana 2)
Wspólne planowanie	Użytkownik może dopracować plan badania przed wykonaniem
Multimodalność	PDF-y, CSV, obrazy, audio, wideo akceptowane jako dane wejściowe
Dostępność	API Gemini, płatni partnerzy, publiczny podgląd

Natywne generowanie wizualizacji jest godne uwagi: Deep Research Max może tworzyć wykresy i infografiki bezpośrednio w swoich raportach, w HTML lub przez Nano Banana 2, bez zewnętrznego narzędzia. Startupy i firmy Google Cloud skorzystają z dostępności ogłoszonej wkrótce.

🔗 Ogłoszenie @GoogleDeepMind 🔗 Artykuł blog.google

NVIDIA × Adobe × WPP — Kreatywni agenci dla marketingu przedsiębiorstw

20 kwietnia — NVIDIA rozszerza swoje strategiczne współprace z Adobe i WPP, aby wdrożyć autonomicznych agentów AI w operacjach marketingowych przedsiębiorstw. Ogłoszeniu towarzyszy demonstracja na żywo podczas Adobe Summit 21 kwietnia, z Jensenem Huangiem (CEO NVIDIA) i Shantanem Narayenem (CEO Adobe).

Nowe rozwiązanie Adobe CX Enterprise Coworker jest orkiestratorem agentów AI opartych na:

NVIDIA OpenShell : bezpieczne, obserwowalne i audytowalne środowisko uruchomieniowe dla workflowów agentowych
NVIDIA Agent Toolkit i modele open-source Nemotron
Adobe Firefly Foundry przyspieszone przez infrastrukturę NVIDIA AI

W praktyce globalny detalista może teraz generować miliony kombinacji produkt/odbiorca/kanał w kilka minut zamiast miesięcy. Trójwymiarowe cyfrowe bliźniaki (Omniverse + OpenUSD) służą jako trwałe tożsamości produktów, aby zautomatyzować produkcję wysokiej jakości treści na dużą skalę.

🔗 Artykuł blogs.nvidia.com 🔗 Tweet @NVIDIAAI

Claude Code v2.1.116

19–21 kwietnia — Claude Code v2.1.116 wprowadza serię usprawnień ukierunkowanych na wydajność, niezawodność i doświadczenie terminalowe.

Najbardziej odczuwalna aktualizacja: polecenie /resume jest nawet o 67 % szybsze w dużych sesjach (40 MB+), z lepszą obsługą wejść „dead-fork”. Uruchamianie MCP jest również szybsze przy skonfigurowanych wielu serwerach stdio.

Doświadczenie użytkownika:

Wskaźnik rozumowania pokazuje teraz postęp w linii („still thinking”, „thinking more”, „almost done thinking”), zastępując osobną linię podpowiedzi
/config może wyszukiwać po wartości opcji (np. wyszukanie „vim” znajduje parametr Editor mode)
/doctor można otworzyć, gdy Claude odpowiada, bez czekania na koniec tury

Bezpieczeństwo: sandbox auto-allow nie omija już sprawdzania niebezpiecznych ścieżek dla rm/rmdir kierujących do /, $HOME lub innych krytycznych katalogów systemowych.

8 poprawek terminalowych obejmuje: protokół klawiatury Kitty (Ctrl+-, Cmd+Lewo/Prawo), renderowanie skryptów dewanagari, blokowanie Ctrl+Z przez proces wrappera, duplikację scrollback w trybie inline oraz kilka poprawek VS Code/Warp/Ghostty.

Kategoria	Kluczowa zmiana
Wydajność	`/resume` 67 % szybsze w sesjach 40 MB+
UX	Stopniowy spinner thinking, `/config` według wartości
Bezpieczeństwo	Sandbox respektuje ochronę krytycznych ścieżek
Terminale	8 poprawek (Kitty, VS Code, Warp, Ghostty, WezTerm)
Wtyczki	Automatyczna instalacja brakujących zależności

🔗 CHANGELOG Claude Code

Live Artifacts w Claude Cowork

20 kwietnia — Anthropic uruchamia „Live Artifacts” w Claude Cowork: dynamiczne pulpity i trackery bezpośrednio połączone z aplikacjami i plikami użytkownika.

W przeciwieństwie do klasycznych artefaktów (statycznych), Live Artifacts odświeżają się automatycznie po otwarciu wraz z bieżącymi danymi. Są zapisywane w nowej dedykowanej karcie z historią wersji, dostępną z dowolnej sesji.

“In Cowork, Claude can now build live artifacts: dashboards and trackers connected to your apps and files. Open one any time and it refreshes with current data.”

🇵🇱 “W Cowork Claude może teraz tworzyć dynamiczne artefakty: pulpity i trackery połączone z Twoimi aplikacjami i plikami. Otwórz jeden w dowolnym momencie, a odświeży się on z bieżącymi danymi.” — @claudeai na X

Funkcja jest dostępna we wszystkich płatnych planach po aktualizacji aplikacji Claude.

🔗 Ogłoszenie @claudeai

Codex w przedsiębiorstwach: Codex Labs i 7 partnerów integracyjnych

21 kwietnia — OpenAI robi kolejny krok we wdrażaniu enterprise Codex: 4 miliony deweloperów korzysta z niego co tydzień (w porównaniu z 3 milionami na początku kwietnia, czyli +33 % w dwa tygodnie) i równocześnie uruchamia Codex Labs oraz program partnerski z 7 globalnymi integratorami.

Codex Labs wprowadza ekspertów OpenAI bezpośrednio do organizacji na warsztaty praktyczne i sesje robocze, z celem pomocy zespołom przejść od użycia eksperymentalnego do wdrożenia powtarzalnego.

7 partnerów integracyjnych (GSI): Accenture, Capgemini, CGI, Cognizant, Infosys, PwC i Tata Consultancy Services.

Firma	Zastosowanie Codex
Virgin Atlantic	Pokrycie testów, redukcja długu technicznego
Ramp	Przyspieszenie przeglądów kodu (code review)
Notion	Szybkie tworzenie nowych funkcji
Cisco	Zrozumienie dużych, połączonych repozytoriów
Rakuten	Reagowanie na incydenty (incident response)

Codex rozszerza się teraz poza rozwój oprogramowania: nawigację w przeglądarce, generowanie obrazów, pamięć i orkiestrację zadań międzydziedzinowych.

🔗 Skalowanie Codex dla przedsiębiorstw na całym świecie

Nano Banana Pro w Google AI Studio

20 kwietnia — Subskrybenci Google AI Pro i Ultra mają teraz rozszerzony dostęp do Google AI Studio bez wymagania klucza API: dostęp do Nano Banana Pro i modeli Gemini Pro z podwyższonymi limitami użycia.

Wystarczy zalogować się na konto subskrybenta, aby przejść od prototypu do produkcji. Ta zmiana pozycjonuje subskrypcję Google AI jako praktyczny most dla deweloperów chcących eksperymentować bez złożoności rozliczania per zapytanie.

🔗 Ogłoszenie @GoogleAI 🔗 Artykuł blog.google

Kimi FlashKDA open-source

21 kwietnia — Moonshot AI publikuje jako open-source FlashKDA, swoją wysokowydajną implementację CUTLASS kernelów Kimi Delta Attention (KDA).

Metryka	Wartość
Przyspieszenie prefill vs baseline	1,72× do 2,22× na H20
Integracja	Backend typu drop-in dla flash-linear-attention
Wymagania	SM90+, CUDA 12.9+, PyTorch 2.4+

FlashKDA działa jako wymienialny backend (drop-in) dla flash-linear-attention. Integracja jest dostępna przez PR fla-org/flash-linear-attention#852.

🔗 Repo GitHub FlashKDA 🔗 Tweet @Kimi_Moonshot

Git 2.54

20 kwietnia — Git 2.54 jest dostępny z trzema zmianami strukturalnymi.

git history (eksperymentalne) — Nowa podkomenda do przepisywania historii bez użycia git rebase -i:

git history reword <commit> : zmiana wiadomości commita i przepisywanie gałęzi in place
git history split <commit> : interaktywne podzielenie commita na dwa

Config-based hooks — Hooki mogą być teraz definiowane w plikach konfiguracyjnych Git, a nie tylko w .git/hooks. Umożliwia to współdzielenie między wieloma repozytoriami przez ~/.gitconfig, wiele hooków dla tego samego zdarzenia oraz indywidualne wyłączanie przez hook.<name>.enabled = false.

Geometric repacking domyślnie — git maintenance używa teraz domyślnie strategii geometrycznej, poprawiając wydajność bez dodatkowej konfiguracji.

🔗 Najważniejsze zmiany w Git 2.54 🔗 Tweet @github

Genspark Build w publicznym podglądzie

21 kwietnia — Genspark uruchamia Genspark Build w publicznym podglądzie (public preview): narzędzie do tworzenia aplikacji i stron internetowych napędzane przez Claude Opus 4.7, obejmujące cały proces od pomysłu po makietę projektową, prototyp i działający kod.

Użytkownicy Plus i Pro otrzymują 3 dni dostępu bez kredytów od 21 do 24 kwietnia (9:00 PT). Genspark zaznacza, że uruchamia produkt „rough edges and all” — narzędzie jest aktywnie rozwijane.

Tego samego dnia Genspark integruje także Lyria 3 Music w swoim AI Music Agent oraz Gemini 3.1 Flash TTS w swoim AI Audio Agent.

🔗 Tweet Genspark Build 🔗 Tweet Lyria 3 + TTS

Cohere — Badania nad dekodowaniem spekulatywnym dla modeli MoE

21 kwietnia — Cohere publikuje techniczny artykuł badawczy na temat optymalizacji modeli typu mixture-of-experts (Mixture-of-Experts, MoE) za pomocą dekodowania spekulatywnego (speculative decoding).

Zespół potwierdza na swoich produkcyjnych modelach MoE — w tym Command A (111 miliardów parametrów) — nieliniową krzywą zysku zależną od wielkości batcha: zyski najpierw rosną, a potem maleją. Zidentyfikowano dwa kluczowe mechanizmy: czasowa korelacja w routingu ekspertów zmniejsza o 20 do 31 % liczbę unikalnych ekspertów do załadowania do pamięci, a amortyzacja kosztów stałych wyjaśnia wysokie zyski przy BS=1.

🔗 Artykuł Cohere

Genspark Claw: Kimi K2.6 już w dniu premiery

21 kwietnia — Genspark integruje Kimi K2.6 w swoim narzędziu Claw już w dniu premiery (Day 0), dzięki partnerstwu z Fireworks AI, które towarzyszyło fazom przedpremierowym i testowym.

🔗 Tweet @genspark_ai

Anthropic STEM Fellows Program

21 kwietnia — Anthropic uruchamia program STEM Fellows, skierowany do ekspertów z nauk ścisłych i inżynierii, którzy będą pracować u boku zespołów badawczych nad kilkumiesięcznymi projektami w San Francisco.

🔗 Ogłoszenie @AnthropicAI

Co to oznacza

21 kwietnia oznacza zbieżność między rozumowaniem a multimodalną generacją. gpt-image-2 pokazuje wyraźny trend: modele generatywne integrują rozumowanie jako warstwę orkiestracji, a nie tylko jako poprawę jakości. Rezultatem jest model zdolny do wyszukiwania, generowania, weryfikacji i poprawiania w jednej sesji.

Deep Research Max pcha tę samą logikę po stronie badań: dzięki obsłudze MCP agent może uzyskiwać dostęp do ustrukturyzowanych, własnościowych danych, co otwiera drogę do autonomicznych workflowów analitycznych bez eksportowania wrażliwych danych do usług zewnętrznych.

Partnerstwo NVIDIA × Adobe × WPP sygnalizuje, że enterprise adoption AI kreatywnej wychodzi z fazy pilotażowej. OpenShell jako audytowalny runtime odpowiada na realne ograniczenie dużych organizacji: autonomiczni agenci muszą być obserwowalni i możliwi do prześledzenia, a nie tylko wydajni.

Po stronie narzędzi config-based hooks w Git 2.54 to dyskretna, ale ważna zmiana architektoniczna: współdzielone hooki między repozytoriami przez ~/.gitconfig zmienią praktyki zespołowe w zakresie standaryzacji lokalnych workflowów CI.

Źródła - Wprowadzenie do ChatGPT Images 2.0

Ten dokument został przetłumaczony z wersji fr na język pl przy użyciu modelu gpt-5.4-mini. Aby uzyskać więcej informacji o procesie tłumaczenia, odwiedź https://gitlab.com/jls42/ai-powered-markdown-translator