Szukaj

ChatGPT Images 2.0 z thinking, Gemini Deep Research Max, NVIDIA x Adobe x WPP

ChatGPT Images 2.0 z thinking, Gemini Deep Research Max, NVIDIA x Adobe x WPP

21 kwietnia 2026 roku trzy ważne ogłoszenia dominują w wiadomościach o AI: OpenAI uruchamia ChatGPT Images 2.0 ze swoim pierwszym modelem obrazu zdolnym do rozumowania, Google DeepMind prezentuje dwóch autonomicznych agentów badawczych opartych na Gemini 3.1 Pro, a NVIDIA konsoliduje trójstronne partnerstwo z Adobe i WPP wokół kreatywnych agentów dla marketingu przedsiębiorstw. Claude Code, Codex i Git 2.54 dopełniają dnia bogatego w aktualizacje narzędziowe.


ChatGPT Images 2.0 i gpt-image-2

21 kwietnia — OpenAI uruchamia ChatGPT Images 2.0, dostępny natychmiast dla wszystkich użytkowników ChatGPT i Codex. Model bazowy, gpt-image-2, jest równocześnie dostępny przez API.

Ta nowa wersja stanowi przełom względem poprzedniej generacji: śledzenie szczegółowych instrukcji (instruction following) jest znacząco lepsze, dokładniejsze pozycjonowanie i relacje między obiektami są bardziej niezawodne, renderowanie gęstego tekstu zostało poprawione, a kilka formatów (portret, pejzaż, kwadrat) jest natywnie obsługiwanych.

Tryb rozumowania (thinking) jest główną nowością. ChatGPT Images 2.0 jest pierwszym modelem obrazu OpenAI wyposażonym w zdolności rozumowania. W trybie thinking, dostępnym dla subskrybentów Plus, Pro i Business (Enterprise wkrótce), model może:

  • Wyszukiwać sieć w czasie rzeczywistym po aktualne informacje
  • Generować kilka odrębnych obrazów z jednego promptu
  • Automatycznie weryfikować i poprawiać własne wyniki

Zespoły badawcze OpenAI opisały przypadki użycia w wątku: wielojęzyczne renderowanie i precyzyjny tekst, profesjonalne slajdy i infografiki, wiele formatów i rozdzielczości, obsługa złożonych instrukcji.

FunkcjonalnośćDostępność
ChatGPT Images 2.0 (standard)Wszyscy użytkownicy ChatGPT i Codex
Tryb thinkingChatGPT Plus, Pro, Business (Enterprise wkrótce)
API gpt-image-2Dostępne od teraz

Linia przewodnia OpenAI dla tego wydania: model „przechodzi od generowania obrazów do projektowania strategicznego, od narzędzia do systemu wizualnego”.

🔗 Przedstawienie ChatGPT Images 2.0 🔗 Tweet @OpenAI


Google Deep Research i Deep Research Max

21 kwietnia — Google DeepMind uruchamia dwóch autonomicznych agentów badawczych opartych na Gemini 3.1 Pro: Deep Research i Deep Research Max.

Agenci ci poruszają się zarówno po otwartej sieci, jak i po danych niestandardowych — dokumentach wewnętrznych, wyspecjalizowanych informacjach finansowych — aby tworzyć w pełni cytowane raporty profesjonalne.

Deep Research jest zoptymalizowany pod kątem szybkości i niskiej latencji, idealny do interfejsów wymagających szybkich odpowiedzi. Deep Research Max wykorzystuje wydłużony czas obliczeń (extended test-time compute), aby iteracyjnie rozumować, dopracowywać wyszukiwania i tworzyć raport wysokiej jakości — zaprojektowany do asynchronicznego przetwarzania w tle.

FunkcjonalnośćSzczegół
Obsługa MCPBezpieczne połączenie ze źródłami własnymi lub zewnętrznymi
Natywne generowanie wizualizacjiPierwszy agent generujący wykresy i infografiki (HTML lub Nano Banana 2)
Wspólne planowanieUżytkownik może dopracować plan badania przed wykonaniem
MultimodalnośćPDF-y, CSV, obrazy, audio, wideo akceptowane jako dane wejściowe
DostępnośćAPI Gemini, płatni partnerzy, publiczny podgląd

Natywne generowanie wizualizacji jest godne uwagi: Deep Research Max może tworzyć wykresy i infografiki bezpośrednio w swoich raportach, w HTML lub przez Nano Banana 2, bez zewnętrznego narzędzia. Startupy i firmy Google Cloud skorzystają z dostępności ogłoszonej wkrótce.

🔗 Ogłoszenie @GoogleDeepMind 🔗 Artykuł blog.google


NVIDIA × Adobe × WPP — Kreatywni agenci dla marketingu przedsiębiorstw

20 kwietnia — NVIDIA rozszerza swoje strategiczne współprace z Adobe i WPP, aby wdrożyć autonomicznych agentów AI w operacjach marketingowych przedsiębiorstw. Ogłoszeniu towarzyszy demonstracja na żywo podczas Adobe Summit 21 kwietnia, z Jensenem Huangiem (CEO NVIDIA) i Shantanem Narayenem (CEO Adobe).

Nowe rozwiązanie Adobe CX Enterprise Coworker jest orkiestratorem agentów AI opartych na:

  • NVIDIA OpenShell : bezpieczne, obserwowalne i audytowalne środowisko uruchomieniowe dla workflowów agentowych
  • NVIDIA Agent Toolkit i modele open-source Nemotron
  • Adobe Firefly Foundry przyspieszone przez infrastrukturę NVIDIA AI

W praktyce globalny detalista może teraz generować miliony kombinacji produkt/odbiorca/kanał w kilka minut zamiast miesięcy. Trójwymiarowe cyfrowe bliźniaki (Omniverse + OpenUSD) służą jako trwałe tożsamości produktów, aby zautomatyzować produkcję wysokiej jakości treści na dużą skalę.

🔗 Artykuł blogs.nvidia.com 🔗 Tweet @NVIDIAAI


Claude Code v2.1.116

19–21 kwietnia — Claude Code v2.1.116 wprowadza serię usprawnień ukierunkowanych na wydajność, niezawodność i doświadczenie terminalowe.

Najbardziej odczuwalna aktualizacja: polecenie /resume jest nawet o 67 % szybsze w dużych sesjach (40 MB+), z lepszą obsługą wejść „dead-fork”. Uruchamianie MCP jest również szybsze przy skonfigurowanych wielu serwerach stdio.

Doświadczenie użytkownika:

  • Wskaźnik rozumowania pokazuje teraz postęp w linii („still thinking”, „thinking more”, „almost done thinking”), zastępując osobną linię podpowiedzi
  • /config może wyszukiwać po wartości opcji (np. wyszukanie „vim” znajduje parametr Editor mode)
  • /doctor można otworzyć, gdy Claude odpowiada, bez czekania na koniec tury

Bezpieczeństwo: sandbox auto-allow nie omija już sprawdzania niebezpiecznych ścieżek dla rm/rmdir kierujących do /, $HOME lub innych krytycznych katalogów systemowych.

8 poprawek terminalowych obejmuje: protokół klawiatury Kitty (Ctrl+-, Cmd+Lewo/Prawo), renderowanie skryptów dewanagari, blokowanie Ctrl+Z przez proces wrappera, duplikację scrollback w trybie inline oraz kilka poprawek VS Code/Warp/Ghostty.

KategoriaKluczowa zmiana
Wydajność/resume 67 % szybsze w sesjach 40 MB+
UXStopniowy spinner thinking, /config według wartości
BezpieczeństwoSandbox respektuje ochronę krytycznych ścieżek
Terminale8 poprawek (Kitty, VS Code, Warp, Ghostty, WezTerm)
WtyczkiAutomatyczna instalacja brakujących zależności

🔗 CHANGELOG Claude Code


Live Artifacts w Claude Cowork

20 kwietnia — Anthropic uruchamia „Live Artifacts” w Claude Cowork: dynamiczne pulpity i trackery bezpośrednio połączone z aplikacjami i plikami użytkownika.

W przeciwieństwie do klasycznych artefaktów (statycznych), Live Artifacts odświeżają się automatycznie po otwarciu wraz z bieżącymi danymi. Są zapisywane w nowej dedykowanej karcie z historią wersji, dostępną z dowolnej sesji.

“In Cowork, Claude can now build live artifacts: dashboards and trackers connected to your apps and files. Open one any time and it refreshes with current data.”

🇵🇱 “W Cowork Claude może teraz tworzyć dynamiczne artefakty: pulpity i trackery połączone z Twoimi aplikacjami i plikami. Otwórz jeden w dowolnym momencie, a odświeży się on z bieżącymi danymi.”@claudeai na X

Funkcja jest dostępna we wszystkich płatnych planach po aktualizacji aplikacji Claude.

🔗 Ogłoszenie @claudeai


Codex w przedsiębiorstwach: Codex Labs i 7 partnerów integracyjnych

21 kwietnia — OpenAI robi kolejny krok we wdrażaniu enterprise Codex: 4 miliony deweloperów korzysta z niego co tydzień (w porównaniu z 3 milionami na początku kwietnia, czyli +33 % w dwa tygodnie) i równocześnie uruchamia Codex Labs oraz program partnerski z 7 globalnymi integratorami.

Codex Labs wprowadza ekspertów OpenAI bezpośrednio do organizacji na warsztaty praktyczne i sesje robocze, z celem pomocy zespołom przejść od użycia eksperymentalnego do wdrożenia powtarzalnego.

7 partnerów integracyjnych (GSI): Accenture, Capgemini, CGI, Cognizant, Infosys, PwC i Tata Consultancy Services.

FirmaZastosowanie Codex
Virgin AtlanticPokrycie testów, redukcja długu technicznego
RampPrzyspieszenie przeglądów kodu (code review)
NotionSzybkie tworzenie nowych funkcji
CiscoZrozumienie dużych, połączonych repozytoriów
RakutenReagowanie na incydenty (incident response)

Codex rozszerza się teraz poza rozwój oprogramowania: nawigację w przeglądarce, generowanie obrazów, pamięć i orkiestrację zadań międzydziedzinowych.

🔗 Skalowanie Codex dla przedsiębiorstw na całym świecie


Nano Banana Pro w Google AI Studio

20 kwietnia — Subskrybenci Google AI Pro i Ultra mają teraz rozszerzony dostęp do Google AI Studio bez wymagania klucza API: dostęp do Nano Banana Pro i modeli Gemini Pro z podwyższonymi limitami użycia.

Wystarczy zalogować się na konto subskrybenta, aby przejść od prototypu do produkcji. Ta zmiana pozycjonuje subskrypcję Google AI jako praktyczny most dla deweloperów chcących eksperymentować bez złożoności rozliczania per zapytanie.

🔗 Ogłoszenie @GoogleAI 🔗 Artykuł blog.google


Kimi FlashKDA open-source

21 kwietnia — Moonshot AI publikuje jako open-source FlashKDA, swoją wysokowydajną implementację CUTLASS kernelów Kimi Delta Attention (KDA).

MetrykaWartość
Przyspieszenie prefill vs baseline1,72× do 2,22× na H20
IntegracjaBackend typu drop-in dla flash-linear-attention
WymaganiaSM90+, CUDA 12.9+, PyTorch 2.4+

FlashKDA działa jako wymienialny backend (drop-in) dla flash-linear-attention. Integracja jest dostępna przez PR fla-org/flash-linear-attention#852.

🔗 Repo GitHub FlashKDA 🔗 Tweet @Kimi_Moonshot


Git 2.54

20 kwietnia — Git 2.54 jest dostępny z trzema zmianami strukturalnymi.

git history (eksperymentalne) — Nowa podkomenda do przepisywania historii bez użycia git rebase -i:

  • git history reword <commit> : zmiana wiadomości commita i przepisywanie gałęzi in place
  • git history split <commit> : interaktywne podzielenie commita na dwa

Config-based hooks — Hooki mogą być teraz definiowane w plikach konfiguracyjnych Git, a nie tylko w .git/hooks. Umożliwia to współdzielenie między wieloma repozytoriami przez ~/.gitconfig, wiele hooków dla tego samego zdarzenia oraz indywidualne wyłączanie przez hook.<name>.enabled = false.

Geometric repacking domyślniegit maintenance używa teraz domyślnie strategii geometrycznej, poprawiając wydajność bez dodatkowej konfiguracji.

🔗 Najważniejsze zmiany w Git 2.54 🔗 Tweet @github


Genspark Build w publicznym podglądzie

21 kwietnia — Genspark uruchamia Genspark Build w publicznym podglądzie (public preview): narzędzie do tworzenia aplikacji i stron internetowych napędzane przez Claude Opus 4.7, obejmujące cały proces od pomysłu po makietę projektową, prototyp i działający kod.

Użytkownicy Plus i Pro otrzymują 3 dni dostępu bez kredytów od 21 do 24 kwietnia (9:00 PT). Genspark zaznacza, że uruchamia produkt „rough edges and all” — narzędzie jest aktywnie rozwijane.

Tego samego dnia Genspark integruje także Lyria 3 Music w swoim AI Music Agent oraz Gemini 3.1 Flash TTS w swoim AI Audio Agent.

🔗 Tweet Genspark Build 🔗 Tweet Lyria 3 + TTS


Cohere — Badania nad dekodowaniem spekulatywnym dla modeli MoE

21 kwietnia — Cohere publikuje techniczny artykuł badawczy na temat optymalizacji modeli typu mixture-of-experts (Mixture-of-Experts, MoE) za pomocą dekodowania spekulatywnego (speculative decoding).

Zespół potwierdza na swoich produkcyjnych modelach MoE — w tym Command A (111 miliardów parametrów) — nieliniową krzywą zysku zależną od wielkości batcha: zyski najpierw rosną, a potem maleją. Zidentyfikowano dwa kluczowe mechanizmy: czasowa korelacja w routingu ekspertów zmniejsza o 20 do 31 % liczbę unikalnych ekspertów do załadowania do pamięci, a amortyzacja kosztów stałych wyjaśnia wysokie zyski przy BS=1.

🔗 Artykuł Cohere


Genspark Claw: Kimi K2.6 już w dniu premiery

21 kwietnia — Genspark integruje Kimi K2.6 w swoim narzędziu Claw już w dniu premiery (Day 0), dzięki partnerstwu z Fireworks AI, które towarzyszyło fazom przedpremierowym i testowym.

🔗 Tweet @genspark_ai


Anthropic STEM Fellows Program

21 kwietnia — Anthropic uruchamia program STEM Fellows, skierowany do ekspertów z nauk ścisłych i inżynierii, którzy będą pracować u boku zespołów badawczych nad kilkumiesięcznymi projektami w San Francisco.

🔗 Ogłoszenie @AnthropicAI


Co to oznacza

21 kwietnia oznacza zbieżność między rozumowaniem a multimodalną generacją. gpt-image-2 pokazuje wyraźny trend: modele generatywne integrują rozumowanie jako warstwę orkiestracji, a nie tylko jako poprawę jakości. Rezultatem jest model zdolny do wyszukiwania, generowania, weryfikacji i poprawiania w jednej sesji.

Deep Research Max pcha tę samą logikę po stronie badań: dzięki obsłudze MCP agent może uzyskiwać dostęp do ustrukturyzowanych, własnościowych danych, co otwiera drogę do autonomicznych workflowów analitycznych bez eksportowania wrażliwych danych do usług zewnętrznych.

Partnerstwo NVIDIA × Adobe × WPP sygnalizuje, że enterprise adoption AI kreatywnej wychodzi z fazy pilotażowej. OpenShell jako audytowalny runtime odpowiada na realne ograniczenie dużych organizacji: autonomiczni agenci muszą być obserwowalni i możliwi do prześledzenia, a nie tylko wydajni.

Po stronie narzędzi config-based hooks w Git 2.54 to dyskretna, ale ważna zmiana architektoniczna: współdzielone hooki między repozytoriami przez ~/.gitconfig zmienią praktyki zespołowe w zakresie standaryzacji lokalnych workflowów CI.


Źródła - Wprowadzenie do ChatGPT Images 2.0

Ten dokument został przetłumaczony z wersji fr na język pl przy użyciu modelu gpt-5.4-mini. Aby uzyskać więcej informacji o procesie tłumaczenia, odwiedź https://gitlab.com/jls42/ai-powered-markdown-translator