GPT-5.5 Instant nowym domyślnym modelem ChatGPT, Grok 4.3 na API xAI, Anthropic x Blackstone dla enterprise

Intensywny tydzień: OpenAI wprowadza GPT-5.5 Instant jako bezpośredni zamiennik GPT-5.3 dla wszystkich użytkowników ChatGPT, xAI uruchamia Grok 4.3 na swoim API z kontekstem miliona tokenów, a Anthropic ogłasza nową firmę świadczącą usługi AI dla enterprise, współzałożoną z Blackstone, Hellman & Friedman oraz Goldman Sachs. Po stronie narzędzi GitHub potraja GA/podglądy bezpieczeństwa przez swój serwer MCP, Perplexity uruchamia produkt przeznaczony dla zespołów finansowych, a Runway prezentuje agentów wideo w czasie rzeczywistym generowanych z jednego obrazu.

GPT-5.5 Instant — nowy domyślny model ChatGPT

5 maja — OpenAI zastępuje GPT-5.3 Instant modelem GPT-5.5 Instant jako domyślnym modelem ChatGPT dla wszystkich użytkowników. Wdrożenie rozłożone jest na dwa dni.

Wymiar	Poprawa względem GPT-5.3 Instant
Halucynacje (medycyna, prawo, finanse)	-52,5 %
Nieprawidłowe twierdzenia (zgłaszane przez użytkowników)	-37,3 %
Rozgadanie odpowiedzi	-30,2 % słów średnio

Model poprawia również analizę obrazów, odpowiedzi STEM oraz decyzję o użyciu wyszukiwania w sieci. Odpowiedzi są bardziej zwięzłe bez utraty treści, z mniejszą ilością zbędnego formatowania i mniej niepotrzebnych pytań uzupełniających.

Źródła pamięci — OpenAI wprowadza „memory sources” we wszystkich modelach ChatGPT: gdy odpowiedź jest personalizowana na podstawie zapisanych wspomnień, wcześniejszych rozmów lub połączonego Gmaila, użytkownik widzi dokładnie, jakie źródła zostały użyte, i może je poprawić lub usunąć. Personalizacja na podstawie wcześniejszych rozmów i plików jest początkowo dostępna tylko dla subskrybentów Plus i Pro (web), a pozostałe plany otrzymają ją później.

Dostępność:

Stopniowe wdrażanie przez 2 dni dla wszystkich użytkowników ChatGPT
Dostępne w API pod aliasem chat-latest
GPT-5.3 Instant pozostaje dostępny przez 3 miesiące dla płatnych subskrybentów

🔗 Oficjalne ogłoszenie GPT-5.5 Instant

Grok 4.3 uruchomiony na API xAI — kontekst 1M tokenów, #1 w agentic tool calling

5 maja — xAI ogłasza za pośrednictwem X uruchomienie Grok 4.3 na API xAI (console.x.ai). Model jest przedstawiany jako najszybszy i najinteligentniejszy w gamie do tej pory.

Cecha	Wartość
Okno kontekstu	1 milion tokenów
Benchmark agentic tool calling	#1 (@ArtificialAnlys leaderboard)
Benchmark instruction following	#1 (@ArtificialAnlys leaderboard)
Domeny enterprise	#1 case law i corporate finance (@ValsAI)
Dostępność	API xAI (console.x.ai) — jeszcze nie na grok.com

Grok 4.3 is now live on the xAI API. It’s our fastest, most intelligent model to date. It tops the @ArtificialAnlys leaderboards in agentic tool calling and instruction following, and ranks #1 in @ValsAI enterprise domains like case law and corporate finance. Grok 4.3 supports a 1 million token context.

🇵🇱 Grok 4.3 jest już dostępny na API xAI. To nasz najszybszy i najinteligentniejszy model do tej pory. Zajmuje pierwsze miejsca w rankingach @ArtificialAnlys w agentic tool calling i instruction following, a także plasuje się na #1 na @ValsAI w obszarach enterprise, takich jak prawo gospodarcze i finanse korporacyjne. Grok 4.3 obsługuje kontekst o wielkości miliona tokenów. — @xai na X

Tweet wygenerował 25,7 miliona wyświetleń i 6 029 polubień. Warto zauważyć: w momencie ogłoszenia nie istniała żadna dedykowana strona na x.ai/news — uruchomienie odbyło się wyłącznie przez X.

Anthropic i Blackstone, Hellman & Friedman, Goldman Sachs — nowa firma usług AI dla enterprise

4 maja — Anthropic, Blackstone, Hellman & Friedman oraz Goldman Sachs ogłaszają utworzenie nowej firmy świadczącej usługi AI dla enterprise, wspieranej przez konsorcjum dodatkowych alternatywnych graczy.

Cel: wdrożyć Claude do podstawowych operacji dużych firm w zadaniach wymagających intensywnej inżynierii i dogłębnej wiedzy branżowej. Według Anthropic popyt enterprise na Claude przekracza to, co może obsłużyć pojedynczy model dystrybucji.

Typowy model operacyjny zaczyna się od małego zespołu, który ściśle współpracuje z klientem, aby zidentyfikować punkty tarcia, a następnie buduje dopasowanych do biznesu agentów Claude. Podany przykład: sieć wielooddziałowych gabinetów medycznych, w której Claude obsługuje dokumentację kliniczną, powtarzalne zadania administracyjne oraz koordynację między specjalizacjami, pozwalając klinicystom skupić się na opiece nad pacjentami.

Nowa firma dołączy do Claude Partner Network, obok Accenture, Deloitte i PwC. Stanowi to strukturalny krok w strategii dystrybucji enterprise Anthropic: zamiast sprzedawać wyłącznie licencje API, firma angażuje się teraz w złożone wdrożenia operacyjne z partnerami finansowymi najwyższej klasy.

🔗 Oficjalne ogłoszenie

Agenci Claude dla usług finansowych i ubezpieczeń

5 maja — Anthropic uruchamia dziesięć gotowych do użycia szablonów agentów (ready-to-run) dla usług finansowych i ubezpieczeń. Dostępne jako wtyczki w Claude Cowork lub Claude Code, albo jako autonomiczni Claude Managed Agents na platformie Claude.

Badania i obsługa klientów:

Agent	Rola
Pitch builder	Listy docelowe, comparables, pitchbooki
Meeting preparer	Briefy dla klientów i kontrpartnerów
Earnings reviewer	Odczyt transkrypcji i aktualizacje modeli
Model builder	Tworzenie modeli finansowych na podstawie filings i danych
Market researcher	Monitoring sektora i synteza wiadomości

Finanse i operacje:

Agent	Rola
Valuation reviewer	Weryfikacja wycen
General ledger reconciler	Uzgadnianie księgi głównej i obliczenia NAV
Month-end closer	Zamknięcie miesiąca i dzienniki księgowe
Statement auditor	Przegląd sprawozdań finansowych
KYC screener	Kompletowanie dossiers podmiotów i filtrowanie zgodności

Claude integruje się teraz z Microsoft Excel, PowerPoint, Word i Outlook (w trakcie wdrażania) poprzez dodatki (add-ins). Funkcja Dispatch w Claude Cowork pozwala przypisywać zadania tekstowo lub głosowo z dowolnego miejsca.

Nowe konektory danych: Dun & Bradstreet, Fiscal AI, Financial Modeling Prep, Guidepoint, IBISWorld, SS&C IntraLinks, Third Bridge, Verisk oraz MCP Moody’s (ratingi i dane dla ponad 6 000 podmiotów).

Wśród wymienionych klientów: Citadel, FIS, BNY, Carlyle, Mizuho, Travelers, Walleye Capital (100 % pracowników używa Claude Code), Hg, Morningstar, FactSet. Agenci są zoptymalizowani pod Claude Opus 4.7, zajmujący #1 w benchmarku Vals AI Finance Agent.

🔗 Oficjalne ogłoszenie

Perplexity Computer for Professional Finance

5 maja — Perplexity uruchamia Computer dla finansów profesjonalnych, wersję Computer zaprojektowaną specjalnie dla zespołów analitycznych i inwestycyjnych: analityków buy-side i sell-side, funduszy hedgingowych, private equity.

Wymiar	Wartość
Uwzględnione workflow	35 (10 segmentów)
Zintegrowani dostawcy danych	14 (w tym Quartr, Fiscal)
Premium konektory MCP	Morningstar, PitchBook, Daloopa, Carbon Arc
Dostępne platformy	Microsoft Teams, Agent API
Wkrótce	Excel add-in
Benchmark FinSearchComp T1	1. miejsce (dokładność, koszt, opóźnienie)

Zespoły posiadające subskrypcje licencjonowane mogą podłączyć własne identyfikatory przez konektory MCP, aby uzyskać dostęp do Morningstar, PitchBook, Daloopa i Carbon Arc. Pozostali korzystają ze zintegrowanych narzędzi finansowych opartych na 14 dostawcach danych.

Każda wartość liczbowa odsyła do swojego źródła: w przypadku danych pochodzących z dokumentów SEC Computer pokazuje obliczenie i wskazuje konkretne strony dokumentu. W benchmarku FinSearchComp T1 (wydobywanie danych wrażliwych na czas) Perplexity zajmuje pierwsze miejsce pod względem dokładności, kosztu za poprawną odpowiedź i opóźnienia — obejmując ceny w czasie rzeczywistym, ceny krypto i kursy wymiany.

🔗 Blog Perplexity — Computer for Professional Finance

Runway Characters — agent wideo w czasie rzeczywistym z jednego obrazu

4 maja — Runway ogłasza Characters, technologię pozwalającą przekształcić pojedynczy obraz w konwersacyjnego agenta wideo działającego w czasie rzeczywistym.

Metryka	Wartość
Opóźnienie end-to-end	1,75 sekundy
Jakość wideo	24 fps HD
Wymagane źródło obrazu	1 obraz
Zimne starty	60× szybciej (GPU peer-to-peer)

Opóźnienie 1,75 sekundy mierzone jest od momentu, gdy użytkownik przestaje mówić, do pierwszej odpowiedzi postaci. Runway opublikowało jednocześnie dwa artykuły inżynieryjne: pierwszy opisuje architekturę agenta wideo czasu rzeczywistego, a drugi wyjaśnia, jak infrastruktura GPU peer-to-peer (peer-to-peer) skraca czasy cold startów 60-krotnie.

Zastosowania obejmują agentów konwersacyjnych, interaktywne postacie w czasie rzeczywistym oraz interfejsy wideo dla aplikacji. Technologia oznacza przejście od renderingu wideo offline do synchronicznej interakcji.

🔗 Tweet ogłaszający Runway Characters

GitHub MCP Server — potrójny skok bezpieczeństwa

5 maja — GitHub publikuje jednocześnie trzy aktualizacje bezpieczeństwa dla swojego serwera MCP, wszystkie tego samego dnia.

Secret scanning GA

Secret scanning przez GitHub MCP Server przechodzi do ogólnej dostępności (wyjście z preview od marca 2026). W GitHub Copilot CLI instalacja odbywa się za pomocą /plugin install advanced-security@copilot-plugins ; w VS Code wtyczka advanced-security udostępnia polecenie /secret-scanning.

Aspekt	Szczegóły
Status	GA (ogólna dostępność)
Dostępność	Repozytoria z włączonym GitHub Secret Protection
Integracje	Copilot CLI, VS Code, każdy IDE zgodny z MCP

Narzędzia MCP respektują teraz istniejące dostosowania push protection — zachowanie obejścia (bypass) jest spójne z konfiguracją repozytorium lub organizacji.

🔗 Changelog — Secret scanning GA

Dependency scanning w publicznym preview

Wykrywanie podatności w zależnościach przez MCP Server przechodzi do publicznego preview. System odpytuje GitHub Advisory Database i zwraca ustrukturyzowane wyniki z pakietami dotkniętymi problemem, poziomem ważności oraz zalecanymi poprawionymi wersjami.

Aspekt	Szczegóły
Status	Publiczny preview
Dostępność	Repozytoria z włączonym Dependabot alerts
Aktywacja CLI	`copilot --add-github-mcp-toolset dependabot`

🔗 Changelog — Dependency scanning

GitHub Advanced Security × Microsoft Defender for Cloud GA

Integracja GitHub Advanced Security × Microsoft Defender for Cloud również przechodzi do GA. Koreluje obrazy kontenerów wdrożone w środowisku chmurowym z kodem źródłowym GitHub, dostarczając kontekst runtime w widokach bezpieczeństwa.

Nowe filtry dostępne w widoku organizacji: has:deployment, runtime-risk:internet-exposed, runtime-risk:sensitive-data. Kampanie bezpieczeństwa można przypisywać bezpośrednio do agenta kodującego GitHub Copilot.

🔗 Changelog — Code-to-cloud GA

Model Spec Midtraining (MSM) — wyrównanie agentowe spada z 68 % do 5 %

5 maja — Badacze z Anthropic publikują „Model Spec Midtraining” (MSM), metodę wyrównania wstawioną między pretraining a fine-tuning wyrównania (alignment fine-tuning, AFT).

Zasada: modele są trenowane na syntetycznym korpusie dokumentów omawiających treść ich Model Spec, zanim nauczą się przestrzegać jego reguł. Idea jest taka, że zrozumienie dlaczego dana reguła istnieje poprawia odporność jej stosowania.

Model	Niewłaściwe wyrównanie (tylko AFT)	Z MSM + AFT
Qwen2.5-32B	68 %	5 %
Qwen3-32B	54 %	7 %

MSM sprawia też, że AFT jest znacznie bardziej efektywne danych: potrzeba 40–60 razy mniej danych AFT, aby osiągnąć porównywalne wyniki. Autorzy pokazują również, że wyjaśnianie motywacji stojących za regułami (zamiast mnożenia podreguł) poprawia generalizację poza rozkładem.

🔗 Artykuł MSM — alignment.anthropic.com

NotebookLM Mind Maps — personalizacja, organizacja, nawigacja

5 maja — NotebookLM ulepsza swoje mapy myśli (Mind Maps) o trzy funkcje wdrażane jednocześnie.

Funkcja	Opis
Personalizacja	Prowadzenie mapy za pomocą konkretnych instrukcji użytkownika
Organizacja	Natychmiastowa zmiana nazw i udostępnianie map Mind Map
Nawigacja	Płynne przejścia między węzłami

Wdrożenie jest stopniowe dla wszystkich użytkowników. Aktualizacja uzupełnia serię szybkich usprawnień NotebookLM od początku kwietnia: automatyczną organizację źródeł (24 kwietnia, 100 % wdrożenia osiągnięte 5 maja), integrację z mobilną aplikacją Gemini (30 kwietnia).

🔗 Tweet NotebookLM

Genspark sb-git — serwer Git przepisany dla agentów AI

5 maja — Genspark uruchamia sb-git, serwer Git przepisany od zera dla agentów AI. Pełna semantyka Git: wersjonowanie, gałęzie, diff, blame, rollback i push.

Aspekt	Szczegóły
CLI	`gsk` (init, clone-url, cat, commit)
Kompatybilność	Claude Code, OpenClaw, każdy agent Git
Przechowywanie	1 GB (za darmo), 10 GB (Plus/Pro)
Wymagane konto	Nie — konto GitHub nie jest potrzebne
Dostępność	Natychmiastowa (web + mobile)

Nie jest wymagane konto GitHub, ani wcześniejsza konfiguracja repozytorium. Akcent kładziony jest na zgodność z popularnymi agentami AI (Claude Code, OpenClaw) bez tarcia instalacyjnego.

🔗 Tweet Genspark sb-git

NVIDIA + ServiceNow — Project Arc, autonomiczny desktopowy agent long-running

5 maja — Na konferencji ServiceNow Knowledge 2026 Jensen Huang i Bill McDermott ogłosili rozszerzenie swojego partnerstwa wokół autonomicznych agentów AI w enterprise.

ServiceNow uruchamia Project Arc, autonomicznego desktopowego agenta long-running zaprojektowanego dla pracowników wiedzy: programistów, zespołów IT, administratorów. Agent wykorzystuje NVIDIA OpenShell (sandbox open source) do zarządzania i bezpieczeństwa, a natywnie łączy się z platformą ServiceNow przez ServiceNow Action Fabric.

Metryka	Wartość
Wydajność Blackwell vs Hopper	50× tokeny/wat
Redukcja kosztu na milion tokenów	~35×
Nemotron 3 Super (open source)	#1 EnterpriseOps-Gym (NOWAI-Bench)
Ticketi rozwiązane autonomicznie	90 % (ServiceNow + Apriel/Nemotron)

🔗 NVIDIA Blog — ServiceNow

NVIDIA NemoClaw + OpenClaw — trwały agent open source przewyższający React na GitHubie

30 kwietnia — OpenClaw (stworzony przez Petera Steinbergera) przekroczył 250 000 gwiazdek GitHub w 60 dni, wyprzedzając React i stając się najpopularniejszym projektem na platformie. NVIDIA współpracuje ze społecznością, aby zabezpieczyć ten trwały, samodzielnie hostowany projekt agenta AI.

NVIDIA uruchamia NemoClaw, referencyjną implementację instalowaną jedną komendą, łączącą OpenClaw + NVIDIA OpenShell + Nemotron z domyślnymi konfiguracjami bezpieczeństwa wzmocnionymi.

Metryka	Wartość
Gwiazdki GitHub OpenClaw	250 000+ (marzec 2026)
Wzrost	#1 projekt GitHub w 60 dni (wyprzedza React)
Mnożnik zapotrzebowania na inferencję agentów vs AI do rozumowania	1 000×
Instalacja NemoClaw	1 tylko komenda

🔗 Blog NVIDIA — OpenClaw/NemoClaw

Luma AI Uni-1.1 API — generowanie obrazów rozumujące na briefach kreatywnych

5 maja — Luma AI uruchamia API Uni-1.1, model generowania obrazów zaprojektowany tak, by rozumować nad briefami kreatywnymi zamiast nad tokenami. W przeciwieństwie do tradycyjnych API, które wymagają prompt engineeringu, Uni-1.1 rozumie estetyczny kontekst każdej tradycji wizualnej i daje użyteczne rezultaty już przy pierwszej próbie.

Wymienione przypadki użycia: narzędzia modowe, rendery architektoniczne, pipeline’y manga, treści filmowe. Nie wymaga middleware. API jest dostępne na lumalabs.ai/api.

🔗 Tweet Luma AI Uni-1.1

ChatGPT Ads Manager self-serve i CPC bidding

5 maja — OpenAI rozszerza swój program reklamowy o dwie nowości: narzędzie self-serve (Ads Manager, w becie w USA) oraz uruchomienie trybu aukcji CPC (koszt za kliknięcie).

Tryb	Status	Opis
CPM (koszt za tysiąc wyświetleń)	Istniejący	Dostępny od startu programu
CPC (koszt za kliknięcie)	Nowy	Reklamodawca płaci tylko za rzeczywiste kliknięcie
Ads Manager self-serve (beta)	Nowy	Dostępny dla reklamodawców w USA

Partnerzy agencji: Dentsu, Omnicom, Publicis, WPP. Partnerzy technologiczni: Adobe, Criteo, Kargo, Pacvue, StackAdapt. OpenAI uruchomiła również Conversions API oraz śledzenie za pomocą piksela, aby mierzyć działania po kliknięciu bez ujawniania indywidualnych rozmów reklamodawcom.

🔗 Ogłoszenie reklamowe OpenAI

Perplexity Premium Health Sources

5 maja — Perplexity uruchamia premiumowe źródła zdrowotne. Ponad jedno zapytanie na dziesięć dotyczy zdrowia na platformie. Źródła dostępne przy starcie to NEJM, BMJ Journals i BMJ Best Practice — medyczne odniesienia zwykle zarezerwowane dla subskrypcji instytucjonalnych.

W Computer te źródła aktywują się automatycznie dla pytań zdrowotnych bez ręcznego wyboru. Każda odpowiedź zawiera śledzalne cytaty. Nadchodzące źródła: Micromedex, EBSCOhost, Health Affairs, VisualDx, American Academy of Orthopaedic Surgeons, American Diabetes Association, Springer Publishing.

🔗 Blog Perplexity — Premium Health Sources

Krótkie wiadomości

Manus — Automatyczne rekomendowanie konektorów — Manus wykrywa teraz, który konektor (Slack, Notion, Gmail, Google Drive) jest potrzebny do wykonania zadania i rekomenduje go w rozmowie, bez wychodzenia z wątku dyskusji. Aktywacja nadal wymaga potwierdzenia użytkownika. 🔗 źródło
Black Forest Labs — FLUX Creator Program — BFL otwiera selektywny program dla twórców z wczesnym dostępem do nadchodzących modeli FLUX, z amplifikacją ich prac za pośrednictwem kanałów BFL. 🔗 źródło
GPT-5.5 Instant System Card — Pierwsza System Card w linii Instant sklasyfikowana jako „High capability” w kategoriach Cyberbezpieczeństwo oraz Biologia i Chemia w ramach Preparedness Framework OpenAI. W związku z tym wdrożono wzmocnione środki ochrony. 🔗 źródło
OpenAI — Architektura WebRTC relay+transceiver — OpenAI publikuje artykuł inżynieryjny opisujący przebudowę swojej infrastruktury WebRTC dla głosu w czasie rzeczywistym (ChatGPT Voice, Realtime API), obsługującej ponad 900 milionów użytkowników tygodniowo. Architektura oddziela routowanie pakietów (lekki, bezstanowy relay) od zakończenia protokołu (transceiver, ze stanem), umożliwiając standardowe wdrożenie Kubernetes z ograniczonym publicznym śladem UDP. 🔗 źródło

Co to oznacza

Finanse jako priorytetowe pole do gry dla enterprise AI. W ciągu 24 godzin Anthropic, Perplexity i xAI opublikowały ogłoszenia wyraźnie skierowane do zespołów finansowych: dziesięć szablonów agentów Claude (wycena, KYC, miesięczne zamknięcie), Computer for Professional Finance z 35 workflowami i 14 dostawcami danych oraz Grok 4.3 sklasyfikowany na #1 w benchmarku Vals AI w corporate finance i case law. Ta zbieżność nie jest przypadkowa — finanse łączą duży wolumen ustrukturyzowanych dokumentów, wymóg precyzji i tolerancję na koszty narzędzi premium, co czyni je idealnym polem dla pierwszych wdrożeń autonomicznych agentów o wysokiej wartości biznesowej.

Wyścig o domyślne modele. GPT-5.5 Instant redukuje halucynacje o 52,5% względem swojego bezpośredniego poprzednika, a Grok 4.3 osiąga kontekst miliona tokenów z mierzonymi i opublikowanymi wynikami agentic. Oba modele są uruchamiane tego samego dnia. Stawka nie dotyczy już wyłącznie publikowania najlepszych akademickich benchmarków, ale bycia modelem ładowanym domyślnie w interfejsach konsumenckich (ChatGPT) albo aktywowanym jako pierwszy w pipeline’ach deweloperskich (API xAI).

MCP jako standard bezpieczeństwa dla deweloperów. GitHub opublikował jednocześnie trzy aktualizacje bezpieczeństwa poprzez swój serwer MCP (secret scanning GA, dependency scanning w wersji preview, code-to-cloud GA). To skoordynowane wdrożenie przekształca serwer MCP GitHuba w natywny kanał integracji bezpieczeństwa dla agentów kodujących — Copilot CLI, VS Code i każdy IDE kompatybilny z MCP mogą teraz skanować sekrety i zależności podatne na ataki przed każdym commitem, bezpośrednio w przepływie pracy agenta.

Trwałe agenty i infrastruktura czasu rzeczywistego. Runway Characters (agent wideo o opóźnieniu 1,75 s od obrazu), Project Arc od ServiceNow (długo działający agent desktop), OpenClaw/NemoClaw (250 000 gwiazdek GitHub, 1 000× większy popyt na inferencję niż w AI do rozumowania) oraz Genspark sb-git (Git przepisany dla agentów) sygnalizują ten sam zwrot: agenci AI wychodzą z ery pojedynczych zapytań i wchodzą w erę procesów trwałych, z radykalnie innymi potrzebami infrastrukturalnymi — przechowywanie stanu, niska latencja w czasie rzeczywistym, natywne wersjonowanie.