GPT-5.4 z natywnym computer use, NotebookLM Cinematic Videos, Codex na Windows

Tydzień kończy się kilkoma istotnymi ogłoszeniami: GPT-5.4 od OpenAI konsoliduje natywny computer use z wynikiem 75% na OSWorld i oknem kontekstu miliona tokenów, NotebookLM wprowadza Cinematic Video Overviews, gdzie Gemini pełni funkcję reżysera, a Codex rozszerza wsparcie na Windows z natywną piaskownicą (sandbox). W obszarze narzędzi dla deweloperów Anthropic udoskonala skill-creator i uruchamia HTTP hooks w Claude Code, a GitHub domyślnie aktywuje Copilot Memory dla wszystkich użytkowników Pro.

GPT-5.4 — natywny computer use, 1M tokenów, tool search

5 marca 2026 — OpenAI wprowadza GPT-5.4, swój model frontier przeznaczony do pracy zawodowej. Dostępny w ChatGPT (jako GPT-5.4 Thinking), w API (identyfikator gpt-5.4) i w Codex, model ten konsoliduje w jednej architekturze zdolności do rozumowania, kodowania i agentowych przepływów pracy (agentic workflows) wprowadzone w poprzednich modelach.

Najważniejszą nowością techniczną jest integracja natywnego computer use: GPT-5.4 może obsługiwać graficzne interfejsy użytkownika przez zrzuty ekranu oraz symulację klawiatury/myszy bez zewnętrznych wtyczek. Na OSWorld-Verified — referencyjnym benchmarku dla interakcji z rzeczywistymi interfejsami programów — GPT-5.4 osiąga 75,0%, w porównaniu z 47,3% dla GPT-5.2. Okno kontekstu zwiększa się do 1 miliona tokenów w Codex i w API.

Kolejną istotną nowością jest tool search: zamiast otrzymywać pełną listę dostępnych narzędzi przy każdym wywołaniu, model dostaje lekką listę i wyszukuje narzędzia na żądanie. OpenAI raportuje redukcję zużycia tokenów o 47% w przepływach pracy z wieloma narzędziami (testowane na Scale MCP Atlas). Tryb /fast w Codex zyskuje 1,5× na prędkości przy tej samej jakości inteligencji.

Benchmarki:

Ewaluacja	GPT-5.4	GPT-5.3-Codex	GPT-5.2
GDPval (praca zawodowa)	83,0 %	70,9 %	70,9 %
SWE-Bench Pro	57,7 %	56,8 %	55,6 %
OSWorld-Verified (computer use)	75,0 %	74,0 %	47,3 %
BrowseComp (wyszukiwanie w sieci)	82,7 %	77,3 %	65,8 %
Toolathlon (użycie narzędzi)	54,6 %	51,9 %	46,3 %
ARC-AGI-2 (rozumowanie abstrakcyjne)	73,3 %	—	52,9 %

Cennik API:

Model	Wejście	Wyjście
gpt-5.2	1,75 $ / M tokens	14 $ / M tokens
gpt-5.4	2,50 $ / M tokens	15 $ / M tokens
gpt-5.2-pro	21 $ / M tokens	168 $ / M tokens
gpt-5.4-pro	30 $ / M tokens	180 $ / M tokens

GPT-5.4 Thinking jest dostępny od dziś dla subskrybentów ChatGPT Plus, Team i Pro. GPT-5.2 Thinking pozostanie dostępny w „Legacy Models” do 5 czerwca 2026. W zakresie bezpieczeństwa OpenAI klasyfikuje GPT-5.4 jako „High cyber capability” w swoim Preparedness Framework. Firma jednocześnie publikuje CoT-Control, zestaw ocen open source mierzący kontrolowalność łańcucha myślenia (chain of thought) 13 modeli frontier — wyniki, niskie (0,1% do 15,4%), wskazują, że nadzór łańcuchów myślenia pozostaje wiarygodnym narzędziem bezpieczeństwa.

🔗 Wprowadzenie GPT-5.4 | OpenAI

NotebookLM — Cinematic Video Overviews

4 marca 2026 — NotebookLM wprowadza w swoim Studio Cinematic Video Overviews. Te wideo wykraczają poza Audio Overviews (format podcast) uruchomione w 2024 i standardowe szablony (templates) wideo.

Zasada działania: Gemini jest ustawiony jako reżyser. Model analizuje źródła użytkownika, wybiera najbardziej odpowiedni format (samouczek, dokument, itd.), dobiera styl wizualny, generuje obrazy, a następnie autocenzuruje je przed stworzeniem finalnej wersji. Efektem jest immersyjne, spersonalizowane wideo, unikatowe dla każdego zestawu źródeł.

Funkcja jest dostępna dla subskrybentów Google AI Ultra, w języku angielskim, od 4 marca 2026. Pełne wdrożenie dla użytkowników Ultra zostało potwierdzone tego samego dnia. Dostęp dla subskrybentów Pro znajduje się w roadmapie, bez dokładnego terminu. Tweet z zapowiedzią zebrał 3 miliony wyświetleń.

🔗 Ogłoszenie NotebookLM na X

OpenAI — Codex na Windows, badanie CoT-Control

Codex dostępny na Windows

4 marca 2026 — Aplikacja Codex jest już dostępna na Windows, z natywną piaskownicą agenta i obsługą środowisk programistycznych Windows przez PowerShell. Dostępne są dwie nowe umiejętności (skills): $aspnet-core dla aplikacji Blazor, ASP.NET MVC i Razor Pages oraz $winui-app dla natywnych aplikacji Windows z WinUI 3.

🔗 Tweet @OpenAIDevs na X

Badania — kontrolowalność łańcucha myślenia

5 marca 2026 — OpenAI publikuje „Les modèles de raisonnement peinent à contrôler leurs chaînes de pensée, et c’est une bonne chose” (Reasoning models struggle to control their chains of thought, and that’s good). Zestaw ocen open source CoT-Control mierzy kontrolowalność łańcucha myślenia 13 modeli frontier. Wyniki mieszczą się w przedziale 0,1% do 15,4%, co wskazuje, że obecne modele mają trudności ze świadomą modyfikacją swojego rozumowania w celu obejścia systemów nadzoru — rezultat przedstawiany jako pozytywny z punktu widzenia bezpieczeństwa. OpenAI planuje uwzględnić te metryki w kartach systemowych (system cards) przyszłych modeli.

🔗 Badanie CoT-Control | OpenAI

Anthropic — Ulepszony skill-creator i HTTP hooks

Ulepszony skill-creator

3 marca 2026 — Anthropic publikuje dużą aktualizację narzędzia skill-creator dla Claude Code i Claude.ai. Ogłoszenie wprowadza dwa formalne typy umiejętności (Agent Skills):

Typ	Opis	Trwałość
Capability uplift	Pomaga Claude robić coś, czego jeszcze dobrze nie potrafi	Może stać się przestarzałe, jeśli model się poprawi
Encoded preference	Koduje procesy i preferencje zespołu	Trwałe, zależne od zgodności z rzeczywistym workflow

Nowe funkcje: evals (testy automatyczne) sprawdzające, czy umiejętność daje oczekiwany rezultat, tryb benchmark do mierzenia wskaźnika sukcesu, czasu i zużycia tokenów, oraz wsparcie multi-agent do uruchamiania ocen równolegle bez wzajemnego zanieczyszczania testów. Tryb porównawczy A/B pozwala zestawić dwie wersje umiejętności. Skill-creator jest dostępny już teraz na Claude.ai i Cowork; dla Claude Code instalowany jest jako plugin.

🔗 Udoskonalanie skill-creator: testuj, mierz i udoskonalaj umiejętności agenta

HTTP hooks w Claude Code

4 marca 2026 — Claude Code uruchamia HTTP hooks, alternatywę dla istniejących hooksów poleceń (command hooks). Zamiast uruchamiać lokalny skrypt shell, Claude Code wysyła zdarzenie na wybrany przez użytkownika URL i oczekuje na odpowiedź. Przypadki użycia: budowa aplikacji webowej do wizualizacji postępu, zarządzanie uprawnieniami lub synchronizacja stanu między wieloma instancjami Claude Code przez bazę danych. HTTP hooks działają w pluginach, agentach spersonalizowanych oraz w ustawieniach firmowych.

🔗 Tweet @dickson_tsai

Gemini CLI v0.32.0 — Generalist Agent domyślnie

3 marca 2026 — Wersja 0.32.0 Gemini CLI domyślnie włącza Generalist Agent, aby poprawić delegowanie i routowanie zadań. Aktualizacja wprowadza także sterowanie modelem (Model Steering) bezpośrednio w workspace, ulepszenia Plan Mode (otwieranie i edycja planów w zewnętrznym edytorze, zarządzanie wielokrotnym wyborem dla złożonych zadań), interaktywną autouzupełnianie w shellu oraz równoległe ładowanie rozszerzeń dla lepszej wydajności startowej.

🔗 Lista zmian Gemini CLI

GitHub Copilot — Memory domyślnie, mobile i metryki

Copilot Memory włączona domyślnie

4 marca 2026 — GitHub włącza Copilot Memory domyślnie dla wszystkich użytkowników planów Pro i Pro+. Funkcja, wcześniej w wersji zapoznawczej jako opcjonalna subskrypcja, pozwala Copilotowi zapamiętywać informacje trwałe na poziomie repozytorium: konwencje kodowania, wzorce architektoniczne, krytyczne zależności.

Pamięci są ściśle ograniczone do pojedynczego repozytorium i weryfikowane względem aktualnego kodu przed zastosowaniem, co zapobiega użyciu przestarzałego kontekstu. Wygasają automatycznie po 28 dniach. Funkcja działa w agencie kodującym, w przeglądzie kodu i w CLI Copilot — wiedza odkryta przez jednego agenta jest natychmiast dostępna dla pozostałych. Użytkownicy mogą wyłączyć Copilot Memory w ustawieniach (Settings > Features > Copilot Memory); administratorzy Enterprise zachowują pełną kontrolę.

🔗 Copilot Memory teraz domyślnie włączona dla użytkowników Pro i Pro+

Powiadomienia na żywo dla agentów w GitHub Mobile

4 marca 2026 — GitHub Mobile otrzymuje powiadomienia w czasie rzeczywistym dla sesji agentów Copilot. Deweloperzy mogą śledzić postęp swoich agentów, niezależnie czy sesja została uruchomiona z komputera czy telefonu.

🔗 GitHub Mobile | Ogłoszenie na X

Grok Code Fast 1 w Copilot Free Auto

4 marca 2026 — GitHub dodaje Grok Code Fast 1 od xAI do automatycznego wyboru modeli (Auto) w Copilot Free. Ten model może teraz być wybierany przez Copilot podczas sesji czatu w Visual Studio Code, Visual Studio, JetBrains IDEs, Xcode i Eclipse.

🔗 Grok Code Fast 1 w automatycznym wyborze modelu Copilot Free

Metryki Copilot CLI na poziomie użytkownika

5 marca 2026 — GitHub rozszerza metryki użycia Copilot o aktywność CLI na poziomie użytkownika. Ta aktualizacja następuje po wydaniu z zeszłego tygodnia na poziomie enterprise. Administratorzy mogą teraz identyfikować aktywnych użytkowników na CLI, przeglądać liczbę zapytań i sesji oraz śledzić zużycie tokenów na użytkownika.

🔗 Metryki użycia Copilot — aktywność CLI na poziomie użytkownika

Perplexity — GPT-5.4 i Voice Mode w Computer

GPT-5.4 Thinking dostępny w Perplexity

5 marca 2026 — GPT-5.4 i GPT-5.4 Thinking są już dostępne w Perplexity dla subskrybentów Pro i Max. Wersja Thinking aktywuje rozszerzone rozumowanie GPT-5.4, zapewniając głębsze odpowiedzi na złożone zapytania.

🔗 Ogłoszenie na X

Voice Mode w Perplexity Computer

4 marca 2026 — Perplexity wprowadza tryb głosowy (Voice Mode) w Perplexity Computer. Interfejs, który już umożliwiał wyszukiwanie, kodowanie i wdrażanie projektów, teraz akceptuje instrukcje głosowe bezpośrednio.

🔗 Ogłoszenie na X

Cohere × Aston Martin F1 — wieloletnie partnerstwo

4 marca 2026 — Cohere ogłasza wieloletnie partnerstwo z zespołem Aston Martin Aramco F1. Każdy członek zespołu będzie miał dostęp do modeli korporacyjnych i agentycznej platformy AI Cohere (North), pracując w jednym z najbardziej wymagających środowisk danych w światowym sporcie. Logo Cohere pojawi się na bolidzie od Grand Prix Australii 2026.

🔗 Ogłoszenie Cohere na X

Black Forest Labs — Self-Flow, badania multimodalne

4 marca 2026 — Black Forest Labs (twórcy FLUX) publikuje w research preview Self-Flow. Podejście to trenuje generatywne modele multimodalne (obraz, wideo, audio, tekst) bez zależności od zewnętrznych modeli reprezentacji, za pomocą metody self-supervised flow matching.

Prezentowane wyniki: do 2,8× szybsza konwergencja w cross-modalnej nauce, lepsza spójność temporalna w wideo, ostrzejsze renderowanie typografii. Demonstracje obejmują model wideo 4B parametrów trenowany na 6M wideo, model obrazu 4B parametrów trenowany na 200M obrazów oraz model audio-wideo łączony. BFL przedstawia Self-Flow jako drogę do world models: “Self-Flow opens a path toward world models: combining visual scalability with semantic abstraction for planning and understanding.”

🔗 Tweet @bfl_ml

W skrócie

Runway uruchomił hub z zunifikowanymi modelami 3 marca, centralizując dostęp do zewnętrznych modeli obrazu, wideo, audio i języka bezpośrednio na platformie. 🔗 Ogłoszenie

Claude osiągnął 1. miejsce w App Store iOS w 14 krajach jednocześnie 5 marca — Australia, Austria, Belgia, Kanada, Francja, Niemcy, Irlandia, Włochy, Nowa Zelandia, Norwegia, Singapur, Szwajcaria, Wielka Brytania, Stany Zjednoczone. 🔗 Tweet

Manus opublikował swój roczny list 5 marca z okazji pierwszej rocznicy, prezentując świadectwa użytkowników (matka, 86‑letni lingwista, florystka). 🔗 List

Grok przekroczył barierę miliona opinii w amerykańskim App Store. 🔗 Tweet @grok

Co to znaczy

GPT-5.4 potwierdza, że computer use przechodzi ze statusu eksperymentalnego do funkcji zintegrowanej w modelu uniwersalnym. Wynik 75% na OSWorld-Verified i redukcja tokenów o 47% dzięki tool search to konkretne miary zmiany paradygmatu: agenty AI potrafią teraz obsługiwać złożone interfejsy programów bez wyspecjalizowanej infrastruktury.

Po stronie narzędzi deweloperskich tydzień pokazuje konwergencję: Anthropic ulepsza sposoby testowania i nadzorowania umiejętności agentów, GitHub włącza pamięć trwałą dla swoich agentów kodujących, a Perplexity dodaje tryb głosowy do swojego agenta Computer. Środowiska uruchomieniowe agentów (agentic runtimes) wzbogacają się o warstwy pamięci, obserwowalności (HTTP hooks, powiadomienia mobilne) i naturalnej interakcji (głos).

NotebookLM Cinematic Video Overviews ilustruje inne zastosowanie: generowanie długiej, dydaktycznej formy wideo z osobistych źródeł. Gemini jako reżyser — analizować, krytykować, przebudować — to użycie AI jako meta-narzędzia produkcji kreatywnej, bardziej niż jako prosty asystent generacji.

Źródła - Przedstawiamy GPT-5.4 | OpenAI

Ten dokument został przetłumaczony z wersji fr na język pl przy użyciu modelu gpt-5-mini. Aby uzyskać więcej informacji na temat procesu tłumaczenia, zobacz https://gitlab.com/jls42/ai-powered-markdown-translator