Tydzień kończy się kilkoma istotnymi ogłoszeniami: GPT-5.4 od OpenAI konsoliduje natywny computer use z wynikiem 75% na OSWorld i oknem kontekstu miliona tokenów, NotebookLM wprowadza Cinematic Video Overviews, gdzie Gemini pełni funkcję reżysera, a Codex rozszerza wsparcie na Windows z natywną piaskownicą (sandbox). W obszarze narzędzi dla deweloperów Anthropic udoskonala skill-creator i uruchamia HTTP hooks w Claude Code, a GitHub domyślnie aktywuje Copilot Memory dla wszystkich użytkowników Pro.
GPT-5.4 — natywny computer use, 1M tokenów, tool search
5 marca 2026 — OpenAI wprowadza GPT-5.4, swój model frontier przeznaczony do pracy zawodowej. Dostępny w ChatGPT (jako GPT-5.4 Thinking), w API (identyfikator gpt-5.4) i w Codex, model ten konsoliduje w jednej architekturze zdolności do rozumowania, kodowania i agentowych przepływów pracy (agentic workflows) wprowadzone w poprzednich modelach.
Najważniejszą nowością techniczną jest integracja natywnego computer use: GPT-5.4 może obsługiwać graficzne interfejsy użytkownika przez zrzuty ekranu oraz symulację klawiatury/myszy bez zewnętrznych wtyczek. Na OSWorld-Verified — referencyjnym benchmarku dla interakcji z rzeczywistymi interfejsami programów — GPT-5.4 osiąga 75,0%, w porównaniu z 47,3% dla GPT-5.2. Okno kontekstu zwiększa się do 1 miliona tokenów w Codex i w API.
Kolejną istotną nowością jest tool search: zamiast otrzymywać pełną listę dostępnych narzędzi przy każdym wywołaniu, model dostaje lekką listę i wyszukuje narzędzia na żądanie. OpenAI raportuje redukcję zużycia tokenów o 47% w przepływach pracy z wieloma narzędziami (testowane na Scale MCP Atlas). Tryb /fast w Codex zyskuje 1,5× na prędkości przy tej samej jakości inteligencji.
Benchmarki:
| Ewaluacja | GPT-5.4 | GPT-5.3-Codex | GPT-5.2 |
|---|---|---|---|
| GDPval (praca zawodowa) | 83,0 % | 70,9 % | 70,9 % |
| SWE-Bench Pro | 57,7 % | 56,8 % | 55,6 % |
| OSWorld-Verified (computer use) | 75,0 % | 74,0 % | 47,3 % |
| BrowseComp (wyszukiwanie w sieci) | 82,7 % | 77,3 % | 65,8 % |
| Toolathlon (użycie narzędzi) | 54,6 % | 51,9 % | 46,3 % |
| ARC-AGI-2 (rozumowanie abstrakcyjne) | 73,3 % | — | 52,9 % |
Cennik API:
| Model | Wejście | Wyjście |
|---|---|---|
| gpt-5.2 | 1,75 $ / M tokens | 14 $ / M tokens |
| gpt-5.4 | 2,50 $ / M tokens | 15 $ / M tokens |
| gpt-5.2-pro | 21 $ / M tokens | 168 $ / M tokens |
| gpt-5.4-pro | 30 $ / M tokens | 180 $ / M tokens |
GPT-5.4 Thinking jest dostępny od dziś dla subskrybentów ChatGPT Plus, Team i Pro. GPT-5.2 Thinking pozostanie dostępny w „Legacy Models” do 5 czerwca 2026. W zakresie bezpieczeństwa OpenAI klasyfikuje GPT-5.4 jako „High cyber capability” w swoim Preparedness Framework. Firma jednocześnie publikuje CoT-Control, zestaw ocen open source mierzący kontrolowalność łańcucha myślenia (chain of thought) 13 modeli frontier — wyniki, niskie (0,1% do 15,4%), wskazują, że nadzór łańcuchów myślenia pozostaje wiarygodnym narzędziem bezpieczeństwa.
🔗 Wprowadzenie GPT-5.4 | OpenAI
NotebookLM — Cinematic Video Overviews
4 marca 2026 — NotebookLM wprowadza w swoim Studio Cinematic Video Overviews. Te wideo wykraczają poza Audio Overviews (format podcast) uruchomione w 2024 i standardowe szablony (templates) wideo.
Zasada działania: Gemini jest ustawiony jako reżyser. Model analizuje źródła użytkownika, wybiera najbardziej odpowiedni format (samouczek, dokument, itd.), dobiera styl wizualny, generuje obrazy, a następnie autocenzuruje je przed stworzeniem finalnej wersji. Efektem jest immersyjne, spersonalizowane wideo, unikatowe dla każdego zestawu źródeł.
Funkcja jest dostępna dla subskrybentów Google AI Ultra, w języku angielskim, od 4 marca 2026. Pełne wdrożenie dla użytkowników Ultra zostało potwierdzone tego samego dnia. Dostęp dla subskrybentów Pro znajduje się w roadmapie, bez dokładnego terminu. Tweet z zapowiedzią zebrał 3 miliony wyświetleń.
OpenAI — Codex na Windows, badanie CoT-Control
Codex dostępny na Windows
4 marca 2026 — Aplikacja Codex jest już dostępna na Windows, z natywną piaskownicą agenta i obsługą środowisk programistycznych Windows przez PowerShell. Dostępne są dwie nowe umiejętności (skills): $aspnet-core dla aplikacji Blazor, ASP.NET MVC i Razor Pages oraz $winui-app dla natywnych aplikacji Windows z WinUI 3.
Badania — kontrolowalność łańcucha myślenia
5 marca 2026 — OpenAI publikuje „Les modèles de raisonnement peinent à contrôler leurs chaînes de pensée, et c’est une bonne chose” (Reasoning models struggle to control their chains of thought, and that’s good). Zestaw ocen open source CoT-Control mierzy kontrolowalność łańcucha myślenia 13 modeli frontier. Wyniki mieszczą się w przedziale 0,1% do 15,4%, co wskazuje, że obecne modele mają trudności ze świadomą modyfikacją swojego rozumowania w celu obejścia systemów nadzoru — rezultat przedstawiany jako pozytywny z punktu widzenia bezpieczeństwa. OpenAI planuje uwzględnić te metryki w kartach systemowych (system cards) przyszłych modeli.
🔗 Badanie CoT-Control | OpenAI
Anthropic — Ulepszony skill-creator i HTTP hooks
Ulepszony skill-creator
3 marca 2026 — Anthropic publikuje dużą aktualizację narzędzia skill-creator dla Claude Code i Claude.ai. Ogłoszenie wprowadza dwa formalne typy umiejętności (Agent Skills):
| Typ | Opis | Trwałość |
|---|---|---|
| Capability uplift | Pomaga Claude robić coś, czego jeszcze dobrze nie potrafi | Może stać się przestarzałe, jeśli model się poprawi |
| Encoded preference | Koduje procesy i preferencje zespołu | Trwałe, zależne od zgodności z rzeczywistym workflow |
Nowe funkcje: evals (testy automatyczne) sprawdzające, czy umiejętność daje oczekiwany rezultat, tryb benchmark do mierzenia wskaźnika sukcesu, czasu i zużycia tokenów, oraz wsparcie multi-agent do uruchamiania ocen równolegle bez wzajemnego zanieczyszczania testów. Tryb porównawczy A/B pozwala zestawić dwie wersje umiejętności. Skill-creator jest dostępny już teraz na Claude.ai i Cowork; dla Claude Code instalowany jest jako plugin.
🔗 Udoskonalanie skill-creator: testuj, mierz i udoskonalaj umiejętności agenta
HTTP hooks w Claude Code
4 marca 2026 — Claude Code uruchamia HTTP hooks, alternatywę dla istniejących hooksów poleceń (command hooks). Zamiast uruchamiać lokalny skrypt shell, Claude Code wysyła zdarzenie na wybrany przez użytkownika URL i oczekuje na odpowiedź. Przypadki użycia: budowa aplikacji webowej do wizualizacji postępu, zarządzanie uprawnieniami lub synchronizacja stanu między wieloma instancjami Claude Code przez bazę danych. HTTP hooks działają w pluginach, agentach spersonalizowanych oraz w ustawieniach firmowych.
Gemini CLI v0.32.0 — Generalist Agent domyślnie
3 marca 2026 — Wersja 0.32.0 Gemini CLI domyślnie włącza Generalist Agent, aby poprawić delegowanie i routowanie zadań. Aktualizacja wprowadza także sterowanie modelem (Model Steering) bezpośrednio w workspace, ulepszenia Plan Mode (otwieranie i edycja planów w zewnętrznym edytorze, zarządzanie wielokrotnym wyborem dla złożonych zadań), interaktywną autouzupełnianie w shellu oraz równoległe ładowanie rozszerzeń dla lepszej wydajności startowej.
GitHub Copilot — Memory domyślnie, mobile i metryki
Copilot Memory włączona domyślnie
4 marca 2026 — GitHub włącza Copilot Memory domyślnie dla wszystkich użytkowników planów Pro i Pro+. Funkcja, wcześniej w wersji zapoznawczej jako opcjonalna subskrypcja, pozwala Copilotowi zapamiętywać informacje trwałe na poziomie repozytorium: konwencje kodowania, wzorce architektoniczne, krytyczne zależności.
Pamięci są ściśle ograniczone do pojedynczego repozytorium i weryfikowane względem aktualnego kodu przed zastosowaniem, co zapobiega użyciu przestarzałego kontekstu. Wygasają automatycznie po 28 dniach. Funkcja działa w agencie kodującym, w przeglądzie kodu i w CLI Copilot — wiedza odkryta przez jednego agenta jest natychmiast dostępna dla pozostałych. Użytkownicy mogą wyłączyć Copilot Memory w ustawieniach (Settings > Features > Copilot Memory); administratorzy Enterprise zachowują pełną kontrolę.
🔗 Copilot Memory teraz domyślnie włączona dla użytkowników Pro i Pro+
Powiadomienia na żywo dla agentów w GitHub Mobile
4 marca 2026 — GitHub Mobile otrzymuje powiadomienia w czasie rzeczywistym dla sesji agentów Copilot. Deweloperzy mogą śledzić postęp swoich agentów, niezależnie czy sesja została uruchomiona z komputera czy telefonu.
🔗 GitHub Mobile | Ogłoszenie na X
Grok Code Fast 1 w Copilot Free Auto
4 marca 2026 — GitHub dodaje Grok Code Fast 1 od xAI do automatycznego wyboru modeli (Auto) w Copilot Free. Ten model może teraz być wybierany przez Copilot podczas sesji czatu w Visual Studio Code, Visual Studio, JetBrains IDEs, Xcode i Eclipse.
🔗 Grok Code Fast 1 w automatycznym wyborze modelu Copilot Free
Metryki Copilot CLI na poziomie użytkownika
5 marca 2026 — GitHub rozszerza metryki użycia Copilot o aktywność CLI na poziomie użytkownika. Ta aktualizacja następuje po wydaniu z zeszłego tygodnia na poziomie enterprise. Administratorzy mogą teraz identyfikować aktywnych użytkowników na CLI, przeglądać liczbę zapytań i sesji oraz śledzić zużycie tokenów na użytkownika.
🔗 Metryki użycia Copilot — aktywność CLI na poziomie użytkownika
Perplexity — GPT-5.4 i Voice Mode w Computer
GPT-5.4 Thinking dostępny w Perplexity
5 marca 2026 — GPT-5.4 i GPT-5.4 Thinking są już dostępne w Perplexity dla subskrybentów Pro i Max. Wersja Thinking aktywuje rozszerzone rozumowanie GPT-5.4, zapewniając głębsze odpowiedzi na złożone zapytania.
Voice Mode w Perplexity Computer
4 marca 2026 — Perplexity wprowadza tryb głosowy (Voice Mode) w Perplexity Computer. Interfejs, który już umożliwiał wyszukiwanie, kodowanie i wdrażanie projektów, teraz akceptuje instrukcje głosowe bezpośrednio.
Cohere × Aston Martin F1 — wieloletnie partnerstwo
4 marca 2026 — Cohere ogłasza wieloletnie partnerstwo z zespołem Aston Martin Aramco F1. Każdy członek zespołu będzie miał dostęp do modeli korporacyjnych i agentycznej platformy AI Cohere (North), pracując w jednym z najbardziej wymagających środowisk danych w światowym sporcie. Logo Cohere pojawi się na bolidzie od Grand Prix Australii 2026.
Black Forest Labs — Self-Flow, badania multimodalne
4 marca 2026 — Black Forest Labs (twórcy FLUX) publikuje w research preview Self-Flow. Podejście to trenuje generatywne modele multimodalne (obraz, wideo, audio, tekst) bez zależności od zewnętrznych modeli reprezentacji, za pomocą metody self-supervised flow matching.
Prezentowane wyniki: do 2,8× szybsza konwergencja w cross-modalnej nauce, lepsza spójność temporalna w wideo, ostrzejsze renderowanie typografii. Demonstracje obejmują model wideo 4B parametrów trenowany na 6M wideo, model obrazu 4B parametrów trenowany na 200M obrazów oraz model audio-wideo łączony. BFL przedstawia Self-Flow jako drogę do world models: “Self-Flow opens a path toward world models: combining visual scalability with semantic abstraction for planning and understanding.”
W skrócie
Runway uruchomił hub z zunifikowanymi modelami 3 marca, centralizując dostęp do zewnętrznych modeli obrazu, wideo, audio i języka bezpośrednio na platformie. 🔗 Ogłoszenie
Claude osiągnął 1. miejsce w App Store iOS w 14 krajach jednocześnie 5 marca — Australia, Austria, Belgia, Kanada, Francja, Niemcy, Irlandia, Włochy, Nowa Zelandia, Norwegia, Singapur, Szwajcaria, Wielka Brytania, Stany Zjednoczone. 🔗 Tweet
Manus opublikował swój roczny list 5 marca z okazji pierwszej rocznicy, prezentując świadectwa użytkowników (matka, 86‑letni lingwista, florystka). 🔗 List
Grok przekroczył barierę miliona opinii w amerykańskim App Store. 🔗 Tweet @grok
Co to znaczy
GPT-5.4 potwierdza, że computer use przechodzi ze statusu eksperymentalnego do funkcji zintegrowanej w modelu uniwersalnym. Wynik 75% na OSWorld-Verified i redukcja tokenów o 47% dzięki tool search to konkretne miary zmiany paradygmatu: agenty AI potrafią teraz obsługiwać złożone interfejsy programów bez wyspecjalizowanej infrastruktury.
Po stronie narzędzi deweloperskich tydzień pokazuje konwergencję: Anthropic ulepsza sposoby testowania i nadzorowania umiejętności agentów, GitHub włącza pamięć trwałą dla swoich agentów kodujących, a Perplexity dodaje tryb głosowy do swojego agenta Computer. Środowiska uruchomieniowe agentów (agentic runtimes) wzbogacają się o warstwy pamięci, obserwowalności (HTTP hooks, powiadomienia mobilne) i naturalnej interakcji (głos).
NotebookLM Cinematic Video Overviews ilustruje inne zastosowanie: generowanie długiej, dydaktycznej formy wideo z osobistych źródeł. Gemini jako reżyser — analizować, krytykować, przebudować — to użycie AI jako meta-narzędzia produkcji kreatywnej, bardziej niż jako prosty asystent generacji.
Źródła - Przedstawiamy GPT-5.4 | OpenAI
- @OpenAI na X
- @OpenAIDevs na X — Codex Windows
- Codex dla Windows | OpenAI Developers
- Modele rozumowania CoT-Control | OpenAI
- Ogłoszenie NotebookLM na X
- Ulepszanie skill-creator | Anthropic
- HTTP hooks Claude Code — @dickson_tsai
- Claude #1 w App Store — @RyD0ne
- Dziennik zmian Gemini CLI
- Copilot Memory teraz domyślnie włączone | GitHub
- Powiadomienia agenta na żywo w GitHub Mobile
- Grok Code Fast 1 w Copilot Free auto | GitHub
- Metryki Copilot CLI na poziomie użytkownika | GitHub
- GPT-5.4 na Perplexity
- Tryb głosowy Perplexity Computer
- Cohere × Aston Martin F1
- BFL Self-Flow
- Runway Hub — wiele modeli
- List rocznicowy Manus
- Grok 1M recenzji w App Store
Ten dokument został przetłumaczony z wersji fr na język pl przy użyciu modelu gpt-5-mini. Aby uzyskać więcej informacji na temat procesu tłumaczenia, zobacz https://gitlab.com/jls42/ai-powered-markdown-translator