Intensywne dni 23 i 24 marca: Anthropic wdraża auto mode w Claude Code — klasyfikator działań, który podejmuje decyzje o zatwierdzaniu zamiast użytkownika — oraz publikuje artykuł inżynieryjny o swojej architekturze wieloagentowej inspirowanej GAN. OpenAI uruchamia wizualne zakupy w ChatGPT z Agentic Commerce Protocol, podczas gdy xAI otwiera Grok Imagine na generowanie wideo z wielu obrazów przez API. GitHub Copilot, Google DeepMind i Anthropic Science Blog dopełniają tego przeglądu.
Claude Code : auto mode, klasyfikator między tobą a poleceniami
24 marca — Claude Code dodaje trzeci poziom uprawnień: auto mode. Dotąd narzędzie oferowało albo ręczne zatwierdzanie każdego zapisu pliku i każdej komendy bash, albo całkowite wyłączenie sprawdzania uprawnień. Auto mode wprowadza rozwiązanie pośrednie: Claude sam podejmuje decyzje, nadzorowany przez klasyfikator (classifier), który analizuje każdą akcję przed wykonaniem.
Mechanizm jest prosty — przed każdym wywołaniem narzędzia klasyfikator ocenia, czy działanie może być destrukcyjne. Akcje uznane za bezpieczne wykonywane są automatycznie. Akcje ryzykowne są blokowane, a Claude szuka alternatywnego podejścia bez przerywania pracy użytkownika.
Anthropic precyzuje, że ten tryb zmniejsza ryzyko, ale go nie eliminuje, i zaleca korzystanie z niego w odizolowanych środowiskach. Aby go aktywować: claude --enable-auto-mode, a następnie przejść do tego trybu za pomocą Shift+Tab.
Funkcja jest dostępna w wersji przedpremierowej (research preview) w planie Team. Wdrożenie dla Enterprise i API zapowiedziano na kolejne dni.
New in Claude Code: auto mode. Instead of approving every file write and bash command, or skipping permissions entirely, auto mode lets Claude make permission decisions on your behalf. Safeguards check each action before it runs.
🇵🇱 Nowość w Claude Code: auto mode. Zamiast zatwierdzać każdy zapis pliku i każdą komendę bash albo całkowicie pomijać uprawnienia, auto mode pozwala Claude podejmować decyzje o zatwierdzeniu w twoim imieniu. Zabezpieczenia sprawdzają każde działanie przed jego uruchomieniem. — @claudeai na X
Architektura wieloagentowa : podejście GAN od Anthropic Engineering
24 marca — W artykule opublikowanym na Anthropic Engineering Blog Prithvi Rajasekaran (zespół Labs) opisuje architekturę wieloagentową, która ma przesunąć granice Claude w dwóch obszarach: projektowaniu interfejsów i długotrwałym autonomicznym rozwoju aplikacji.
Podejście inspiruje się generatywnymi sieciami antykonkurencyjnymi (Generative Adversarial Networks, GAN): agent-generator tworzy kod lub projekt, natomiast odrębny agent-ewaluator ocenia wynik i dostarcza krytyczną informację zwrotną. Takie rozdzielenie rozwiązuje znany problem — Claude ma tendencję do zbyt pobłażliwej samooceny. Dedykowany ewaluator, stopniowo kalibrowany na podstawie przykładów, staje się skuteczną dźwignią poprawy.
W przypadku projektowania frontendowego ewaluator otrzymuje dostęp do MCP Playwright, aby na żywo nawigować po stronach. Stosowane są cztery kryteria: jakość i spójność projektu, oryginalność (z karaniem generycznych wzorców określanych jako „AI slop”), techniczne wykonanie oraz funkcjonalność. W 10 do 15 iteracjach generator tworzy interfejsy wyraźnie bardziej charakterystyczne.
W przypadku rozwoju aplikacji architektura dodaje planistę: przekształca on jednoparagraficzny prompt w kompletną specyfikację produktu. Generator i ewaluator negocjują przed każdą implementacją „kontrakty sprintu”, definiujące kryteria sukcesu. Ewaluator testuje aplikację przez Playwright i może oblać sprint, wymuszając poprawki.
| Podejście | Czas | Koszt | Wynik |
|---|---|---|---|
| Samodzielny agent Opus 4.5 | 20 min | 9 $ | Zepsuta aplikacja |
| Pełny harness | 6 h | 200 $ | Działająca aplikacja |
| Harness z Opus 4.6 | 4 h | 124,70 $ | Działająca aplikacja + zintegrowany agent Claude |
Dzięki Opus 4.6 — który nie cierpi już na „lęk przed kontekstem” — autor mógł uprościć architekturę, usunąć resetowanie sesji i obniżyć koszty. Nadrzędna zasada pozostaje ta sama: regularnie audytować harness, aby usuwać to, co model potrafi już wykonać samodzielnie.
🔗 Pełny artykuł 🔗 Ogłoszenie na X
Computer Use w Cowork i Claude Code (macOS, Pro/Max)
23 marca — Claude może teraz używać twojego komputera do wykonywania zadań bezpośrednio. W wersji przedpremierowej funkcja jest dostępna w Claude Cowork i Claude Code, wyłącznie na macOS.
Claude może otwierać aplikacje, nawigować w przeglądarce, wypełniać arkusze kalkulacyjne. Idea: zlecić zadanie z telefonu, zająć się czymś innym i wrócić do gotowej pracy. Można też definiować zadania cykliczne — codziennie skanować e-maile, generować raport w każdy piątek.
Funkcja Computer Use jest dostępna w planach Pro i Max, po zaktualizowaniu aplikacji desktopowej i połączeniu jej z aplikacją mobilną.
🔗 Ogłoszenie na X 🔗 Strona produktu Cowork
Anthropic Economic Index : “Learning curves” (5. raport)
24 marca — Anthropic publikuje swój piąty raport Anthropic Economic Index, zatytułowany “Learning curves”, oparty na danych użycia Claude w lutym 2026 (około 1 miliona rozmów, od 5 do 12 lutego).
Raport dokumentuje dwa główne kierunki zmian od listopada 2025. Po pierwsze, dywersyfikację zastosowań: dziesięć najczęstszych zadań w Claude.ai odpowiada już tylko za 19% ruchu, wobec 24% trzy miesiące wcześniej. Tendencja ta wynika częściowo z migracji zadań kodowania do API, napędzanej wzrostem Claude Code.
Po drugie, efekt „krzywej uczenia się”: użytkownicy długoterminowi (ponad sześć miesięcy) osiągają współczynnik sukcesu wyższy o 4 do 5 punktów procentowych. Pracują nad bardziej złożonymi problemami, częściej współpracują i rzadziej delegują w trybie automatycznym. Autorzy widzą w tym sygnał uczenia się przez praktykę (learning-by-doing), choć możliwy pozostaje też efekt przeżywalności.
Jeśli chodzi o wybór modelu, dane potwierdzają, że użytkownicy preferują Opus w zadaniach o wysokiej wartości: każda porcja 10 $/h dodatkowej szacowanej wartości zadania wiąże się ze wzrostem o 1,5 punktu udziału użycia Opus w Claude.ai oraz o 2,8 punktu w API.
🔗 Pełny raport 🔗 Ogłoszenie na X
Anthropic Science Blog : nowy blog o AI w badaniach naukowych
23 marca — Anthropic uruchamia Anthropic Science Blog, poświęcony przecięciu AI i badań naukowych. Celem jest dokumentowanie tego, jak AI przyspiesza pracę badaczy, oraz badanie pytań, które ta transformacja rodzi.
Blog będzie publikował trzy typy treści: artykuły pogłębione o konkretnych wynikach z wyszczególnioną rolą AI (Features), praktyczne przewodniki według dziedziny nauki (Workflows) oraz przeglądy aktualności z obszaru (Field notes).
Dwa inauguracyjne artykuły towarzyszą temu startowi: „Vibe physics: The AI grad student” Matthew Schwartza (fizyk nadzorowany przez Claude przy rzeczywistym obliczeniu) oraz tutorial o orkiestracji Claude Code do wielodniowych zadań naukowych.
Blog ten wpisuje się w istniejące inicjatywy Anthropic: program AI for Science (kredyty API dla badaczy), Claude for Life Sciences (partnerstwa z pharma i biotech) oraz Genesis Mission.
🔗 Artykuł inauguracyjny 🔗 Ogłoszenie na X
Wizualne zakupy w ChatGPT i Agentic Commerce Protocol
24 marca — OpenAI uruchamia doświadczenie zakupowe wizualne i immersyjne bezpośrednio w ChatGPT. Użytkownicy mogą przeglądać produkty wizualnie, porównywać je obok siebie z detalami (cena, opinie, cechy) i doprecyzowywać wyszukiwanie w rozmowie — bez opuszczania ChatGPT. Możliwe jest również przesłanie zdjęcia inspiracyjnego, aby znaleźć podobne artykuły.
Aby zasilić tę funkcję, OpenAI rozszerza Agentic Commerce Protocol (ACP) na odkrywanie produktów. Protokół staje się warstwą połączenia między sprzedawcami a użytkownikami: sprzedawcy udostępniają swoje katalogi przez ACP, a dane trafiają bezpośrednio do ChatGPT. Salesforce i Stripe są już zintegrowane jako dostawcy zewnętrzni.
| Szczegół | Informacja |
|---|---|
| Dostępność | Wszyscy użytkownicy Free, Go, Plus, Pro — wdrażanie w tym tygodniu |
| Upload images | Zdjęcie inspiracyjne do znajdowania podobnych artykułów |
| Zintegrowani sprzedawcy | Target, Sephora, Nordstrom, Lowe’s, Best Buy, The Home Depot, Wayfair |
| Shopify | Katalogi już zintegrowane bez działań ze strony sprzedawców |
Walmart jest pierwszym sprzedawcą oferującym natywną aplikację ChatGPT: od odkrywania w ChatGPT po środowisko Walmart z połączeniem konta, programem lojalnościowym i płatnościami. Dostępne w przeglądarce internetowej, a iOS i Android wkrótce. Uwaga: OpenAI porzuca początkową funkcję „Instant Checkout”, uznaną za niewystarczająco elastyczną dla sprzedawców, i koncentruje się na odkrywaniu produktów.
OpenAI : polityki bezpieczeństwa dla nastolatków open source
24 marca — OpenAI publikuje zestaw polityk bezpieczeństwa open source, aby pomóc deweloperom tworzyć doświadczenia dostosowane do nastolatków. Polityki te mają formę promptów, których można używać bezpośrednio z gpt-oss-safeguard, modelem bezpieczeństwa open-weight OpenAI.
Cel: umożliwić deweloperom przełożenie abstrakcyjnych celów bezpieczeństwa na precyzyjne reguły operacyjne. Obejmuje sześć obszarów:
| Obszar | Opis |
|---|---|
| Graficzne treści brutalne | Filtrowanie jawnej przemocy |
| Graficzne treści seksualne | Filtrowanie jawnej seksualności |
| Niebezpieczne ideały ciała | Zaburzenia odżywiania, zachowania ryzykowne |
| Niebezpieczne aktywności i wyzwania | Ryzykowne wiralowe challenge |
| Romantyczne lub brutalne odgrywanie ról | Niewłaściwe interakcje |
| Towary i usługi tylko dla dorosłych | Alkohol, tytoń, hazard |
Polityki te opracowano wspólnie z Common Sense Media i everyone.ai. Opublikowane przez ROOST Model Community (RMC GitHub) są wyraźnie przedstawiane jako punkt wyjścia, a nie kompletne rozwiązanie.
OpenAI Foundation : co najmniej 1 miliard dolarów do wdrożenia
24 marca — Bret Taylor, przewodniczący rady dyrektorów OpenAI Foundation, ogłasza, że Fundacja zaczyna wykorzystywać zasoby wynikające z rekapitalizacji z jesieni 2025. Co najmniej 1 miliard dolarów zostanie zainwestowany w ciągu roku w czterech obszarach: nauki o życiu (Alzheimer, choroby o wysokiej śmiertelności), zatrudnienie i wpływ ekonomiczny, odporność AI (bezpieczeństwo dzieci, biosecurity) oraz programy społeczne.
OpenAI : karta Library do zarządzania plikami w ChatGPT
23 marca — OpenAI dodaje nowe funkcje zarządzania plikami w ChatGPT: ostatnie pliki dostępne bezpośrednio z paska narzędzi, możliwość zapytania o już przesłany dokument oraz zakładkę Library w bocznym panelu webowym, aby odnaleźć wszystkie pliki. Dostępne dla subskrybentów Plus, Pro i Business, z planowanym wdrożeniem dla Europejskiego Obszaru Gospodarczego, Szwajcarii i Wielkiej Brytanii.
Gemini 3.1 Flash-Lite : przeglądarka, która generuje strony w czasie rzeczywistym
24 marca — Google DeepMind publikuje demonstrację Gemini 3.1 Flash-Lite: eksperymentalną przeglądarkę, która generuje każdą stronę internetową na bieżąco, wraz z kliknięciami, wyszukiwaniem i nawigacją. Nie ma żadnej wcześniej istniejącej strony HTML — każda treść jest tworzona w czasie rzeczywistym przez model. Demo jest dostępne bezpośrednio w Google AI Studio i wygenerowało duże zaangażowanie (85 000 wyświetleń w kilka godzin).
🔗 Demo AI Studio 🔗 Ogłoszenie na X
Google DeepMind × Agile Robots : partnerstwo robotyczne
24 marca — Google DeepMind ogłasza partnerstwo badawcze z Agile Robots, specjalistą od robotyki humanoidalnej. Umowa przewiduje integrację fundamentalnych modeli Gemini z robotycznym hardwarem Agile Robots w ramach strategii Gemini Robotics Google DeepMind.
Grok Imagine : wideo z wielu obrazów przez API (#1 Arena Elo 1342)
24 marca — xAI ogłasza dwie nowe możliwości dla swojego API Grok Imagine: generowanie wideo z wielu obrazów (multi-image to video) oraz rozszerzanie istniejącego wideo (video extension).
Deweloperzy mogą przesłać do 7 obrazów wejściowych, aby wygenerować spójne wideo za pomocą modelu grok-imagine-video. API działa asynchronicznie: wysyła się żądanie, a następnie sprawdza status aż do done. Wyniki obsługują proporcję 16:9 w 720p.
Według Design Arena, Grok Imagine natychmiast objął pierwsze miejsce w rankingu Multi Image to Video Arena z wynikiem Elo 1342.
🔗 Ogłoszenie @grok 🔗 Dokumentacja API Imagine
GitHub Copilot : @copilot do bezpośredniej edycji PR
24 marca — GitHub Copilot może teraz bezpośrednio modyfikować dowolny pull request na żądanie. Wystarczy wspomnieć @copilot w komentarzu z instrukcją w języku naturalnym — naprawa nieudanych testów, odpowiedź na komentarz z review, dodanie testu jednostkowego — a agent pracuje w swoim środowisku chmurowym, weryfikuje pracę testami i linterami, po czym wypycha zmiany na gałąź. Poprzednie zachowanie (otwarcie nowego PR) pozostaje dostępne po wyraźnym wskazaniu. Dostępne we wszystkich płatnych planach Copilot.
GitHub Copilot : Gemini 3.1 Pro w JetBrains, Xcode i Eclipse
23 marca — GitHub Copilot rozszerza dostępność Gemini 3.1 Pro na IDE JetBrains, Xcode i Eclipse. Le modèle est désormais accessible via le sélecteur de modèles Copilot dans tous les modes (agent, ask, edit) sur ces environnements, en plus des plateformes déjà prises en charge. En preview publique pour les plans Enterprise, Business, Pro et Pro+.
🔗 Journal des modifications GitHub
GitHub Copilot : gestion de l’accès de l’agent par dépôt via API
24 mars — GitHub publie en preview publique une API REST pour gérer l’accès du Copilot coding agent au niveau des dépôts d’organisation. Les administrateurs peuvent autoriser l’agent sur aucun, tous, ou certains dépôts spécifiques de manière programmatique — utile pour les déploiements à grande échelle en entreprise.
🔗 Journal des modifications GitHub
GitHub Copilot : logs en direct dans Raycast
20 mars — L’extension GitHub Copilot pour Raycast (le launcher macOS/Windows) permet désormais de surveiller en direct les logs du coding agent sans quitter le launcher. Via la commande “View Tasks”, puis sélection de la session, les développeurs suivent l’avancement de l’agent en temps réel. Disponible pour tous les abonnés Copilot payants.
🔗 Journal des modifications GitHub
Ce que ça signifie
L’auto mode de Claude Code est le changement le plus structurant de cette période. Il déplace la charge cognitive de l’utilisateur — plus besoin d’approuver chaque commande — tout en maintenant un filet de sécurité via le classifieur. C’est une étape vers des agents de développement plus autonomes, mais dans un cadre explicitement recommandé pour les environnements isolés. L’article d’ingénierie sur le harness multi-agents complète ce tableau : la trajectoire d’Anthropic est clairement vers des agents qui travaillent longtemps et de manière autonome, avec des structures de supervision internes (évaluateur dédié, contrats de sprint) plutôt qu’une supervision humaine à chaque étape.
Du côté d’OpenAI, le shopping visuel dans ChatGPT marque un pivot vers les cas d’usage commerciaux grand public. L’Agentic Commerce Protocol positionne ChatGPT comme une couche d’intermédiation entre marchands et consommateurs — une stratégie différente de l’API pure, qui cible directement la valeur transactionnelle.
Grok Imagine qui atteint la première place du classement Arena dès son lancement sur le multi-image to video illustre la vitesse à laquelle xAI itère sur la génération vidéo. GitHub Copilot, de son côté, renforce systématiquement l’autonomie de son coding agent : la capacité à modifier directement une PR existante réduit encore les allers-retours entre l’agent et le développeur.
Sources
- Claude Code auto mode — @claudeai sur X
- Computer Use dans Cowork — @claudeai sur X
- Anthropic Engineering Blog — Harness multi-agents
- Anthropic Economic Index — Learning curves
- Anthropic Science Blog — Lancement
- Shopping visuel ChatGPT — OpenAI
- Politiques sécurité ados — OpenAI
- OpenAI Foundation — Investissement
- Onglet Library ChatGPT — @OpenAI sur X
- Flash-Lite Browser — @GoogleDeepMind sur X
- Partenariat Google DeepMind × Agile Robots
- Grok Imagine vidéo — @grok sur X
- Documentation API Grok Imagine
- Copilot @copilot dans les PR — Journal des modifications GitHub
- Gemini 3.1 Pro dans JetBrains/Xcode/Eclipse — Journal des modifications GitHub
- API accès agent par dépôt — Journal des modifications GitHub
- Logs Copilot dans Raycast — Journal des modifications GitHub
Ten dokument został przetłumaczony z wersji fr na język pl przy użyciu modelu gpt-5.4-mini. Aby uzyskać więcej informacji na temat procesu tłumaczenia, odwiedź https://gitlab.com/jls42/ai-powered-markdown-translator