Szukaj

AI News 23 sty 2026: Claude w Excelu, Tasks Claude Code, Codex Agent Loop

AI News 23 sty 2026: Claude w Excelu, Tasks Claude Code, Codex Agent Loop

Pracowity tydzień dla agentów AI

Od 21 do 23 stycznia 2026, kilka ważnych ogłoszeń dotyczących coding agents i infrastruktury. Anthropic wprowadza Claude do Excela i publikuje trzy artykuły o systemach wieloagentowych, OpenAI szczegółowo opisuje wewnętrzną architekturę Codex i swoją infrastrukturę PostgreSQL, Qwen udostępnia swój model text-to-speech jako open-source, a Runway dodaje Image to Video do Gen-4.5.


Anthropic: Claude w Excelu i Claude Code

Claude w Excelu

23 stycznia — Claude jest teraz dostępny w Microsoft Excel w wersji beta. Integracja umożliwia analizę kompletnych skoroszytów Excela wraz z ich zagnieżdżonymi formułami i zależnościami między arkuszami.

Funkcje:

  • Zrozumienie całego skoroszytu (formuły, zależności między arkuszami)
  • Wyjaśnienia z cytatami na poziomie komórki
  • Aktualizacja założeń przy zachowaniu formuł

Dostępne dla subskrybentów Claude Pro, Max, Team i Enterprise.

🔗 Claude w Excelu


Claude Code v2.1.19: system Tasks

23 stycznia — Wersja 2.1.19 wprowadza Tasks, nowy system zarządzania zadaniami dla złożonych projektów wielosesyjnych.

We’re turning Todos into Tasks in Claude Code. Tasks are a new primitive that help Claude Code track and complete more complicated projects and collaborate on them across multiple sessions or subagents.

🇵🇱 Zmieniamy Todos w Tasks w Claude Code. Tasks to nowa funkcja podstawowa, która pomaga Claude Code śledzić i realizować bardziej skomplikowane projekty oraz współpracować nad nimi w wielu sesjach lub subagentach.Thariq (@trq212), zespół Claude Code Anthropic

Funkcje Tasks:

AspektSzczegół
Przechowywanie~/.claude/tasks (pliki, umożliwia budowanie na nich narzędzi)
WspółpracaCLAUDE_CODE_TASK_LIST_ID=nazwa claude do udostępniania między sesjami
ZależnościTasks z zależnościami i blokadami przechowywanymi w metadanych
BroadcastAktualizacja Taska rozgłaszana do wszystkich sesji na tej samej Task List
KompatybilnośćDziała z claude -p i AgentSDK

Do czego to służy: Przy złożonym projekcie (refaktoryzacja wielu plików, migracja, długa funkcja), Claude może podzielić pracę na zadania (tasks), śledzić co jest zrobione, a co zostało. Zadania są trwałe na dysku — przetrwają kompakcję kontekstu, zamknięcie sesji i restart. Wiele sesji lub subagentów może współpracować nad tą samą listą zadań w czasie rzeczywistym.

W praktyce: Claude tworzy zadania (TaskCreate), wyświetla je (TaskList) i aktualizuje ich status (TaskUpdate: pending → in_progress → completed). Przykład przy refaktoryzacji uwierzytelniania:

#1 [completed] Migracja przechowywania sesji do Redis
#2 [in_progress] Implementacja rotacji refresh tokenów
#3 [pending] Dodanie testów integracyjnych OAuth
#4 [pending] Aktualizacja dokumentacji API

Zadania są przechowywane w ~/.claude/tasks/ i mogą być udostępniane między sesjami przez CLAUDE_CODE_TASK_LIST_ID.

Inne nowości v2.1.19:

  • Skrót $0, $1 dla argumentów w komendach niestandardowych
  • Forkowanie sesji VSCode i przewijanie dla wszystkich
  • Skills bez uprawnień wykonują się bez zatwierdzenia
  • CLAUDE_CODE_ENABLE_TASKS=false aby tymczasowo wyłączyć

🔗 CHANGELOG Claude Code | Wątek @trq212


Claude Code v2.1.18: konfigurowalne skróty klawiszowe

Poprzednia wersja dodająca możliwość konfiguracji skrótów klawiszowych dla kontekstu i tworzenia sekwencji akordów.

Komenda: /keybindings

⚠️ Uwaga: Ta funkcja jest obecnie w wersji preview i nie jest dostępna dla wszystkich użytkowników.

🔗 Dokumentacja Keybindings


Petri 2.0: zautomatyzowane audyty dostosowania

22 stycznia — Anthropic publikuje Petri 2.0, aktualizację swojego narzędzia do zautomatyzowanego audytu behawioralnego modeli językowych.

Do czego to służy: Petri testuje, czy LLM mógłby zachowywać się problematycznie — manipulacja, oszustwo, obchodzenie zasad. Narzędzie generuje realistyczne scenariusze i obserwuje odpowiedzi modelu, aby wykryć niepożądane zachowania, zanim wystąpią one w produkcji.

UlepszenieOpis
70 nowych scenariuszyRozszerzona biblioteka seedów, aby pokryć więcej przypadków brzegowych
Mitygacje eval-awarenessModel nie może wiedzieć, że jest testowany — w przeciwnym razie dostosowuje swoje zachowanie. Petri 2.0 poprawia realizm scenariuszy, aby uniknąć tego wykrycia.
Porównania frontierWyniki ewaluacji dla najnowszych modeli (Claude, GPT, Gemini)

🔗 Petri 2.0 | GitHub


Blog: kiedy używać (lub nie) systemów wieloagentowych

23 stycznia — Anthropic publikuje pragmatyczny przewodnik po architekturach wieloagentowych. Główne przesłanie: nie używaj multi-agent domyślnie.

We’ve seen teams invest months building elaborate multi-agent architectures only to discover that improved prompting on a single agent achieved equivalent results.

🇵🇱 Widzieliśmy zespoły inwestujące miesiące w budowanie rozbudowanych architektur wieloagentowych tylko po to, by odkryć, że ulepszone promptowanie na jednym agencie osiągało równoważne wyniki.

Artykuł identyfikuje 3 przypadki, gdzie multi-agent naprawdę wnosi wartość:

PrzypadekProblemRozwiązanie multi-agent
Zanieczyszczenie kontekstuAgent generuje obszerne dane, z których tylko podsumowanie jest potem przydatneSubagent pobiera 2000 tokenów historii, zwraca tylko “zamówienie dostarczone” do głównego agenta
RównoległośćWiele niezależnych wyszukiwań do wykonaniaUruchom 5 agentów równolegle na 5 różnych źródłach zamiast przetwarzać je sekwencyjnie
SpecjalizacjaZbyt wiele narzędzi (20+) w jednym agencie pogarsza jego zdolność do wyboru właściwegoPodział na wyspecjalizowanych agentów: jeden do CRM, jeden do marketingu, jeden do komunikacji

Pułapka do uniknięcia: Dzielenie według typu pracy (jeden agent planuje, inny implementuje, inny testuje). Każde przekazanie traci kontekst i pogarsza jakość. Lepiej, by jeden agent obsługiwał funkcjonalność od początku do końca.

Rzeczywisty koszt: 3-10x więcej tokenów niż pojedynczy agent za to samo zadanie.

Inne artykuły z serii:

Building agents with Skills (22 sty)

Zamiast budować agentów wyspecjalizowanych w domenie, Anthropic proponuje budowanie skills: zbiorów plików (przepływy pracy, skrypty, najlepsze praktyki), które agent ogólny ładuje na żądanie.

Progresywne ujawnianie na 3 poziomach:

PoziomTreśćRozmiar
1Metadane (nazwa, opis)~50 tokenów
2Pełny plik SKILL.md~500 tokenów
3Dokumentacja referencyjna2000+ tokenów

Każdy poziom jest ładowany tylko w razie potrzeby. Wynik: agent może mieć setki skills bez nasycania swojego kontekstu.

🔗 Building agents with Skills


Anthropic identyfikuje 8 trendów w rozwoju oprogramowania w 2026 roku.

Kluczowe przesłanie: Inżynierowie przechodzą od pisania kodu do koordynowania agentów, którzy piszą kod.

Ważny niuans: AI jest używana w ~60% pracy, ale tylko 0-20% może być w pełni oddelegowane — nadzór ludzki pozostaje niezbędny.

FirmaWynik
RakutenClaude Code na bazie kodu vLLM (12.5M linii), 7h autonomicznej pracy
TELUS30% szybciej, 500k godzin zaoszczędzone
Zapier89% adopcji AI, 800+ wewnętrznych agentów

🔗 Eight trends 2026


OpenAI: architektura Codex i infrastruktura

Unrolling the Codex agent loop

23 stycznia — OpenAI otwiera kulisy Codex CLI. Pierwszy artykuł z serii o wewnętrznym działaniu ich agenta oprogramowania.

Czego się dowiadujemy:

Pętla agenta jest teoretycznie prosta: użytkownik wysyła żądanie → model generuje odpowiedź lub prosi o narzędzie → agent wykonuje narzędzie → model wznawia z wynikiem → aż do ostatecznej odpowiedzi. W praktyce subtelności tkwią w zarządzaniu kontekstem.

Prompt caching — klucz do wydajności:

Każda tura rozmowy dodaje treść do promptu. Bez optymalizacji jest to kwadratowe w wysłanych tokenach. Prompt caching pozwala na ponowne wykorzystanie obliczeń z poprzednich tur. Warunek: nowy prompt musi być dokładnym prefiksem starego. OpenAI szczegółowo opisuje pułapki, które psują cache (zmiana kolejności narzędzi MCP, modyfikacja konfiguracji w trakcie rozmowy).

Automatyczna kompakcja:

Gdy kontekst przekroczy próg, Codex wywołuje /responses/compact, co zwraca skompresowaną wersję rozmowy. Model zachowuje utajone zrozumienie poprzez nieprzejrzysty encrypted_content.

Zero Data Retention (ZDR):

Dla klientów, którzy nie chcą, aby ich dane były przechowywane, encrypted_content pozwala na zachowanie rozumowania modelu między turami bez przechowywania danych po stronie serwera.

Pierwszy artykuł z serii — kolejne obejmą architekturę CLI, implementację narzędzi i sandboxing.

🔗 Unrolling the Codex agent loop | Codex GitHub


Scaling PostgreSQL: 800 milionów użytkowników ChatGPT

22 stycznia — OpenAI szczegółowo opisuje, jak PostgreSQL zasila ChatGPT i API dla 800 milionów użytkowników z milionami żądań na sekundę.

MetrykaWartość
Użytkownicy800 milionów
PrzepustowośćMiliony QPS
Repliki~50 read replicas multi-region
Opóźnienie p99Dwucyfrowe ms po stronie klienta
DostępnośćFive-nines (99.999%)

Architektura:

  • Single primary Azure PostgreSQL flexible server
  • PgBouncer do connection pooling (opóźnienie połączenia: 50ms → 5ms)
  • Obciążenia write-heavy zmigrowane do Azure Cosmos DB
  • Cache locking w celu ochrony przed burzami cache miss
  • Kaskadowa replikacja w testach, aby przekroczyć 100 replik

Jedyny SEV-0 PostgreSQL w ciągu ostatnich 12 miesięcy: podczas wiralowego startu ChatGPT ImageGen (100M nowych użytkowników w tydzień, ruch zapisu x10).

🔗 Scaling PostgreSQL


Qwen: Qwen3-TTS open-source

22-23 stycznia — Alibaba udostępnia Qwen3-TTS jako open-source na licencji Apache 2.0.

CechaSzczegół
LicencjaApache 2.0
Voice cloningTak
Wsparcie MLX-AudioDostępne

Instalacja:

uv pip install -U mlx-audio --prerelease=allow

🔗 Qwen3-TTS na X


Runway: Gen-4.5 Image to Video

21 stycznia — Runway dodaje funkcjonalność Image to Video do Gen-4.5.

FunkcjonalnośćOpis
Image to VideoTransformacja obrazu w kinowe wideo
Camera controlPrecyzyjna kontrola kamery
Coherent narrativesSpójne narracje w czasie
Character consistencyPostacie, które pozostają spójne

Dostępne dla wszystkich płatnych planów Runway. Tymczasowa promocja: 15% zniżki.

🔗 Runway na X


Co to oznacza

Ten tydzień oznacza dojrzewanie narzędzi coding agents. Dwaj giganci (Anthropic i OpenAI) publikują szczegółową dokumentację techniczną na temat architektury swoich agentów — znak, że rynek przechodzi z fazy “demo” do fazy “produkcja”.

Po stronie infrastruktury, artykuł o PostgreSQL od OpenAI pokazuje, że architektura single-primary może wytrzymać skalę setek milionów użytkowników przy odpowiednich optymalizacjach.

Pojawienie się Claude’a w Excelu otwiera nowy front: AI zintegrowane bezpośrednio z codziennymi narzędziami produktywności.


Źródła