Z.ai wprowadza GLM-5, swój nowy flagowy model open-source z 744 miliardami parametrów na licencji MIT, który zajmuje pierwsze miejsce wśród modeli open-source w zadaniach kodowania i agenckich. Anthropic publikuje raport ryzyka sabotażu ASL-4 dla Opus 4.6, OpenAI wzbogaca swoje API o prymitywy agenckie, a Kimi ujawnia system 100 równoległych podagentów. Po stronie ekosystemu, Runway pozyskuje 315 milionów dolarów, a ElevenLabs wprowadza tryb ekspresyjny dla swoich agentów głosowych.
Z.ai wprowadza GLM-5: 744B parametrów, open-source na licencji MIT
11 lutego — Z.ai (Zhipu AI) wprowadza GLM-5, swój nowy model frontier zaprojektowany do inżynierii złożonych systemów i długotrwałych zadań agenckich. W porównaniu do GLM-4.5, model rośnie z 355B parametrów (32B aktywnych) do 744B parametrów (40B aktywnych), przy czym dane przedtreningowe wzrastają z 23T do 28,5T tokenów.
GLM-5 integruje DeepSeek Sparse Attention (DSA), aby obniżyć koszty wdrożenia przy zachowaniu zdolności długiego kontekstu, i wprowadza “slime”, asynchroniczną infrastrukturę uczenia przez wzmacnianie, która poprawia przepustowość po treningu.
| Benchmark | GLM-5 | GLM-4.7 | Kimi K2.5 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|---|
| SWE-bench Verified | 77,8% | 73,8% | 76,8% | 80,9% | 76,2% |
| HLE (text) | 30,5 | 24,8 | 31,5 | 28,4 | 37,2 |
| HLE w/ Tools | 50,4 | 42,8 | 51,8 | 43,4 | 45,8 |
| Terminal-Bench 2.0 | 56,2 | 41,0 | 50,8 | 59,3 | 54,2 |
| Vending Bench 2 | 4 432 $ | 2 377 $ | 1 198 $ | 4 967 $ | 5 478 $ |
GLM-5 pozycjonuje się jako najlepszy model open-source w rozumowaniu, kodowaniu i zadaniach agenckich, wypełniając lukę z własnościowymi modelami frontier. W Vending Bench 2, benchmarku symulującym zarządzanie automatem sprzedającym przez rok, GLM-5 kończy z saldem 4 432 USD, zbliżając się do Claude Opus 4.5 (4 967 USD).
Poza kodem, GLM-5 może bezpośrednio generować pliki .docx, .pdf i .xlsx — oferty, raporty finansowe, arkusze kalkulacyjne — dostarczane pod klucz. Z.ai wdraża tryb Agenta z wbudowanymi umiejętnościami tworzenia dokumentów, wspierając wieloetapową współpracę.
Wagi modelu są publikowane na Hugging Face na licencji MIT. GLM-5 jest kompatybilny z Claude Code i OpenClaw oraz dostępny na OpenRouter. Wdrażanie jest stopniowe, zaczynając od subskrybentów Coding Plan Max.
🔗 Blog techniczny GLM-5 🔗 Ogłoszenie na X
Anthropic publikuje pierwszy raport ryzyka sabotażu ASL-4
11 lutego — Anthropic publikuje raport ryzyka sabotażu dla Claude Opus 4.6, w oczekiwaniu na próg bezpieczeństwa ASL-4 (AI Safety Level 4) dla autonomicznych badań i rozwoju AI.
W momencie wydania Claude Opus 4.5, Anthropic zobowiązał się do pisania raportów ryzyka sabotażu dla każdego nowego modelu frontier. Zamiast nawigować po niejasnych progach, firma zdecydowała się proaktywnie przestrzegać wyższego standardu bezpieczeństwa ASL-4.
| Element | Szczegóły |
|---|---|
| Oceniany model | Claude Opus 4.6 |
| Próg bezpieczeństwa | ASL-4 (AI Safety Level 4) |
| Domena | Autonomiczne B+R AI |
| Format | Publiczny raport PDF |
| Precedens | Zobowiązanie podjęte podczas premiery Opus 4.5 |
To znaczący krok w przejrzystości bezpieczeństwa AI: Anthropic jest jednym z pierwszych laboratoriów, które opublikowało taki raport sabotażu dla modelu w produkcji.
When we released Claude Opus 4.5, we knew future models would be close to our AI Safety Level 4 threshold for autonomous AI R&D. We therefore committed to writing sabotage risk reports for future frontier models. Today we’re delivering on that commitment for Claude Opus 4.6.
🇵🇱 Kiedy wydaliśmy Claude Opus 4.5, wiedzieliśmy, że przyszłe modele będą blisko naszego progu AI Safety Level 4 dla autonomicznych badań i rozwoju AI. Dlatego zobowiązaliśmy się do pisania raportów ryzyka sabotażu dla przyszłych modeli frontier. Dziś spełniamy to zobowiązanie dla Claude Opus 4.6. — @AnthropicAI na X
OpenAI: nowe prymitywy agenckie w API Responses
10 lutego — OpenAI wprowadza trzy nowe prymitywy w API Responses dla długotrwałej pracy agenckiej.
Kompakcja po stronie serwera
Umożliwia wielogodzinne sesje agentów bez osiągania limitów kontekstu. Kompakcja jest zarządzana po stronie serwera. Triple Whale, tester we wczesnym dostępie, donosi o wykonaniu 150 wywołań narzędzi i 5 milionów tokenów w jednej sesji bez utraty precyzji.
Kontenery z siecią
Kontenery hostowane przez OpenAI mogą teraz uzyskiwać dostęp do internetu w kontrolowany sposób. Administratorzy definiują białą listę domen w panelu, żądania muszą jawnie definiować network_policy, a sekrety domen mogą być wstrzykiwane bez ujawniania surowych wartości modelowi.
Umiejętności w API
Natywne wsparcie standardu Agent Skills z pierwszą wbudowaną umiejętnością (arkusze kalkulacyjne). Umiejętności to wielokrotnego użytku i wersjonowane pakiety, które można montować w hostowanych środowiskach powłoki, a modele decydują w czasie wykonywania, czy je wywołać.
| Prymityw | Opis | Status |
|---|---|---|
| Kompakcja po stronie serwera | Wielogodzinne sesje bez limitów kontekstu | Dostępne |
| Kontenery z siecią | Kontrolowany dostęp do internetu dla hostowanych kontenerów | Dostępne |
| Umiejętności w API | Pakiety wielokrotnego użytku (pierwsza umiejętność: arkusze kalkulacyjne) | Dostępne |
Kimi Agent Swarm: orkiestracja 100 podagentów
10 lutego — Kimi (Moonshot AI) ujawnia Agent Swarm, zdolność koordynacji wielu agentów umożliwiającą zrównoleglenie złożonych zadań z udziałem do 100 wyspecjalizowanych podagentów.
System może wykonać ponad 1 500 wywołań narzędzi i osiąga prędkość 4,5x wyższą niż wykonania sekwencyjne. Przypadki użycia obejmują jednoczesne generowanie wielu plików (Word, Excel, PDF), równoległą analizę treści i kreatywne generowanie w wielu stylach równolegle. Agent Swarm rozwiązuje strukturalne ograniczenie LLM: degradację rozumowania podczas długich zadań, które wypełniają kontekst.
OpenAI Harness Engineering: zero linii ręcznego kodu z Codex
11 lutego — OpenAI publikuje doświadczenia z budowy wewnętrznego produktu oprogramowania z zerową liczbą linii kodu napisanych ręcznie. Przez 5 miesięcy zespół od 3 do 7 inżynierów używał wyłącznie Codex do generowania całego kodu.
| Metryka | Wartość |
|---|---|
| Wygenerowane linie kodu | ~1 milion |
| Pull requests | ~1 500 |
| PR na inżyniera dziennie | średnio 3,5 |
| Użytkownicy wewnętrzni | Kilkuset |
| Szacowany czas | 1/10 czasu potrzebnego ręcznie |
| Sesje Codex | Do 6+ godzin |
Podejście “Harness Engineering” redefiniuje rolę inżyniera: projektowanie środowisk, określanie intencji i budowanie pętli sprzężenia zwrotnego dla agentów, zamiast pisania kodu. Ustrukturyzowana dokumentacja w repozytorium służy jako przewodnik (AGENTS.md jako spis treści), architektura jest sztywna z linterami i testami strukturalnymi generowanymi przez Codex, a powtarzające się zadania skanują odchylenia i automatycznie otwierają PR-y refaktoryzacyjne.
Runway pozyskuje 315 milionów dolarów w Serii E
10 lutego — Runway ogłasza zbiórkę funduszy w Serii E w wysokości 315 milionów dolarów, podnosząc swoją wycenę do 5,3 miliarda dolarów. Runda jest prowadzona przez General Atlantic, z udziałem NVIDIA, Adobe Ventures, AMD Ventures, Fidelity, AllianceBernstein i innych.
| Szczegóły | Wartość |
|---|---|
| Kwota | 315 mln USD |
| Seria | E |
| Wycena | 5,3 mld USD (vs 3,3 mld USD w Serii D) |
| Inwestor wiodący | General Atlantic |
| Łącznie pozyskane od 2018 | 860 mln USD |
Fundusze posłużą do wstępnego trenowania nowej generacji “world models” — modeli zdolnych do symulowania świata fizycznego — i wdrażania ich w nowych produktach i branżach. To ogłoszenie następuje po premierze Gen-4.5, najnowszego modelu generowania wideo od Runway.
🔗 Oficjalne Ogłoszenie 🔗 Post Runway na X
Cowork dostępny na Windows
10 lutego — Claude Cowork, aplikacja desktopowa do wieloetapowych zadań, jest teraz dostępna na Windows w wersji research preview z pełną parytetem funkcji w porównaniu do macOS.
| Funkcja | Opis |
|---|---|
| Dostęp do plików | Odczyt i zapis plików lokalnych |
| Wtyczki | Wsparcie dla wtyczek Cowork |
| Konektory MCP | Integracja z serwerami MCP |
| Instrukcje folderów | Styl Claude.md — instrukcje w języku naturalnym dla projektu |
Cowork na Windows jest dostępny dla wszystkich płatnych planów Claude przez claude.com/cowork.
Darmowe funkcje w darmowym planie Claude
11 lutego — Anthropic rozszerza funkcje dostępne w darmowym planie Claude. Tworzenie plików, konektory, umiejętności i kompakcja są teraz dostępne bez subskrypcji. Kompakcja pozwala Claude automatycznie podsumowywać poprzedni kontekst, aby długie rozmowy mogły być kontynuowane bez restartu.
Claude Code Plan Mode w Slack
11 lutego — Integracja Claude Code w Slack otrzymuje Plan Mode. Kiedy zlecasz Claude zadanie kodowania w Slack, może on teraz opracować plan przed wykonaniem, co pozwala na walidację podejścia przed implementacją.
| Funkcja | Opis |
|---|---|
| Plan Mode | Opracowanie planu przed wykonaniem |
| Automatyczne wykrywanie | Inteligentne trasowanie między kodem a czatem |
| Tworzenie PR | Przycisk “Create PR” bezpośrednio ze Slacka |
| Wymagania wstępne | Plan Pro, Max, Team lub Enterprise + podłączony GitHub |
ElevenLabs wprowadza Tryb Ekspresyjny dla swoich agentów głosowych
10 lutego — ElevenLabs ujawnia Expressive Mode dla ElevenAgents, ewolucję, która sprawia, że jego agenci głosowi AI są zdolni do dostosowywania tonu, emocji i nacisku w czasie rzeczywistym.
Tryb opiera się na Eleven v3 Conversational, modelu syntezy mowy zoptymalizowanym pod kątem dialogu w czasie rzeczywistym, połączonym z nowym systemem zmiany rozmówców, który redukuje przerwy. Cena pozostaje na poziomie 0,08 USD za minutę. Równolegle ElevenLabs restrukturyzuje swoją platformę na trzy rodziny produktów: ElevenAgents (agenci głosowi), ElevenCreative (narzędzia kreatywne) i ElevenAPI (platforma dla deweloperów).
Kimi K2.5 zintegrowany na Qoder
9 lutego — Qoder (platforma AI dla deweloperów) wdraża Kimi K2.5 jako flagowy model swojego marketplace, z wynikiem SWE-bench Verified na poziomie 76,8% i korzystną stawką (0,3x kredytu w poziomie Efficient). Rekomendowany przepływ pracy: używanie ciężkich modeli do projektowania i architektury, a następnie K2.5 do implementacji.
Co to oznacza
Open-source nadal szybko postępuje w kierunku modeli frontier. GLM-5 od Z.ai zmniejsza lukę do Claude Opus 4.5 i GPT-5.2 w benchmarkach kodowania i zadań agenckich, będąc jednocześnie dostępnym na licencji MIT. Publikacja raportu sabotażu ASL-4 przez Anthropic ustanawia precedens w zakresie przejrzystości bezpieczeństwa, do którego inne laboratoria prawdopodobnie będą zmuszone podążać.
Po stronie deweloperów, prymitywy agenckie OpenAI (kompakcja serwera, kontenery sieciowe, umiejętności API) i podejście “Harness Engineering” rysują przyszłość, w której autonomiczni agenci zarządzają wielogodzinnymi sesjami. Kimi Agent Swarm popycha tę logikę jeszcze dalej z orkiestracją setek podagentów równolegle.
Źródła
- Z.ai — Blog techniczny GLM-5
- Z.ai — Ogłoszenie GLM-5 na X
- Anthropic — Wątek Raportu Ryzyka Sabotażu
- OpenAIDevs — Prymitywy Agenckie
- OpenAI — Harness Engineering
- Kimi — Agent Swarm
- Runway — Finansowanie Serii E
- Claude — Cowork Windows
- Claude — Funkcje darmowego planu
- Boris Cherny — Claude Code Slack
- ElevenLabs — Tryb Ekspresyjny
- Qoder — Kimi K2.5