Claude Sonnet 4.6, Qwen3.5-397B open-weight, Google wprowadza Lyria 3

Anthropic uderza mocno z Claude Sonnet 4.6, modelem, który rywalizuje z Opus w wielu zadaniach w cenie Sonnet. Równocześnie Qwen publikuje swój pierwszy model Qwen3.5 jako open-weight z 397 miliardami parametrów, a Google integruje Lyria 3 — swój model generowania muzyki — bezpośrednio w Gemini.

Claude Sonnet 4.6: wydajność Opus w cenie Sonnet

17 lutego — Anthropic wprowadza Claude Sonnet 4.6, opisywany jako najbardziej kompetentny Sonnet do tej pory. Model stanowi pełną aktualizację w zakresie coding, computer use, rozumowania w długim kontekście, planowania agentów, pracy intelektualnej i designu. Posiada okno kontekstowe 1 miliona tokenów w wersji beta.

Pozycjonowanie jest jasne: wydajność, która wymagałaby modelu Opus, jest teraz dostępna w taryfie Sonnet, czyli $3 /$ 15 za milion tokenów (bez zmian w stosunku do Sonnet 4.5). Sonnet 4.6 staje się domyślnym modelem w planach Free i Pro w claude.ai oraz Claude Cowork.

Benchmarki i opinie użytkowników

W Claude Code testerzy preferowali Sonnet 4.6 nad Sonnet 4.5 w około 70% przypadków, zgłaszając lepsze czytanie kontekstu przed modyfikacją kodu i konsolidację wspólnej logiki zamiast jej duplikowania. Co bardziej znaczące: użytkownicy preferowali Sonnet 4.6 nad Opus 4.5 (model frontier z listopada 2025) w 59% przypadków, powołując się na mniejsze „lenistwo” i lepsze przestrzeganie instrukcji.

Benchmark	Wynik
SWE-bench Verified	80.2% (z modyfikacją promptu)
OSWorld (computer use)	Znaczący postęp w ciągu 16 miesięcy
OfficeQA	Dorównuje Opus 4.6
Vending-Bench Arena	Wschodząca strategia inwestycji/zwrotu

Computer use znacząco postępuje: Sonnet 4.6 poprawia również odporność na prompt injections w porównaniu do Sonnet 4.5, osiągając poziom porównywalny z Opus 4.6.

Powiązane aktualizacje produktów

Ogłoszeniu towarzyszy kilka ogólnych udostępnień w API Claude: wykonywanie kodu, pamięć, programatyczne wywołania narzędzi, wyszukiwanie narzędzi i przykłady użycia narzędzi. Wyszukiwanie w sieci i narzędzia fetch integrują teraz dynamiczne filtrowanie — Claude automatycznie pisze i wykonuje kod w celu filtrowania wyników wyszukiwania, zachowując w kontekście tylko istotne treści.

🔗 Ulepszone wyszukiwanie w sieci z dynamicznym filtrowaniem

Dla użytkowników Claude in Excel, dodatek obsługuje teraz konektory MCP (S&P Global, LSEG, Daloopa, PitchBook, Moody’s, FactSet), dostępne w planach Pro, Max, Team i Enterprise.

🔗 Oficjalne ogłoszenie

Anthropic mierzy autonomię agentów AI w rzeczywistych warunkach

18 lutego — Anthropic publikuje badanie analizujące miliony interakcji człowiek-agent poprzez Claude Code i publiczne API, mające na celu: zrozumienie, jak ludzie zarządzają autonomią agentów w praktyce.

Kluczowe wyniki

Metryka	Wartość
Maksymalny czas autonomiczny (99.9. percentyl)	~45 minut (podwojony w 3 miesiące)
Auto-approve (doświadczeni użytkownicy)	40%+ (vs 20% dla nowych)
Udział software engineering w ruchu API	~50%
Działania z zabezpieczeniami	80%
Działania z człowiekiem w pętli	73%
Działania nieodwracalne	0.8%

Sprzeczne z intuicją odkrycie: doświadczeni użytkownicy zwiększają zarówno wskaźnik auto-approve, JAK I wskaźnik przerwań. Przechodzą od nadzoru działanie-po-działaniu do aktywnego monitorowania z ukierunkowaną interwencją. Ponadto Claude zatrzymuje się, aby prosić o wyjaśnienia częściej, niż ludzie go przerywają, szczególnie przy złożonych zadaniach.

Badanie konkluduje, że istnieje znaczna luka między możliwościami a użyciem: autonomia, którą modele są w stanie obsłużyć, znacznie przewyższa tę, którą przyznajemy im w praktyce — zjawisko, które badacze określają jako „nadwyżka niewdrożonej autonomii”.

🔗 Pełne badanie

Anthropic: partnerstwa Rwanda i Infosys

17 lutego — Równolegle z wprowadzeniem Sonnet 4.6, Anthropic podpisuje memorandum o porozumieniu z rządem Rwandy w celu wdrożenia Claude w sektorach zdrowia, edukacji i administracji publicznej. Partnerstwo, prowadzone przez Ministerstwo ICT i Innowacji, obejmuje szkolenie urzędników i wdrożenie towarzysza edukacyjnego AI w ośmiu krajach afrykańskich.

Anthropic ogłasza również współpracę z Infosys w celu budowy agentów AI dla telekomunikacji i innych regulowanych branż.

🔗 Partnerstwo Rwanda

Qwen3.5-397B-A17B: pierwszy open-weight z serii 3.5

16 lutego — Alibaba Qwen publikuje Qwen3.5-397B-A17B, pierwszy model open-weight z serii Qwen3.5. Jest to znaczący postęp dzięki hybrydowej architekturze łączącej liniową uwagę i Mixture-of-Experts (MoE).

Cecha	Szczegóły
Całkowite parametry	397B (architektura hybrydowa MoE)
Architektura	Hybrydowa uwaga liniowa + sparse MoE
Przepustowość	8.6x do 19.0x wyższa niż Qwen3-Max
Języki	201 języków i dialektów
Licencja	Apache 2.0
Trening	Uczenie ze wzmocnieniem na dużą skalę
Specjalność	Natywny multimodal, rzeczywiści agenci

Model jest dostępny natychmiast na Hugging Face, ModelScope, Alibaba Cloud Model Studio oraz przez Qwen Code. Z obsługą 201 języków i licencją Apache 2.0, jest to jeden z najbardziej ambitnych modeli open-weight w tej chwili pod względem pokrycia językowego i przepustowości inferencji.

🔗 Tweet @Alibaba_Qwen

Google Lyria 3: generowanie muzyki trafia do Gemini

18 lutego — Google i DeepMind prezentują Lyria 3, model AI do generowania muzyki zintegrowany bezpośrednio z aplikacją Gemini. Użytkownicy mogą tworzyć 30-sekundowe ścieżki muzyczne na podstawie promptów tekstowych, zdjęć lub wideo, z generowaniem niestandardowych tekstów piosenek.

Funkcjonalność	Szczegóły
Wejście	Tekst, obrazy, wideo
Wyjście	30-sekundowe ścieżki audio
Personalizacja	Różne style muzyczne, generowane teksty
Dostępność	Beta w Gemini (18 lat+)

Lyria 3 wykazuje znaczącą elastyczność w kombinacjach instrumentów i gatunków, umożliwiając tworzenie od dżingli po kompozycje lo-fi. Globalne wdrażanie odbywa się stopniowo.

🔗 Tweet @GoogleAI

OpenAI EVMbench: benchmark bezpieczeństwa dla smart contracts

18 lutego — OpenAI i Paradigm uruchamiają EVMbench, benchmark oceniający zdolność agentów AI do wykrywania, naprawiania i eksploatowania luk w smart contracts Ethereum. Benchmark opiera się na 120 wyselekcjonowanych lukach z 40 audytów (głównie konkursy Code4rena).

Tryb	Opis	GPT-5.3-Codex	GPT-5 (6 miesięcy)
Exploit	Wykonywanie ataków drenażowych	72.2%	31.9%
Detect	Audytowanie i wykrywanie luk	< pełne pokrycie	-
Patch	Naprawianie z zachowaniem funkcjonalności	< pełne pokrycie	-

Interesujące spostrzeżenie: agenci AI radzą sobie lepiej w eksploatacji (cel jawny) niż w wykrywaniu i naprawianiu, gdzie często poddają się po znalezieniu pierwszej luce. OpenAI potwierdza swoje zaangażowanie w wysokości $10M w kredytach API na defensywne cyberbezpieczeństwo.

🔗 Ogłoszenie EVMbench

GLM-5 Technical Report: Z.ai dokumentuje swój model

18 lutego — Z.ai publikuje pełny raport techniczny GLM-5, szczegółowo opisujący innowacje architektoniczne modelu uruchomionego 11 lutego (744B parametrów, 40B aktywnych, licencja MIT).

Trzy kluczowe udokumentowane innowacje: Dynamic Sparse Attention (DSA) w celu zmniejszenia kosztów treningu i inferencji, asynchroniczna infrastruktura RL oddzielająca generowanie od treningu oraz algorytmy RL dla agentów umożliwiające złożone interakcje w długim horyzoncie czasowym. Raport jest dostępny na arXiv.

🔗 Tweet @Zai_org · 🔗 arXiv

Cohere Labs Tiny Aya: ultrakompaktowe wielojęzyczne AI

17 lutego — Cohere Labs prezentuje Tiny Aya, rodzinę małych modeli językowych obsługujących 70+ języków przy zaledwie 3.35 miliarda parametrów. Cel: uczynienie wielojęzycznego AI dostępnym wszędzie, w tym na telefonach i offline.

Tiny Aya celuje w trzy grupy odbiorców: badaczy pracujących w językach nieangielskich, deweloperów tworzących dla społeczności cyfrowo niedostatecznie obsłużonych oraz aplikacje wbudowane wymagające niezawodnego tłumaczenia bez zależności od chmury. Model zawiera funkcję tłumaczenia offline, poprawiając prywatność i zmniejszając opóźnienia.

🔗 Tweet @cohere

Runway Gen-4.5 dostępne przez API + Claude Code Skill

17 lutego — Runway otwiera dostęp do Gen-4.5 przez swoje API, umożliwiając deweloperom integrację generowania obrazów, wideo i audio bezpośrednio w ich projektach. Ogłoszeniu towarzyszy dedykowany Claude Code Skill, dostępny na GitHub, który pozwala na generowanie multimediów Runway bez opuszczania środowiska programistycznego.

🔗 Tweet @runwayml · 🔗 GitHub Skills

Manus Agents: osobisty agent z pamięcią długoterminową

16 lutego — Manus uruchamia Manus Agents, funkcję umożliwiającą każdemu użytkownikowi posiadanie osobistego agenta bezpośrednio w rozmowach na czacie. Agent łączy pamięć długoterminową (zapamiętywanie stylu, tonu i preferencji), pełne możliwości tworzenia (wideo, slajdy, strony internetowe, obrazy) oraz bezpośrednie integracje z Gmail, Calendar i Notion.

🔗 Tweet @ManusAI

ElevenAgents for Support

17 lutego — ElevenLabs uruchamia ElevenAgents for Support, konwersacyjne agenty AI do obsługi klienta. Działając głosowo i na kanałach cyfrowych w ponad 70 językach, agenty te opierają się na platformie agentic ElevenLabs i jej ponad 4 milionach wdrożeń produkcyjnych.

🔗 ElevenLabs Agents

NotebookLM x Zillow: notatnik nieruchomości

18 lutego — NotebookLM uruchamia we współpracy z Zillow darmowy Featured Notebook dla kupujących domy, centralizujący porady ekspertów dotyczące przygotowania finansowego, oceny rynku i procedur zakupu.

🔗 Tweet @NotebookLM

Co to oznacza

Ten tydzień ilustruje dwa główne trendy. Pierwszym jest demokratyzacja wydajności frontier: Sonnet 4.6 przynosi możliwości Opus w cenie 5 razy niższej, podczas gdy Qwen3.5 udostępnia model o 397B parametrach na licencji Apache 2.0. Drugim jest ekspansja agentów AI na nowe dziedziny — badanie Anthropic pokazuje, że najdłuższe sesje autonomiczne podwoiły się w ciągu trzech miesięcy, a gracze tacy jak Manus, ElevenLabs i Runway budują wyspecjalizowanych agentów (osobisty czat, obsługa klienta, tworzenie multimediów).

Nadejście generowania muzyki w Gemini z Lyria 3 oraz benchmark EVMbench dla bezpieczeństwa blockchain pokazują również, że generatywne AI i AI bezpieczeństwa nadal strukturyzują się jako odrębne dziedziny.