Szukaj

Claude Sonnet 4.6, Qwen3.5-397B open-weight, Google wprowadza Lyria 3

Anthropic uderza mocno z Claude Sonnet 4.6, modelem, który rywalizuje z Opus w wielu zadaniach w cenie Sonnet. Równocześnie Qwen publikuje swój pierwszy model Qwen3.5 jako open-weight z 397 miliardami parametrów, a Google integruje Lyria 3 — swój model generowania muzyki — bezpośrednio w Gemini.


Claude Sonnet 4.6: wydajność Opus w cenie Sonnet

17 lutego — Anthropic wprowadza Claude Sonnet 4.6, opisywany jako najbardziej kompetentny Sonnet do tej pory. Model stanowi pełną aktualizację w zakresie coding, computer use, rozumowania w długim kontekście, planowania agentów, pracy intelektualnej i designu. Posiada okno kontekstowe 1 miliona tokenów w wersji beta.

Pozycjonowanie jest jasne: wydajność, która wymagałaby modelu Opus, jest teraz dostępna w taryfie Sonnet, czyli 3/3 / 15 za milion tokenów (bez zmian w stosunku do Sonnet 4.5). Sonnet 4.6 staje się domyślnym modelem w planach Free i Pro w claude.ai oraz Claude Cowork.

Benchmarki i opinie użytkowników

W Claude Code testerzy preferowali Sonnet 4.6 nad Sonnet 4.5 w około 70% przypadków, zgłaszając lepsze czytanie kontekstu przed modyfikacją kodu i konsolidację wspólnej logiki zamiast jej duplikowania. Co bardziej znaczące: użytkownicy preferowali Sonnet 4.6 nad Opus 4.5 (model frontier z listopada 2025) w 59% przypadków, powołując się na mniejsze „lenistwo” i lepsze przestrzeganie instrukcji.

BenchmarkWynik
SWE-bench Verified80.2% (z modyfikacją promptu)
OSWorld (computer use)Znaczący postęp w ciągu 16 miesięcy
OfficeQADorównuje Opus 4.6
Vending-Bench ArenaWschodząca strategia inwestycji/zwrotu

Computer use znacząco postępuje: Sonnet 4.6 poprawia również odporność na prompt injections w porównaniu do Sonnet 4.5, osiągając poziom porównywalny z Opus 4.6.

Powiązane aktualizacje produktów

Ogłoszeniu towarzyszy kilka ogólnych udostępnień w API Claude: wykonywanie kodu, pamięć, programatyczne wywołania narzędzi, wyszukiwanie narzędzi i przykłady użycia narzędzi. Wyszukiwanie w sieci i narzędzia fetch integrują teraz dynamiczne filtrowanie — Claude automatycznie pisze i wykonuje kod w celu filtrowania wyników wyszukiwania, zachowując w kontekście tylko istotne treści.

🔗 Ulepszone wyszukiwanie w sieci z dynamicznym filtrowaniem

Dla użytkowników Claude in Excel, dodatek obsługuje teraz konektory MCP (S&P Global, LSEG, Daloopa, PitchBook, Moody’s, FactSet), dostępne w planach Pro, Max, Team i Enterprise.

🔗 Oficjalne ogłoszenie


Anthropic mierzy autonomię agentów AI w rzeczywistych warunkach

18 lutego — Anthropic publikuje badanie analizujące miliony interakcji człowiek-agent poprzez Claude Code i publiczne API, mające na celu: zrozumienie, jak ludzie zarządzają autonomią agentów w praktyce.

Kluczowe wyniki

MetrykaWartość
Maksymalny czas autonomiczny (99.9. percentyl)~45 minut (podwojony w 3 miesiące)
Auto-approve (doświadczeni użytkownicy)40%+ (vs 20% dla nowych)
Udział software engineering w ruchu API~50%
Działania z zabezpieczeniami80%
Działania z człowiekiem w pętli73%
Działania nieodwracalne0.8%

Sprzeczne z intuicją odkrycie: doświadczeni użytkownicy zwiększają zarówno wskaźnik auto-approve, JAK I wskaźnik przerwań. Przechodzą od nadzoru działanie-po-działaniu do aktywnego monitorowania z ukierunkowaną interwencją. Ponadto Claude zatrzymuje się, aby prosić o wyjaśnienia częściej, niż ludzie go przerywają, szczególnie przy złożonych zadaniach.

Badanie konkluduje, że istnieje znaczna luka między możliwościami a użyciem: autonomia, którą modele są w stanie obsłużyć, znacznie przewyższa tę, którą przyznajemy im w praktyce — zjawisko, które badacze określają jako „nadwyżka niewdrożonej autonomii”.

🔗 Pełne badanie


Anthropic: partnerstwa Rwanda i Infosys

17 lutego — Równolegle z wprowadzeniem Sonnet 4.6, Anthropic podpisuje memorandum o porozumieniu z rządem Rwandy w celu wdrożenia Claude w sektorach zdrowia, edukacji i administracji publicznej. Partnerstwo, prowadzone przez Ministerstwo ICT i Innowacji, obejmuje szkolenie urzędników i wdrożenie towarzysza edukacyjnego AI w ośmiu krajach afrykańskich.

Anthropic ogłasza również współpracę z Infosys w celu budowy agentów AI dla telekomunikacji i innych regulowanych branż.

🔗 Partnerstwo Rwanda


Qwen3.5-397B-A17B: pierwszy open-weight z serii 3.5

16 lutego — Alibaba Qwen publikuje Qwen3.5-397B-A17B, pierwszy model open-weight z serii Qwen3.5. Jest to znaczący postęp dzięki hybrydowej architekturze łączącej liniową uwagę i Mixture-of-Experts (MoE).

CechaSzczegóły
Całkowite parametry397B (architektura hybrydowa MoE)
ArchitekturaHybrydowa uwaga liniowa + sparse MoE
Przepustowość8.6x do 19.0x wyższa niż Qwen3-Max
Języki201 języków i dialektów
LicencjaApache 2.0
TreningUczenie ze wzmocnieniem na dużą skalę
SpecjalnośćNatywny multimodal, rzeczywiści agenci

Model jest dostępny natychmiast na Hugging Face, ModelScope, Alibaba Cloud Model Studio oraz przez Qwen Code. Z obsługą 201 języków i licencją Apache 2.0, jest to jeden z najbardziej ambitnych modeli open-weight w tej chwili pod względem pokrycia językowego i przepustowości inferencji.

🔗 Tweet @Alibaba_Qwen


Google Lyria 3: generowanie muzyki trafia do Gemini

18 lutego — Google i DeepMind prezentują Lyria 3, model AI do generowania muzyki zintegrowany bezpośrednio z aplikacją Gemini. Użytkownicy mogą tworzyć 30-sekundowe ścieżki muzyczne na podstawie promptów tekstowych, zdjęć lub wideo, z generowaniem niestandardowych tekstów piosenek.

FunkcjonalnośćSzczegóły
WejścieTekst, obrazy, wideo
Wyjście30-sekundowe ścieżki audio
PersonalizacjaRóżne style muzyczne, generowane teksty
DostępnośćBeta w Gemini (18 lat+)

Lyria 3 wykazuje znaczącą elastyczność w kombinacjach instrumentów i gatunków, umożliwiając tworzenie od dżingli po kompozycje lo-fi. Globalne wdrażanie odbywa się stopniowo.

🔗 Tweet @GoogleAI


OpenAI EVMbench: benchmark bezpieczeństwa dla smart contracts

18 lutego — OpenAI i Paradigm uruchamiają EVMbench, benchmark oceniający zdolność agentów AI do wykrywania, naprawiania i eksploatowania luk w smart contracts Ethereum. Benchmark opiera się na 120 wyselekcjonowanych lukach z 40 audytów (głównie konkursy Code4rena).

TrybOpisGPT-5.3-CodexGPT-5 (6 miesięcy)
ExploitWykonywanie ataków drenażowych72.2%31.9%
DetectAudytowanie i wykrywanie luk< pełne pokrycie-
PatchNaprawianie z zachowaniem funkcjonalności< pełne pokrycie-

Interesujące spostrzeżenie: agenci AI radzą sobie lepiej w eksploatacji (cel jawny) niż w wykrywaniu i naprawianiu, gdzie często poddają się po znalezieniu pierwszej luce. OpenAI potwierdza swoje zaangażowanie w wysokości $10M w kredytach API na defensywne cyberbezpieczeństwo.

🔗 Ogłoszenie EVMbench


GLM-5 Technical Report: Z.ai dokumentuje swój model

18 lutego — Z.ai publikuje pełny raport techniczny GLM-5, szczegółowo opisujący innowacje architektoniczne modelu uruchomionego 11 lutego (744B parametrów, 40B aktywnych, licencja MIT).

Trzy kluczowe udokumentowane innowacje: Dynamic Sparse Attention (DSA) w celu zmniejszenia kosztów treningu i inferencji, asynchroniczna infrastruktura RL oddzielająca generowanie od treningu oraz algorytmy RL dla agentów umożliwiające złożone interakcje w długim horyzoncie czasowym. Raport jest dostępny na arXiv.

🔗 Tweet @Zai_org · 🔗 arXiv


Cohere Labs Tiny Aya: ultrakompaktowe wielojęzyczne AI

17 lutego — Cohere Labs prezentuje Tiny Aya, rodzinę małych modeli językowych obsługujących 70+ języków przy zaledwie 3.35 miliarda parametrów. Cel: uczynienie wielojęzycznego AI dostępnym wszędzie, w tym na telefonach i offline.

Tiny Aya celuje w trzy grupy odbiorców: badaczy pracujących w językach nieangielskich, deweloperów tworzących dla społeczności cyfrowo niedostatecznie obsłużonych oraz aplikacje wbudowane wymagające niezawodnego tłumaczenia bez zależności od chmury. Model zawiera funkcję tłumaczenia offline, poprawiając prywatność i zmniejszając opóźnienia.

🔗 Tweet @cohere


Runway Gen-4.5 dostępne przez API + Claude Code Skill

17 lutego — Runway otwiera dostęp do Gen-4.5 przez swoje API, umożliwiając deweloperom integrację generowania obrazów, wideo i audio bezpośrednio w ich projektach. Ogłoszeniu towarzyszy dedykowany Claude Code Skill, dostępny na GitHub, który pozwala na generowanie multimediów Runway bez opuszczania środowiska programistycznego.

🔗 Tweet @runwayml · 🔗 GitHub Skills


Manus Agents: osobisty agent z pamięcią długoterminową

16 lutego — Manus uruchamia Manus Agents, funkcję umożliwiającą każdemu użytkownikowi posiadanie osobistego agenta bezpośrednio w rozmowach na czacie. Agent łączy pamięć długoterminową (zapamiętywanie stylu, tonu i preferencji), pełne możliwości tworzenia (wideo, slajdy, strony internetowe, obrazy) oraz bezpośrednie integracje z Gmail, Calendar i Notion.

🔗 Tweet @ManusAI


ElevenAgents for Support

17 lutego — ElevenLabs uruchamia ElevenAgents for Support, konwersacyjne agenty AI do obsługi klienta. Działając głosowo i na kanałach cyfrowych w ponad 70 językach, agenty te opierają się na platformie agentic ElevenLabs i jej ponad 4 milionach wdrożeń produkcyjnych.

🔗 ElevenLabs Agents


NotebookLM x Zillow: notatnik nieruchomości

18 lutego — NotebookLM uruchamia we współpracy z Zillow darmowy Featured Notebook dla kupujących domy, centralizujący porady ekspertów dotyczące przygotowania finansowego, oceny rynku i procedur zakupu.

🔗 Tweet @NotebookLM


Co to oznacza

Ten tydzień ilustruje dwa główne trendy. Pierwszym jest demokratyzacja wydajności frontier: Sonnet 4.6 przynosi możliwości Opus w cenie 5 razy niższej, podczas gdy Qwen3.5 udostępnia model o 397B parametrach na licencji Apache 2.0. Drugim jest ekspansja agentów AI na nowe dziedziny — badanie Anthropic pokazuje, że najdłuższe sesje autonomiczne podwoiły się w ciągu trzech miesięcy, a gracze tacy jak Manus, ElevenLabs i Runway budują wyspecjalizowanych agentów (osobisty czat, obsługa klienta, tworzenie multimediów).

Nadejście generowania muzyki w Gemini z Lyria 3 oraz benchmark EVMbench dla bezpieczeństwa blockchain pokazują również, że generatywne AI i AI bezpieczeństwa nadal strukturyzują się jako odrębne dziedziny.


Źródła