MiniMax M2.5 osiąga 80% w SWE-Bench jako open-source, Kling 3.0 zmienia wideo AI, Perplexity uruchamia Model Council

MiniMax publikuje M2.5, model frontier open-source, który osiąga 80.2% w SWE-Bench Verified. Kling uruchamia swój model 3.0 z wideo 1080p i realistycznymi dialogami. W dziedzinie badań, Perplexity wdraża Model Council, aby uruchamiać trzy modele jednocześnie, i uruchamia Deep Research na Claude Opus 4.6. Mistral ogłasza swój największy światowy hackathon z pulą nagród 200 tys. USD.

MiniMax M2.5 — model frontier open-source

12 lutego — MiniMax ogłasza M2.5, model frontier open-source zaprojektowany dla rzeczywistej produktywności. Model wykazuje wyniki state-of-the-art w czterech kluczowych obszarach: kodowanie, wyszukiwanie w sieci, wywołania narzędzi agentic i praca biurowa.

Benchmark	Wynik	Kategoria
SWE-Bench Verified	80.2%	Rozwiązywanie rzeczywistych błędów
BrowseComp	76.3%	Wyszukiwanie i nawigacja w sieci
BFCL	76.8%	Wywołania narzędzi agentic
Office Work	Zoptymalizowany	Produktywność dokumentowa

Wynik 80.2% w SWE-Bench Verified stawia M2.5 wśród najlepszych modeli kodujących we wszystkich kategoriach. W BrowseComp, benchmarku nawigacji internetowej OpenAI, osiąga 76.3% — co świadczy o solidnej zdolności autonomicznego wyszukiwania.

MiniMax deklaruje wykonanie 37% szybsze w złożonych zadaniach w porównaniu do konkurencyjnych modeli, przy koszcie 1 USD za godzinę przy 100 tokenach/sekundę. Deklarowany cel: uczynienie skalowania agentów long-horizon ekonomicznie opłacalnym.

Model jest dostępny przez MiniMax Agent (agent.minimax.io) oraz API deweloperskie (platform.minimax.io). Jako model frontier open-source, M2.5 pozycjonuje się bezpośrednio naprzeciw wiodących modeli własnościowych.

🔗 Ogłoszenie MiniMax M2.5

MiniMax Forge — framework RL dla agentów produkcyjnych

12 lutego — Równolegle z M2.5, MiniMax publikuje Forge, skalowalny framework i algorytm uczenia ze wzmocnieniem (RL) do trenowania agentów AI produkcyjnych.

Forge rozwiązuje powracający problem w trenowaniu agentów: niestabilność uczenia na dużą skalę. Framework proponuje zoptymalizowane podejście do reward modeling agentów, skierowane do deweloperów i badaczy ML, którzy wdrażają autonomicznych agentów.

Podwójne ogłoszenie M2.5 + Forge sygnalizuje ambicję MiniMax, aby oferować kompletny stos dla agentów AI: model frontier + framework treningowy.

🔗 Forge w MiniMax News

Kling 3.0 — « Everyone a Director »

1 lutego — Kling AI uruchamia swój model 3.0, dużą aktualizację swojego silnika generowania wideo pozycjonowaną wokół koncepcji « Everyone a Director ». Model ma na celu uczynienie twórczości filmowej dostępną bez wiedzy technicznej.

Główne ulepszenia dotyczą jakości wizualnej i realizmu interakcji ludzkich:

Możliwość	Szczegół
Rozdzielczość	1080p natywna
Dialog	Realistyczna mimika i gestykulacja
Spójność	Styl wizualny zachowany w długich sekwencjach
Elastyczność	Od prostego promptu do pełnego storyboardu filmowego

Opinie społeczności twórczej są pozytywne, zwłaszcza w kwestii realizmu dialogów i zdolności do tworzenia scen z przekonującymi interakcjami ludzkimi — co jest historycznie słabym punktem modeli wideo AI.

🔗 Ogłoszenie Kling 3.0

Perplexity uruchamia Model Council — wyszukiwanie multi-model

5 lutego — Perplexity wdraża Model Council, funkcję, która wykonuje to samo zapytanie na trzech modelach frontier jednocześnie i generuje jedną zsyntetyzowaną odpowiedź.

Zamiast ręcznego przełączania między modelami, Model Council uruchamia zapytanie równolegle na Claude Opus 4.6, GPT 5.2 i Gemini 3.0. Model syntezujący analizuje wyniki, rozwiązuje konflikty między odpowiedziami i pokazuje, gdzie modele są zgodne lub rozbieżne.

Przypadek użycia	Szczegół
Inwestycje	Zrównoważone perspektywy rynkowe
Złożone decyzje	Strategia biznesowa, duże zakupy
Burza mózgów	Zróżnicowane pomysły kreatywne
Weryfikacja	Walidacja informacji z większą pewnością

Funkcja jest dostępna natychmiast w sieci dla abonentów Perplexity Max. Wersja mobilna jest w trakcie rozwoju.

🔗 Introducing Model Council

Perplexity Deep Research przechodzi na Opus 4.6

9 lutego — Perplexity ogłasza, że Deep Research działa teraz na Claude Opus 4.6, poprawiając wyniki state-of-the-art w wewnętrznych i zewnętrznych benchmarkach. Aktualizacja wzmacnia zdolności rozumowania w badaniach pogłębionych.

Funkcja jest dostępna natychmiast dla użytkowników Max, ze stopniowym wdrażaniem dla użytkowników Pro.

🔗 Ogłoszenie Deep Research Opus 4.6

Perplexity publikuje DRACO Benchmark jako open-source

4 lutego — Perplexity udostępnia DRACO, benchmark open-source zaprojektowany do oceny narzędzi głębokiego wyszukiwania (Deep Research). Rubryki i pełna metodologia są publicznie dostępne.

DRACO potwierdza, że Perplexity Deep Research osiąga wyniki state-of-the-art w zewnętrznych benchmarkach, przewyższając inne narzędzia głębokiego wyszukiwania pod względem dokładności i niezawodności.

🔗 Ogłoszenie DRACO

Mistral ogłasza swój największy hackathon — 200 tys. USD nagród

10 lutego — Mistral AI uruchamia swój największy światowy hackathon w historii, zaplanowany od 28 lutego do 1 marca 2026.

Szczegół	Informacja
Format	48 godzin
Lokalizacje	Paryż, Londyn, Nowy Jork, San Francisco, Tokio, Singapur, Sydney + online
Nagrody	200 tys. USD w nagrodach
Partnerzy	NVIDIA, AWS, Weights & Biases, Hugging Face
Nagrody specjalne	ElevenLabs, Hugging Face

Wydarzenie odbywa się jednocześnie w 8 miastach i online. Lista partnerów (NVIDIA, AWS, WandB, Hugging Face) sygnalizuje zaufanie głównego ekosystemu AI do platformy Mistral.

🔗 Ogłoszenie Mistral Hackathon

Cohere podpisuje umowę z Magnusem Carlsenem jako ambasadorem

13 lutego — Cohere ogłasza partnerstwo z Magnus Carlsen, pięciokrotnym Mistrzem Świata w szachach i numerem 1 na świecie, jako globalnym ambasadorem marki.

Carlsen weźmie udział w kampaniach wizerunkowych, inicjatywach thought leadership i wydarzeniach wysokiego profilu Cohere. Partnerstwo ma na celu zilustrowanie analogii między strategią w szachach a podejściem Cohere do Enterprise AI: skupienie na fundamentach, przewidywanie i trwałe przewagi.

🔗 Ogłoszenie Cohere + Magnus Carlsen

W skrócie

12 lutego — Runway uruchamia Story Panels, nowy workflow umożliwiający tworzenie pełnych filmów lub reklam z jednego obrazu, ze spójnością postaci, lokalizacji i stylu.

🔗 Runway Story Panels

12-13 lutego — Mooncake, alokator pamięci PyTorch współtworzony przez Moonshot AI (Kimi) i Uniwersytet Tsinghua, dołącza do ekosystemu PyTorch. Narzędzie optymalizuje redukcję szczytów pamięci i fragmentację, co jest istotne dla wdrażania LLM long-context.

🔗 Ogłoszenie Mooncake

9 lutego — Ideogram promuje edycję obrazów za pomocą promptu w języku naturalnym, umożliwiając modyfikację wygenerowanych obrazów za pomocą prostych instrukcji tekstowych.

30 stycznia — Perplexity integruje Kimi K2.5, model rozumowania open-source od Moonshot AI, dla swoich abonentów Pro i Max. Inferencja działa na własnej infrastrukturze Perplexity w Stanach Zjednoczonych.

4 lutego — MiniMax i Hyperbond Studio ogłaszają partnerstwo w celu tworzenia konwersacyjnych towarzyszy AI z « Call Me Sensei », wykorzystując LLM i API agentów MiniMax.

Co to oznacza

Pierwsza połowa lutego 2026 potwierdza kilka kluczowych trendów. MiniMax M2.5 udowadnia, że mniej nagłośniony gracz może opublikować model open-source rywalizujący z liderami w benchmarkach kodowania — 80.2% w SWE-Bench Verified to wybitny wynik dla modelu otwartego. Wraz z Forge jako uzupełnieniem, MiniMax oferuje kompletny stos agentów.

Perplexity przyspiesza swoje różnicowanie dzięki Model Council, pragmatycznemu podejściu, które uznaje, że żaden pojedynczy model nie dominuje we wszystkich przypadkach użycia. Integracja Opus 4.6 w Deep Research i publikacja DRACO jako open-source wzmacniają przejrzystość i wiarygodność platformy.

Kling 3.0 oznacza postęp w generowaniu wideo z realistycznymi dialogami — krok w stronę dostępnych narzędzi produkcji filmowej. Od strony społeczności, hackathon Mistral z pulą 200 tys. USD w 8 miastach pokazuje dojrzałość europejskiego ekosystemu open-source.