MiniMax publikuje M2.5, model frontier open-source, który osiąga 80.2% w SWE-Bench Verified. Kling uruchamia swój model 3.0 z wideo 1080p i realistycznymi dialogami. W dziedzinie badań, Perplexity wdraża Model Council, aby uruchamiać trzy modele jednocześnie, i uruchamia Deep Research na Claude Opus 4.6. Mistral ogłasza swój największy światowy hackathon z pulą nagród 200 tys. USD.
MiniMax M2.5 — model frontier open-source
12 lutego — MiniMax ogłasza M2.5, model frontier open-source zaprojektowany dla rzeczywistej produktywności. Model wykazuje wyniki state-of-the-art w czterech kluczowych obszarach: kodowanie, wyszukiwanie w sieci, wywołania narzędzi agentic i praca biurowa.
| Benchmark | Wynik | Kategoria |
|---|---|---|
| SWE-Bench Verified | 80.2% | Rozwiązywanie rzeczywistych błędów |
| BrowseComp | 76.3% | Wyszukiwanie i nawigacja w sieci |
| BFCL | 76.8% | Wywołania narzędzi agentic |
| Office Work | Zoptymalizowany | Produktywność dokumentowa |
Wynik 80.2% w SWE-Bench Verified stawia M2.5 wśród najlepszych modeli kodujących we wszystkich kategoriach. W BrowseComp, benchmarku nawigacji internetowej OpenAI, osiąga 76.3% — co świadczy o solidnej zdolności autonomicznego wyszukiwania.
MiniMax deklaruje wykonanie 37% szybsze w złożonych zadaniach w porównaniu do konkurencyjnych modeli, przy koszcie 1 USD za godzinę przy 100 tokenach/sekundę. Deklarowany cel: uczynienie skalowania agentów long-horizon ekonomicznie opłacalnym.
Model jest dostępny przez MiniMax Agent (agent.minimax.io) oraz API deweloperskie (platform.minimax.io). Jako model frontier open-source, M2.5 pozycjonuje się bezpośrednio naprzeciw wiodących modeli własnościowych.
MiniMax Forge — framework RL dla agentów produkcyjnych
12 lutego — Równolegle z M2.5, MiniMax publikuje Forge, skalowalny framework i algorytm uczenia ze wzmocnieniem (RL) do trenowania agentów AI produkcyjnych.
Forge rozwiązuje powracający problem w trenowaniu agentów: niestabilność uczenia na dużą skalę. Framework proponuje zoptymalizowane podejście do reward modeling agentów, skierowane do deweloperów i badaczy ML, którzy wdrażają autonomicznych agentów.
Podwójne ogłoszenie M2.5 + Forge sygnalizuje ambicję MiniMax, aby oferować kompletny stos dla agentów AI: model frontier + framework treningowy.
Kling 3.0 — « Everyone a Director »
1 lutego — Kling AI uruchamia swój model 3.0, dużą aktualizację swojego silnika generowania wideo pozycjonowaną wokół koncepcji « Everyone a Director ». Model ma na celu uczynienie twórczości filmowej dostępną bez wiedzy technicznej.
Główne ulepszenia dotyczą jakości wizualnej i realizmu interakcji ludzkich:
| Możliwość | Szczegół |
|---|---|
| Rozdzielczość | 1080p natywna |
| Dialog | Realistyczna mimika i gestykulacja |
| Spójność | Styl wizualny zachowany w długich sekwencjach |
| Elastyczność | Od prostego promptu do pełnego storyboardu filmowego |
Opinie społeczności twórczej są pozytywne, zwłaszcza w kwestii realizmu dialogów i zdolności do tworzenia scen z przekonującymi interakcjami ludzkimi — co jest historycznie słabym punktem modeli wideo AI.
Perplexity uruchamia Model Council — wyszukiwanie multi-model
5 lutego — Perplexity wdraża Model Council, funkcję, która wykonuje to samo zapytanie na trzech modelach frontier jednocześnie i generuje jedną zsyntetyzowaną odpowiedź.
Zamiast ręcznego przełączania między modelami, Model Council uruchamia zapytanie równolegle na Claude Opus 4.6, GPT 5.2 i Gemini 3.0. Model syntezujący analizuje wyniki, rozwiązuje konflikty między odpowiedziami i pokazuje, gdzie modele są zgodne lub rozbieżne.
| Przypadek użycia | Szczegół |
|---|---|
| Inwestycje | Zrównoważone perspektywy rynkowe |
| Złożone decyzje | Strategia biznesowa, duże zakupy |
| Burza mózgów | Zróżnicowane pomysły kreatywne |
| Weryfikacja | Walidacja informacji z większą pewnością |
Funkcja jest dostępna natychmiast w sieci dla abonentów Perplexity Max. Wersja mobilna jest w trakcie rozwoju.
Perplexity Deep Research przechodzi na Opus 4.6
9 lutego — Perplexity ogłasza, że Deep Research działa teraz na Claude Opus 4.6, poprawiając wyniki state-of-the-art w wewnętrznych i zewnętrznych benchmarkach. Aktualizacja wzmacnia zdolności rozumowania w badaniach pogłębionych.
Funkcja jest dostępna natychmiast dla użytkowników Max, ze stopniowym wdrażaniem dla użytkowników Pro.
🔗 Ogłoszenie Deep Research Opus 4.6
Perplexity publikuje DRACO Benchmark jako open-source
4 lutego — Perplexity udostępnia DRACO, benchmark open-source zaprojektowany do oceny narzędzi głębokiego wyszukiwania (Deep Research). Rubryki i pełna metodologia są publicznie dostępne.
DRACO potwierdza, że Perplexity Deep Research osiąga wyniki state-of-the-art w zewnętrznych benchmarkach, przewyższając inne narzędzia głębokiego wyszukiwania pod względem dokładności i niezawodności.
Mistral ogłasza swój największy hackathon — 200 tys. USD nagród
10 lutego — Mistral AI uruchamia swój największy światowy hackathon w historii, zaplanowany od 28 lutego do 1 marca 2026.
| Szczegół | Informacja |
|---|---|
| Format | 48 godzin |
| Lokalizacje | Paryż, Londyn, Nowy Jork, San Francisco, Tokio, Singapur, Sydney + online |
| Nagrody | 200 tys. USD w nagrodach |
| Partnerzy | NVIDIA, AWS, Weights & Biases, Hugging Face |
| Nagrody specjalne | ElevenLabs, Hugging Face |
Wydarzenie odbywa się jednocześnie w 8 miastach i online. Lista partnerów (NVIDIA, AWS, WandB, Hugging Face) sygnalizuje zaufanie głównego ekosystemu AI do platformy Mistral.
🔗 Ogłoszenie Mistral Hackathon
Cohere podpisuje umowę z Magnusem Carlsenem jako ambasadorem
13 lutego — Cohere ogłasza partnerstwo z Magnus Carlsen, pięciokrotnym Mistrzem Świata w szachach i numerem 1 na świecie, jako globalnym ambasadorem marki.
Carlsen weźmie udział w kampaniach wizerunkowych, inicjatywach thought leadership i wydarzeniach wysokiego profilu Cohere. Partnerstwo ma na celu zilustrowanie analogii między strategią w szachach a podejściem Cohere do Enterprise AI: skupienie na fundamentach, przewidywanie i trwałe przewagi.
🔗 Ogłoszenie Cohere + Magnus Carlsen
W skrócie
12 lutego — Runway uruchamia Story Panels, nowy workflow umożliwiający tworzenie pełnych filmów lub reklam z jednego obrazu, ze spójnością postaci, lokalizacji i stylu.
12-13 lutego — Mooncake, alokator pamięci PyTorch współtworzony przez Moonshot AI (Kimi) i Uniwersytet Tsinghua, dołącza do ekosystemu PyTorch. Narzędzie optymalizuje redukcję szczytów pamięci i fragmentację, co jest istotne dla wdrażania LLM long-context.
9 lutego — Ideogram promuje edycję obrazów za pomocą promptu w języku naturalnym, umożliwiając modyfikację wygenerowanych obrazów za pomocą prostych instrukcji tekstowych.
30 stycznia — Perplexity integruje Kimi K2.5, model rozumowania open-source od Moonshot AI, dla swoich abonentów Pro i Max. Inferencja działa na własnej infrastrukturze Perplexity w Stanach Zjednoczonych.
4 lutego — MiniMax i Hyperbond Studio ogłaszają partnerstwo w celu tworzenia konwersacyjnych towarzyszy AI z « Call Me Sensei », wykorzystując LLM i API agentów MiniMax.
Co to oznacza
Pierwsza połowa lutego 2026 potwierdza kilka kluczowych trendów. MiniMax M2.5 udowadnia, że mniej nagłośniony gracz może opublikować model open-source rywalizujący z liderami w benchmarkach kodowania — 80.2% w SWE-Bench Verified to wybitny wynik dla modelu otwartego. Wraz z Forge jako uzupełnieniem, MiniMax oferuje kompletny stos agentów.
Perplexity przyspiesza swoje różnicowanie dzięki Model Council, pragmatycznemu podejściu, które uznaje, że żaden pojedynczy model nie dominuje we wszystkich przypadkach użycia. Integracja Opus 4.6 w Deep Research i publikacja DRACO jako open-source wzmacniają przejrzystość i wiarygodność platformy.
Kling 3.0 oznacza postęp w generowaniu wideo z realistycznymi dialogami — krok w stronę dostępnych narzędzi produkcji filmowej. Od strony społeczności, hackathon Mistral z pulą 200 tys. USD w 8 miastach pokazuje dojrzałość europejskiego ekosystemu open-source.