MiniMax M2.5 når 80% i SWE-Bench som open-source, Kling 3.0 förvandlar AI-video, Perplexity lanserar Model Council

MiniMax släpper M2.5, en open-source frontier-modell som når 80.2% i SWE-Bench Verified. Kling lanserar sin 3.0-modell med 1080p video och realistisk dialog. Inom forskning rullar Perplexity ut Model Council för att köra tre modeller samtidigt, och kör Deep Research på Claude Opus 4.6. Mistral tillkännager sitt största globala hackathon med $200K i priser.

MiniMax M2.5 — open-source frontier-modell

12 februari — MiniMax tillkännager M2.5, en open-source frontier-modell designad för verklig produktivitet. Modellen uppvisar state-of-the-art-prestanda inom fyra kritiska områden: kodning, web search, agentic tool calls och kontorsarbete.

Benchmark	Poäng	Kategori
SWE-Bench Verified	80.2%	Lösning av verkliga buggar
BrowseComp	76.3%	Webbsökning och navigering
BFCL	76.8%	Agentic tool calls
Office Work	Optimerad	Dokumentproduktivitet

Poängen på 80.2% i SWE-Bench Verified placerar M2.5 bland de bästa kodningsmodellerna i alla kategorier. På BrowseComp, OpenAI:s webbnavigeringsbenchmark, når den 76.3% — ett tecken på solid autonom sökkapacitet.

MiniMax hävdar en exekvering som är 37% snabbare på komplexa uppgifter jämfört med konkurrerande modeller, till en kostnad av $1 USD per timme vid 100 tokens/sekund. Det uttalade målet: att göra skalning av long-horizon-agenter ekonomiskt hållbar.

Modellen är tillgänglig via MiniMax Agent (agent.minimax.io) och utvecklar-API:et (platform.minimax.io). Som en open-source frontier-modell positionerar sig M2.5 direkt mot ledande proprietära modeller.

🔗 Tillkännagivande MiniMax M2.5

MiniMax Forge — RL-ramverk för produktionsagenter

12 februari — Parallellt med M2.5 släpper MiniMax Forge, ett skalbart ramverk och algoritm för reinforcement learning (RL) för att träna AI-agenter för produktion.

Forge adresserar ett återkommande problem vid träning av agenter: instabiliteten i lärande i stor skala. Ramverket föreslår en optimerad metod för reward modeling av agenter, riktad till ML-utvecklare och forskare som driftsätter autonoma agenter.

Det dubbla tillkännagivandet M2.5 + Forge signalerar MiniMax ambition att erbjuda en komplett stack för AI-agenter: frontier-modell + träningsramverk.

🔗 Forge på MiniMax News

Kling 3.0 — « Everyone a Director »

1 februari — Kling AI lanserar sin 3.0-modell, en stor uppdatering av sin videogenereringsmotor positionerad kring konceptet « Everyone a Director ». Modellen syftar till att göra filmskapande tillgängligt utan teknisk expertis.

De huvudsakliga förbättringarna gäller visuell kvalitet och realism i mänskliga interaktioner:

Kapacitet	Detalj
Upplösning	1080p native
Dialog	Realistiska ansiktsuttryck och gester
Koherens	Visuell stil bibehållen över långa sekvenser
Flexibilitet	Från enkel prompt till fullständig filmisk storyboard

Feedback från den kreativa gemenskapen är positiv, särskilt gällande realismen i dialoger och förmågan att producera scener med övertygande mänskliga interaktioner — en historisk svaghet hos AI-videomodeller.

🔗 Tillkännagivande Kling 3.0

Perplexity lanserar Model Council — multi-model search

5 februari — Perplexity rullar ut Model Council, en funktion som kör samma fråga på tre frontier-modeller samtidigt och producerar ett enda syntetiserat svar.

Istället för att manuellt växla mellan modeller, kör Model Council frågan parallellt på Claude Opus 4.6, GPT 5.2 och Gemini 3.0. En syntetiseringsmodell analyserar resultaten, löser konflikter mellan svaren och visar var modellerna konvergerar eller divergerar.

Användningsfall	Detalj
Investering	Balanserade perspektiv på marknader
Komplexa beslut	Affärsstrategi, stora inköp
Brainstorming	Diversifierade kreativa idéer
Verifiering	Validera information med ökat förtroende

Funktionen är tillgänglig omedelbart på webben för Perplexity Max-prenumeranter. Mobilversionen är under utveckling.

🔗 Introducing Model Council

Perplexity Deep Research går till Opus 4.6

9 februari — Perplexity meddelar att Deep Research nu körs på Claude Opus 4.6, vilket förbättrar state-of-the-art-resultat på interna och externa benchmarks. Uppgraderingen stärker resonemangsförmågan i djupgående forskning.

Funktionen är tillgänglig omedelbart för Max-användare, med en gradvis utrullning till Pro-användare.

🔗 Tillkännagivande Deep Research Opus 4.6

Perplexity publicerar DRACO Benchmark som open-source

4 februari — Perplexity offentliggör DRACO, ett open-source benchmark designat för att utvärdera verktyg för djupgående forskning (Deep Research). Rubriker och fullständig metodik är tillgängliga offentligt.

DRACO validerar att Perplexity Deep Research når state-of-the-art-prestanda på externa benchmarks, och överträffar andra verktyg för djupgående forskning i precision och tillförlitlighet.

🔗 Tillkännagivande DRACO

Mistral tillkännager sitt största hackathon — $200K i priser

10 februari — Mistral AI lanserar sitt största globala hackathon någonsin, planerat från 28 februari till 1 mars 2026.

Detalj	Information
Format	48 timmar
Platser	Paris, London, New York, San Francisco, Tokyo, Singapore, Sydney + online
Priser	$200K i belöningar
Partners	NVIDIA, AWS, Weights & Biases, Hugging Face
Specialpriser	ElevenLabs, Hugging Face

Evenemanget äger rum samtidigt i 8 städer och online. Listan över partners (NVIDIA, AWS, WandB, Hugging Face) signalerar förtroendet från det stora AI-ekosystemet för Mistral-plattformen.

🔗 Tillkännagivande Mistral Hackathon

Cohere skriver kontrakt med Magnus Carlsen som ambassadör

13 februari — Cohere tillkännager ett partnerskap med Magnus Carlsen, femfaldig världsmästare i schack och världsetta, som global varumärkesambassadör.

Carlsen kommer att delta i synlighetskampanjer, thought leadership-initiativ och högprofilerade evenemang för Cohere. Partnerskapet syftar till att illustrera parallellerna mellan strategi i schack och Coheres inställning till Enterprise AI: fokus på grunderna, anticipering och hållbara fördelar.

🔗 Tillkännagivande Cohere + Magnus Carlsen

I korthet

12 februari — Runway lanserar Story Panels, ett nytt workflow som gör det möjligt att skapa fullständiga filmer eller reklamfilmer från en enda bild, med koherens i karaktärer, platser och stil.

🔗 Runway Story Panels

12-13 februari — Mooncake, en PyTorch-minnesallokator samutvecklad av Moonshot AI (Kimi) och Tsinghua University, ansluter sig till PyTorch-ekosystemet. Verktyget optimerar minskning av minnesspikar och fragmentering, relevant för driftsättning av long-context LLM.

🔗 Tillkännagivande Mooncake

9 februari — Ideogram lyfter fram sin bildredigering via prompt i naturligt språk, vilket möjliggör modifiering av genererade bilder via enkla textinstruktioner.

30 januari — Perplexity integrerar Kimi K2.5, open-source resonemangsmodellen från Moonshot AI, för sina Pro- och Max-prenumeranter. Inferensen körs på Perplexitys egen infrastruktur i USA.

4 februari — MiniMax och Hyperbond Studio tillkännager ett partnerskap för att utveckla konversationella AI-kompanjoner med « Call Me Sensei », med användning av LLM och agent-API:er från MiniMax.

Vad detta innebär

Första halvan av februari 2026 bekräftar flera grundläggande trender. MiniMax M2.5 bevisar att en mindre omtalad aktör kan publicera en open-source-modell som konkurrerar med ledarna på kodningsbenchmarks — 80.2% i SWE-Bench Verified är en anmärkningsvärd poäng för en öppen modell. Med Forge som komplement erbjuder MiniMax en komplett agent-stack.

Perplexity accelererar sin differentiering med Model Council, ett pragmatiskt tillvägagångssätt som erkänner att ingen enskild modell dominerar alla användningsfall. Integrationen av Opus 4.6 i Deep Research och publiceringen av DRACO som open-source stärker plattformens transparens och trovärdighet.

Kling 3.0 markerar ett framsteg inom videogenerering med realistiska dialoger — ett steg mot tillgängliga filmiska produktionsverktyg. På gemenskapssidan visar Mistral-hackathonet med $200K i 8 städer mognaden hos det europeiska open-source-ekosystemet.