Sök

MiniMax M2.5 når 80% i SWE-Bench som open-source, Kling 3.0 förvandlar AI-video, Perplexity lanserar Model Council

MiniMax M2.5 når 80% i SWE-Bench som open-source, Kling 3.0 förvandlar AI-video, Perplexity lanserar Model Council

MiniMax släpper M2.5, en open-source frontier-modell som når 80.2% i SWE-Bench Verified. Kling lanserar sin 3.0-modell med 1080p video och realistisk dialog. Inom forskning rullar Perplexity ut Model Council för att köra tre modeller samtidigt, och kör Deep Research på Claude Opus 4.6. Mistral tillkännager sitt största globala hackathon med $200K i priser.


MiniMax M2.5 — open-source frontier-modell

12 februari — MiniMax tillkännager M2.5, en open-source frontier-modell designad för verklig produktivitet. Modellen uppvisar state-of-the-art-prestanda inom fyra kritiska områden: kodning, web search, agentic tool calls och kontorsarbete.

BenchmarkPoängKategori
SWE-Bench Verified80.2%Lösning av verkliga buggar
BrowseComp76.3%Webbsökning och navigering
BFCL76.8%Agentic tool calls
Office WorkOptimeradDokumentproduktivitet

Poängen på 80.2% i SWE-Bench Verified placerar M2.5 bland de bästa kodningsmodellerna i alla kategorier. På BrowseComp, OpenAI:s webbnavigeringsbenchmark, når den 76.3% — ett tecken på solid autonom sökkapacitet.

MiniMax hävdar en exekvering som är 37% snabbare på komplexa uppgifter jämfört med konkurrerande modeller, till en kostnad av $1 USD per timme vid 100 tokens/sekund. Det uttalade målet: att göra skalning av long-horizon-agenter ekonomiskt hållbar.

Modellen är tillgänglig via MiniMax Agent (agent.minimax.io) och utvecklar-API:et (platform.minimax.io). Som en open-source frontier-modell positionerar sig M2.5 direkt mot ledande proprietära modeller.

🔗 Tillkännagivande MiniMax M2.5


MiniMax Forge — RL-ramverk för produktionsagenter

12 februari — Parallellt med M2.5 släpper MiniMax Forge, ett skalbart ramverk och algoritm för reinforcement learning (RL) för att träna AI-agenter för produktion.

Forge adresserar ett återkommande problem vid träning av agenter: instabiliteten i lärande i stor skala. Ramverket föreslår en optimerad metod för reward modeling av agenter, riktad till ML-utvecklare och forskare som driftsätter autonoma agenter.

Det dubbla tillkännagivandet M2.5 + Forge signalerar MiniMax ambition att erbjuda en komplett stack för AI-agenter: frontier-modell + träningsramverk.

🔗 Forge på MiniMax News


Kling 3.0 — « Everyone a Director »

1 februari — Kling AI lanserar sin 3.0-modell, en stor uppdatering av sin videogenereringsmotor positionerad kring konceptet « Everyone a Director ». Modellen syftar till att göra filmskapande tillgängligt utan teknisk expertis.

De huvudsakliga förbättringarna gäller visuell kvalitet och realism i mänskliga interaktioner:

KapacitetDetalj
Upplösning1080p native
DialogRealistiska ansiktsuttryck och gester
KoherensVisuell stil bibehållen över långa sekvenser
FlexibilitetFrån enkel prompt till fullständig filmisk storyboard

Feedback från den kreativa gemenskapen är positiv, särskilt gällande realismen i dialoger och förmågan att producera scener med övertygande mänskliga interaktioner — en historisk svaghet hos AI-videomodeller.

🔗 Tillkännagivande Kling 3.0


5 februari — Perplexity rullar ut Model Council, en funktion som kör samma fråga på tre frontier-modeller samtidigt och producerar ett enda syntetiserat svar.

Istället för att manuellt växla mellan modeller, kör Model Council frågan parallellt på Claude Opus 4.6, GPT 5.2 och Gemini 3.0. En syntetiseringsmodell analyserar resultaten, löser konflikter mellan svaren och visar var modellerna konvergerar eller divergerar.

AnvändningsfallDetalj
InvesteringBalanserade perspektiv på marknader
Komplexa beslutAffärsstrategi, stora inköp
BrainstormingDiversifierade kreativa idéer
VerifieringValidera information med ökat förtroende

Funktionen är tillgänglig omedelbart på webben för Perplexity Max-prenumeranter. Mobilversionen är under utveckling.

🔗 Introducing Model Council


Perplexity Deep Research går till Opus 4.6

9 februari — Perplexity meddelar att Deep Research nu körs på Claude Opus 4.6, vilket förbättrar state-of-the-art-resultat på interna och externa benchmarks. Uppgraderingen stärker resonemangsförmågan i djupgående forskning.

Funktionen är tillgänglig omedelbart för Max-användare, med en gradvis utrullning till Pro-användare.

🔗 Tillkännagivande Deep Research Opus 4.6


Perplexity publicerar DRACO Benchmark som open-source

4 februari — Perplexity offentliggör DRACO, ett open-source benchmark designat för att utvärdera verktyg för djupgående forskning (Deep Research). Rubriker och fullständig metodik är tillgängliga offentligt.

DRACO validerar att Perplexity Deep Research når state-of-the-art-prestanda på externa benchmarks, och överträffar andra verktyg för djupgående forskning i precision och tillförlitlighet.

🔗 Tillkännagivande DRACO


Mistral tillkännager sitt största hackathon — $200K i priser

10 februari — Mistral AI lanserar sitt största globala hackathon någonsin, planerat från 28 februari till 1 mars 2026.

DetaljInformation
Format48 timmar
PlatserParis, London, New York, San Francisco, Tokyo, Singapore, Sydney + online
Priser$200K i belöningar
PartnersNVIDIA, AWS, Weights & Biases, Hugging Face
SpecialpriserElevenLabs, Hugging Face

Evenemanget äger rum samtidigt i 8 städer och online. Listan över partners (NVIDIA, AWS, WandB, Hugging Face) signalerar förtroendet från det stora AI-ekosystemet för Mistral-plattformen.

🔗 Tillkännagivande Mistral Hackathon


Cohere skriver kontrakt med Magnus Carlsen som ambassadör

13 februari — Cohere tillkännager ett partnerskap med Magnus Carlsen, femfaldig världsmästare i schack och världsetta, som global varumärkesambassadör.

Carlsen kommer att delta i synlighetskampanjer, thought leadership-initiativ och högprofilerade evenemang för Cohere. Partnerskapet syftar till att illustrera parallellerna mellan strategi i schack och Coheres inställning till Enterprise AI: fokus på grunderna, anticipering och hållbara fördelar.

🔗 Tillkännagivande Cohere + Magnus Carlsen


I korthet

12 februariRunway lanserar Story Panels, ett nytt workflow som gör det möjligt att skapa fullständiga filmer eller reklamfilmer från en enda bild, med koherens i karaktärer, platser och stil.

🔗 Runway Story Panels

12-13 februariMooncake, en PyTorch-minnesallokator samutvecklad av Moonshot AI (Kimi) och Tsinghua University, ansluter sig till PyTorch-ekosystemet. Verktyget optimerar minskning av minnesspikar och fragmentering, relevant för driftsättning av long-context LLM.

🔗 Tillkännagivande Mooncake

9 februariIdeogram lyfter fram sin bildredigering via prompt i naturligt språk, vilket möjliggör modifiering av genererade bilder via enkla textinstruktioner.

30 januariPerplexity integrerar Kimi K2.5, open-source resonemangsmodellen från Moonshot AI, för sina Pro- och Max-prenumeranter. Inferensen körs på Perplexitys egen infrastruktur i USA.

4 februariMiniMax och Hyperbond Studio tillkännager ett partnerskap för att utveckla konversationella AI-kompanjoner med « Call Me Sensei », med användning av LLM och agent-API:er från MiniMax.


Vad detta innebär

Första halvan av februari 2026 bekräftar flera grundläggande trender. MiniMax M2.5 bevisar att en mindre omtalad aktör kan publicera en open-source-modell som konkurrerar med ledarna på kodningsbenchmarks — 80.2% i SWE-Bench Verified är en anmärkningsvärd poäng för en öppen modell. Med Forge som komplement erbjuder MiniMax en komplett agent-stack.

Perplexity accelererar sin differentiering med Model Council, ett pragmatiskt tillvägagångssätt som erkänner att ingen enskild modell dominerar alla användningsfall. Integrationen av Opus 4.6 i Deep Research och publiceringen av DRACO som open-source stärker plattformens transparens och trovärdighet.

Kling 3.0 markerar ett framsteg inom videogenerering med realistiska dialoger — ett steg mot tillgängliga filmiska produktionsverktyg. På gemenskapssidan visar Mistral-hackathonet med $200K i 8 städer mognaden hos det europeiska open-source-ekosystemet.


Källor