Suchen

MiniMax M2.5 erreicht 80% im SWE-Bench Open-Source, Kling 3.0 transformiert KI-Video, Perplexity startet Model Council

MiniMax M2.5 erreicht 80% im SWE-Bench Open-Source, Kling 3.0 transformiert KI-Video, Perplexity startet Model Council

MiniMax veröffentlicht M2.5, ein Frontier-Open-Source-Modell, das 80,2% im SWE-Bench Verified erreicht. Kling startet sein Modell 3.0 mit 1080p-Video und realistischem Dialog. Im Forschungsbereich führt Perplexity Model Council ein, um drei Modelle gleichzeitig auszuführen, und lässt Deep Research auf Claude Opus 4.6 laufen. Mistral kündigt seinen größten globalen Hackathon mit 200.000 $ an Preisen an.


MiniMax M2.5 — Frontier-Open-Source-Modell

12. Februar — MiniMax kündigt M2.5 an, ein Frontier-Open-Source-Modell, das für reale Produktivität entwickelt wurde. Das Modell zeigt State-of-the-Art-Leistung in vier kritischen Bereichen: Programmierung, Websuche, agentische Tool-Aufrufe und Büroarbeit.

BenchmarkErgebnisKategorie
SWE-Bench Verified80,2%Behebung echter Fehler
BrowseComp76,3%Websuche und Navigation
BFCL76,8%Agentische Tool-Aufrufe
Office WorkOptimiertDokumentenproduktivität

Das Ergebnis von 80,2% im SWE-Bench Verified platziert M2.5 unter den besten Programmiermodellen aller Kategorien. Auf BrowseComp, dem Web-Navigations-Benchmark von OpenAI, erreicht es 76,3% — ein Zeichen für solide autonome Suchfähigkeit.

MiniMax beansprucht eine 37% schnellere Ausführung bei komplexen Aufgaben im Vergleich zu Konkurrenzmodellen, bei Kosten von 1 USD pro Stunde bei 100 Token/Sekunde. Das erklärte Ziel: Die Skalierung von Long-Horizon-Agenten wirtschaftlich rentabel zu machen.

Das Modell ist über MiniMax Agent (agent.minimax.io) und die Entwickler-API (platform.minimax.io) verfügbar. Als Frontier-Open-Source-Modell positioniert sich M2.5 direkt gegen führende proprietäre Modelle.

🔗 Ankündigung MiniMax M2.5


MiniMax Forge — RL-Framework für Produktionsagenten

12. Februar — Parallel zu M2.5 veröffentlicht MiniMax Forge, ein skalierbares Reinforcement Learning (RL) Framework und Algorithmus zum Trainieren von KI-Produktionsagenten.

Forge adressiert ein wiederkehrendes Problem beim Agententraining: die Instabilität des Lernens in großem Maßstab. Das Framework bietet einen optimierten Ansatz für das Reward Modeling von Agenten und richtet sich an ML-Entwickler und Forscher, die autonome Agenten einsetzen.

Die doppelte Ankündigung von M2.5 + Forge signalisiert die Ambition von MiniMax, einen kompletten Stack für KI-Agenten anzubieten: Frontier-Modell + Trainingsframework.

🔗 Forge auf MiniMax News


Kling 3.0 — „Everyone a Director“

1. Februar — Kling AI startet sein Modell 3.0, ein großes Update seiner Videogenerierungs-Engine, das unter dem Konzept „Everyone a Director“ positioniert ist. Das Modell zielt darauf ab, filmisches Schaffen ohne technisches Fachwissen zugänglich zu machen.

Die wichtigsten Verbesserungen betreffen die visuelle Qualität und den Realismus menschlicher Interaktionen:

FähigkeitDetail
AuflösungNative 1080p
DialogRealistische Gesichtsausdrücke und Gesten
KonsistenzVisueller Stil über lange Sequenzen beibehalten
FlexibilitätVom einfachen Prompt zum vollständigen filmischen Storyboard

Das Feedback aus der kreativen Community ist positiv, insbesondere zum Realismus der Dialoge und zur Fähigkeit, Szenen mit überzeugenden menschlichen Interaktionen zu produzieren — ein historischer Schwachpunkt von KI-Videomodellen.

🔗 Ankündigung Kling 3.0


Perplexity startet Model Council — Multi-Modell-Suche

5. Februar — Perplexity führt Model Council ein, eine Funktion, die dieselbe Anfrage auf drei Frontier-Modellen gleichzeitig ausführt und eine einzige synthetisierte Antwort liefert.

Anstatt manuell zwischen Modellen zu wechseln, führt Model Council die Anfrage parallel auf Claude Opus 4.6, GPT 5.2 und Gemini 3.0 aus. Ein Synthesizer-Modell analysiert die Ergebnisse, löst Konflikte zwischen den Antworten und zeigt auf, wo Modelle konvergieren oder divergieren.

AnwendungsfallDetail
InvestitionAusgewogene Marktperspektiven
Komplexe EntscheidungenUnternehmensstrategie, große Anschaffungen
BrainstormingDiversifizierte kreative Ideen
VerifizierungInformationen mit erhöhtem Vertrauen validieren

Die Funktion ist sofort im Web für Perplexity Max-Abonnenten verfügbar. Die mobile Version ist in Entwicklung.

🔗 Introducing Model Council


Perplexity Deep Research wechselt zu Opus 4.6

9. Februar — Perplexity gibt bekannt, dass Deep Research nun auf Claude Opus 4.6 läuft, was die State-of-the-Art-Ergebnisse bei internen und externen Benchmarks verbessert. Das Upgrade stärkt die Argumentationsfähigkeiten in der Tiefenrecherche.

Die Funktion ist sofort für Max-Benutzer verfügbar, mit einer schrittweisen Einführung für Pro-Benutzer.

🔗 Ankündigung Deep Research Opus 4.6


Perplexity veröffentlicht DRACO Benchmark als Open-Source

4. Februar — Perplexity macht DRACO öffentlich, einen Open-Source-Benchmark zur Bewertung von Deep-Research-Tools. Die Rubriken und die vollständige Methodik sind öffentlich zugänglich.

DRACO validiert, dass Perplexity Deep Research State-of-the-Art-Leistung bei externen Benchmarks erzielt und andere Deep-Research-Tools in Genauigkeit und Zuverlässigkeit übertrifft.

🔗 Ankündigung DRACO


Mistral kündigt seinen größten Hackathon an — 200.000 $ an Preisen

10. Februar — Mistral AI startet seinen größten globalen Hackathon, der jemals organisiert wurde, geplant vom 28. Februar bis 1. März 2026.

DetailInformation
Format48 Stunden
StandorteParis, London, New York, San Francisco, Tokio, Singapur, Sydney + online
Preise200.000 $ an Belohnungen
PartnerNVIDIA, AWS, Weights & Biases, Hugging Face
SonderpreiseElevenLabs, Hugging Face

Die Veranstaltung findet gleichzeitig in 8 Städten und online. Die Liste der Partner (NVIDIA, AWS, WandB, Hugging Face) signalisiert das Vertrauen des großen KI-Ökosystems in die Mistral-Plattform.

🔗 Ankündigung Mistral Hackathon


Cohere nimmt Magnus Carlsen als Botschafter unter Vertrag

13. Februar — Cohere kündigt eine Partnerschaft mit Magnus Carlsen, dem fünffachen Schachweltmeister und Nummer 1 der Welt, als globalen Markenbotschafter an.

Carlsen wird an Sichtbarkeitskampagnen, Thought-Leadership-Initiativen und hochkarätigen Cohere-Veranstaltungen teilnehmen. Die Partnerschaft soll die Parallelen zwischen Schachstrategie und Coheres Ansatz für Unternehmens-KI veranschaulichen: Fokus auf Grundlagen, Antizipation und nachhaltige Vorteile.

🔗 Ankündigung Cohere + Magnus Carlsen


In Kürze

12. FebruarRunway startet Story Panels, einen neuen Workflow, der die Erstellung vollständiger Filme oder Werbespots aus einem einzigen Bild ermöglicht, mit Konsistenz von Charakteren, Orten und Stil.

🔗 Runway Story Panels

12.-13. FebruarMooncake, ein PyTorch-Speicherzuweiser, der gemeinsam von Moonshot AI (Kimi) und der Tsinghua-Universität entwickelt wurde, tritt dem PyTorch-Ökosystem bei. Das Tool optimiert die Reduzierung von Speicherspitzen und Fragmentierung, was für den Einsatz von Long-Context-LLMs relevant ist.

🔗 Ankündigung Mooncake

9. FebruarIdeogram hebt seine Bildbearbeitung per natürlichsprachlichem Prompt hervor, die es ermöglicht, generierte Bilder über einfache Textanweisungen zu ändern.

30. JanuarPerplexity integriert Kimi K2.5, das Open-Source-Reasoning-Modell von Moonshot AI, für seine Pro- und Max-Abonnenten. Die Inferenz läuft auf der eigenen Infrastruktur von Perplexity in den USA.

4. FebruarMiniMax und Hyperbond Studio kündigen eine Partnerschaft zur Entwicklung von KI-Konversationsbegleitern mit „Call Me Sensei“ an, unter Verwendung von MiniMax-LLMs und Agenten-APIs.


Was das bedeutet

Die erste Februarhälfte 2026 bestätigt mehrere grundlegende Trends. MiniMax M2.5 beweist, dass ein weniger bekannter Akteur ein Open-Source-Modell veröffentlichen kann, das mit den Marktführern bei Programmier-Benchmarks konkurriert — 80,2% im SWE-Bench Verified ist ein bemerkenswertes Ergebnis für ein offenes Modell. Mit Forge als Ergänzung bietet MiniMax einen kompletten Agenten-Stack an.

Perplexity beschleunigt seine Differenzierung mit Model Council, einem pragmatischen Ansatz, der anerkennt, dass kein einzelnes Modell alle Anwendungsfälle dominiert. Die Integration von Opus 4.6 in Deep Research und die Veröffentlichung von DRACO als Open-Source stärken die Transparenz und Glaubwürdigkeit der Plattform.

Kling 3.0 markiert einen Fortschritt in der Videogenerierung mit realistischen Dialogen — ein Schritt hin zu zugänglichen Werkzeugen für die Filmproduktion. Community-seitig zeigt der 200.000-$-Hackathon von Mistral in 8 Städten die Reife des europäischen Open-Source-Ökosystems.


Quellen