MiniMax M2.5 atteint 80% au SWE-Bench en open-source, Kling 3.0 transforme la vidéo IA, Perplexity lance Model Council

MiniMax sort M2.5, un modèle frontier open-source atteignant 80.2% au SWE-Bench Verified. Kling lance son modèle 3.0 avec vidéo 1080p et dialogue réaliste. Côté recherche, Perplexity déploie Model Council pour interroger trois modèles simultanément, et fait tourner Deep Research sur Claude Opus 4.6. Mistral annonce son plus gros hackathon mondial avec $200K de prix.

MiniMax M2.5 — modèle frontier open-source

12 février — MiniMax annonce M2.5, un modèle frontier open-source conçu pour la productivité en conditions réelles. Le modèle atteint des performances état de l’art dans quatre domaines critiques : codage, recherche web, appels d’outils agentiques et travail bureautique.

Benchmark	Score	Catégorie
SWE-Bench Verified	80.2%	Résolution de bugs réels
BrowseComp	76.3%	Recherche et navigation web
BFCL	76.8%	Appels d’outils agentiques
Office Work	Optimisé	Productivité documentaire

Le score de 80.2% au SWE-Bench Verified place M2.5 parmi les meilleurs modèles de codage toutes catégories confondues. Sur BrowseComp, le benchmark de navigation web d’OpenAI, il atteint 76.3% — signe d’une capacité de recherche autonome solide.

MiniMax revendique une exécution 37% plus rapide sur les tâches complexes par rapport aux modèles concurrents, avec un coût de 1$ USD par heure à 100 tokens/seconde. L’objectif affiché : rendre le scaling d’agents long-horizon économiquement viable.

Le modèle est disponible via MiniMax Agent (agent.minimax.io) et l’API développeur (platform.minimax.io). En tant que modèle frontier open-source, M2.5 se positionne directement face aux modèles propriétaires leaders.

🔗 Annonce MiniMax M2.5

MiniMax Forge — framework RL pour agents de production

12 février — En parallèle de M2.5, MiniMax publie Forge, un framework et algorithme d’apprentissage par renforcement (RL) scalable pour entraîner des agents IA de production.

Forge répond à un problème récurrent dans l’entraînement d’agents : l’instabilité de l’apprentissage à l’échelle. Le framework offre une approche optimisée du reward modeling pour agents, ciblant les développeurs ML et chercheurs déployant des agents autonomes.

La double annonce M2.5 + Forge signale l’ambition de MiniMax de proposer un stack complet pour les agents IA : modèle frontier + framework d’entraînement.

🔗 Forge sur MiniMax News

Kling 3.0 — « Everyone a Director »

1er février — Kling AI lance son modèle 3.0, une mise à jour majeure de son moteur de génération vidéo positionnée autour du concept « Everyone a Director ». Le modèle vise à rendre la création cinématique accessible sans expertise technique.

Les améliorations principales portent sur la qualité visuelle et le réalisme des interactions humaines :

Capacité	Détail
Résolution	1080p natif
Dialogue	Expressions faciales et gestes réalistes
Cohérence	Style visuel maintenu sur de longues séquences
Flexibilité	Du simple prompt au storyboard cinématique complet

Les retours de la communauté créative sont positifs, notamment sur le réalisme des dialogues et la capacité à produire des scènes avec des interactions humaines convaincantes — un point faible historique des modèles vidéo IA.

🔗 Annonce Kling 3.0

Perplexity lance Model Council — recherche multi-modèle

5 février — Perplexity déploie Model Council, une fonctionnalité qui exécute la même requête sur trois modèles frontier simultanément et produit une réponse unique synthétisée.

Au lieu de basculer manuellement entre modèles, Model Council lance la requête sur Claude Opus 4.6, GPT 5.2 et Gemini 3.0 en parallèle. Un modèle synthétiseur analyse les résultats, résout les conflits entre réponses et montre où les modèles convergent ou divergent.

Cas d’usage	Détail
Investissement	Perspectives de marché équilibrées
Décisions complexes	Stratégie business, achats importants
Brainstorming	Idées créatives diversifiées
Vérification	Valider une information avec confiance accrue

La fonctionnalité est disponible immédiatement sur le web pour les abonnés Perplexity Max. La version mobile est en développement.

🔗 Introducing Model Council

Perplexity Deep Research passe à Opus 4.6

9 février — Perplexity annonce que Deep Research tourne désormais sur Claude Opus 4.6, améliorant les résultats état de l’art sur les benchmarks internes et externes. L’upgrade renforce les capacités de raisonnement en recherche approfondie.

La fonctionnalité est disponible immédiatement pour les utilisateurs Max, avec un déploiement progressif vers les utilisateurs Pro.

🔗 Annonce Deep Research Opus 4.6

Perplexity publie le benchmark DRACO en open-source

4 février — Perplexity rend public DRACO, un benchmark open-source conçu pour évaluer les outils de recherche approfondie. Les grilles d’évaluation et la méthodologie complète sont publiquement disponibles.

DRACO valide que Perplexity Deep Research atteint des performances état de l’art sur les benchmarks externes, surpassant les autres outils de recherche approfondie en précision et fiabilité.

🔗 Annonce DRACO

Mistral annonce son plus gros hackathon — $200K de prix

10 février — Mistral AI lance son plus gros hackathon mondial jamais organisé, prévu du 28 février au 1er mars 2026.

Détail	Information
Format	48 heures
Lieux	Paris, Londres, New York, San Francisco, Tokyo, Singapour, Sydney + online
Prix	$200K de récompenses
Partenaires	NVIDIA, AWS, Weights & Biases, Hugging Face
Prix spéciaux	ElevenLabs, Hugging Face

L’événement se déroule simultanément dans 8 villes et en ligne. La liste des partenaires (NVIDIA, AWS, WandB, Hugging Face) signale la confiance du grand écosystème IA dans la plateforme Mistral.

🔗 Annonce hackathon Mistral

Cohere signe Magnus Carlsen comme ambassadeur

13 février — Cohere annonce un partenariat avec Magnus Carlsen, quintuple champion du monde d’échecs et numéro 1 mondial, en tant qu’ambassadeur mondial de la marque.

Carlsen participera à des campagnes de visibilité, des initiatives de thought leadership et des événements Cohere de premier plan. Le partenariat vise à illustrer les parallèles entre la stratégie aux échecs et l’approche de Cohere pour l’IA enterprise : focus sur les fondamentaux, anticipation et avantages durables.

🔗 Annonce Cohere + Magnus Carlsen

En bref

12 février — Runway lance Story Panels, un nouveau workflow permettant de créer des films ou publicités complets à partir d’une seule image, avec cohérence des personnages, des lieux et du style.

🔗 Runway Story Panels

12-13 février — Mooncake, un allocateur mémoire PyTorch co-développé par Moonshot AI (Kimi) et l’Université Tsinghua, rejoint l’écosystème PyTorch. L’outil optimise la réduction des pics mémoire et la fragmentation, pertinent pour le déploiement de LLMs long-context.

🔗 Annonce Mooncake

9 février — Ideogram met en avant son édition d’images via prompt en langage naturel, permettant de modifier les images générées via de simples instructions textuelles.

30 janvier — Perplexity intègre Kimi K2.5, le modèle de reasoning open-source de Moonshot AI, pour ses abonnés Pro et Max. L’inférence tourne sur l’infrastructure propre de Perplexity aux États-Unis.

4 février — MiniMax et Hyperbond Studio annoncent un partenariat pour développer des compagnons IA conversationnels avec « Call Me Sensei », utilisant le LLM et les APIs agent de MiniMax.

Ce que ça signifie

La première quinzaine de février 2026 confirme plusieurs tendances de fond. MiniMax M2.5 prouve qu’un acteur moins médiatisé peut sortir un modèle open-source rivalisant avec les leaders sur les benchmarks de codage — 80.2% au SWE-Bench Verified est un score remarquable pour un modèle ouvert. Avec Forge en complément, MiniMax propose un stack complet pour les agents.

Perplexity accélère sa différenciation avec Model Council, une approche pragmatique reconnaissant qu’aucun modèle unique ne domine tous les cas d’usage. L’intégration d’Opus 4.6 dans Deep Research et la publication de DRACO en open-source renforcent la transparence et la crédibilité de la plateforme.

Kling 3.0 marque une avancée en génération vidéo avec des dialogues réalistes — un pas vers des outils de production cinématique accessibles. Côté communautaire, le hackathon à $200K de Mistral dans 8 villes montre la maturité de l’écosystème open-source européen.