Ce qu’il faut retenir :
- MiniMax M3 dépasse GPT-5.5 sur plusieurs benchmarks de code, juste derrière Opus 4.7.
- Son API coûte environ 5 à 10 % du prix des modèles de pointe concurrents.
- Le modèle promet une fenêtre de contexte d’un million de tokens et une ouverture en open weight.
La guerre des prix de l’IA vient de gagner un acteur redoutable. MiniMax a lancé ce week-end son modèle M3, et les chiffres surprennent : des performances dignes des modèles de pointe pour une fraction de leur coût. De quoi rebattre les cartes pour quiconque construit des systèmes d’IA agentiques à grande échelle.
Des benchmarks au niveau des modèles de pointe
Les résultats sur les principaux tests de référence parlent d’eux-mêmes. Sur SWE-Bench Pro, qui évalue la résolution de problèmes de code réels, M3 obtient 59,0 %, devant GPT-5.5 d’OpenAI et Gemini 3.1 Pro de Google, et juste derrière Opus 4.7 d’Anthropic (69,2 %). Il atteint 66,0 % sur Terminal-Bench 2.1 et 83,5 sur BrowseComp, où il dépasse cette fois Opus 4.7 (79,3). Pour un modèle ouvert, le niveau est inédit.
Le prix qui change tout
C’est sur la facture que l’écart se creuse. L’API de M3 est facturée 0,30 dollar par million de tokens en entrée et 1,20 dollar en sortie, soit environ 5 à 10 % de ce que demandent les modèles comparables. À l’échelle d’un système agentique, qui enchaîne des milliers d’appels, le calcul économique bascule immédiatement.
L’offre grand public suit la même logique : l’abonnement à 20 dollars par mois ouvre droit à environ 1,7 milliard de tokens, de quoi alimenter les charges de travail d’une équipe entière. Les requêtes jusqu’à 512 000 tokens sont au tarif standard, au-delà un tarif « long contexte » s’applique, et le mode « réflexion » peut être activé ou non sans surcoût.
Un million de tokens grâce à l’architecture MSA
La vraie prouesse technique se cache derrière la fenêtre de contexte d’un million de tokens. Le talon d’Achille des transformeurs reste la complexité quadratique : plus le contexte grandit, plus le calcul explose. MiniMax y répond avec une nouvelle architecture d’attention baptisée MSA (MiniMax Sparse Attention), qui découpe les blocs de mémoire plus finement que les approches concurrentes. Le gain est spectaculaire : à un million de tokens, le coût de calcul par token tombe au vingtième de la génération précédente, la phase de préparation tourne plus de 9 fois plus vite et le décodage est 15 fois plus rapide.
Une vraie autonomie sur des tâches longues
Au-delà des classements, MiniMax a soumis M3 à des épreuves de longue haleine. Sur une tâche d’optimisation de noyau CUDA, qui demande d’ordinaire une à deux semaines à une équipe expérimentée, le modèle est parti d’une simple description et d’un squelette non fonctionnel pour atteindre, en 24 heures et après 147 soumissions et 1 959 appels d’outils, une accélération de 9,4 fois, sans aucune intervention humaine. Là où la plupart des modèles abandonnent avant la trentième tentative, M3 a trouvé sa meilleure solution à la 145e.
Plus impressionnant encore, sur le test PostTrainBench, M3 a entraîné lui-même quatre modèles de base, gérant en autonomie la synthèse des données, l’entraînement et l’évaluation. Il y décroche 37,1, troisième derrière Opus 4.7 (42,4) et GPT-5.5 (39,3), mais loin devant tous les autres.
Open weight : la promesse et le scepticisme
MiniMax affirme que M3 sera entièrement publié en open source sur HuggingFace et GitHub, avec déploiement sur cluster privé et possibilité d’affinage. La communauté reste prudente. Les limites du précédent modèle M2.7 avaient laissé un goût amer, et faire tourner un tel modèle exige un matériel coûteux. Un développeur résumait : M2.7 était « plutôt bon en codage agentique, mais jamais un excellent agent généraliste ». La taille de M3 n’est d’ailleurs pas confirmée, mais son tarif, deux à quatre fois supérieur à celui de M2.7, suggère un modèle nettement plus gros, peut-être entre 700 milliards et 1 000 milliards de paramètres.
Et maintenant ?
La stratégie chinoise se précise : ne pas gagner sur les seuls scores, mais sur le rapport coût-performance, celui qui décide réellement de l’adoption en production.
Deux questions restent ouvertes : MiniMax tiendra-t-il sa promesse d’ouverture, et l’écosystème saura-t-il transformer ces gains en systèmes réellement exploitables. Pour les leaders du secteur, la pression vient de monter d’un cran.
Cet article vous a plu ? Recevez les prochains par email
Rejoignez +40 000 abonnés. L'essentiel du marché crypto dans votre boîte mail, tous les 2 jours.