Xiaomi MiMo V2.5 : 1 000 tokens par seconde, le coup de force du fabricant de smartphones

Xiaomi pousse son modèle MiMo V2.5 à plus de 1 000 tokens par seconde sur 8 GPU standards, grâce à la quantification FP4 et au décodage DFlash.
Xiaomi mimo V2 5 1000 tokens seconde record inference

Ce qu’il faut retenir :

  • Xiaomi dépasse 1 000 tokens par seconde avec MiMo V2.5 Pro, un modèle de 1 020 milliards de paramètres.
  • La performance repose sur la quantification FP4 des experts et le moteur de décodage DFlash, sans puce spécialisée.
  • Les poids du modèle quantifié sont disponibles en open source sur Hugging Face sous licence MIT.

Le fabricant de smartphones et d’aspirateurs robots vient de battre un record que des startups valorisées à plusieurs milliards de dollars visaient depuis des années. Xiaomi affirme faire tourner son modèle MiMo V2.5 Pro, doté de 1 020 milliards de paramètres, à plus de 1 000 tokens par seconde en production, avec des pics proches de 1 200 tokens par seconde. Le tout sur un simple serveur à huit GPU du commerce, sans puce sur mesure ni ASIC à un milliard de dollars. Pour mesurer l’écart : la plupart des modèles de pointe plafonnent à quelques dizaines de tokens par seconde sur du matériel haut de gamme.

La version accélérée, baptisée MiMo-V2.5-Pro-UltraSpeed, a été lancée début juin en collaboration avec le spécialiste de l’inférence TileRT. Xiaomi la présente comme la première fois qu’un modèle à mille milliards de paramètres franchit la barre des 1 000 tokens par seconde sur un nœud GPU standard.

Illustration - Xiaomi MiMo V2.5 : 1 000 tokens par seconde, le coup de force du fabricant de smartphones

Pourquoi un modèle à mille milliards de paramètres est-il si lent ?

Pour saisir l’exploit, il faut cerner le vrai goulot d’étranglement. Un modèle d’un trillion de paramètres stocké en FP16 réclame environ 2 téraoctets de mémoire. Même sur une grappe de huit cartes H100, la pression mémoire devient énorme.

Le coupable n’est pas la puissance de calcul, c’est la bande passante mémoire. À chaque token généré, le système doit transférer ces milliards de paramètres depuis la mémoire HBM vers les unités de calcul. Ce va-et-vient permanent impose un plafond physique au débit. Xiaomi attaque ce mur sur deux fronts : réduire la quantité de données par paramètre, et réduire le nombre de passages dans le modèle.

Comment Xiaomi atteint 1 000 tokens par seconde ?

La recette tient en trois ingrédients. Le premier, c’est la quantification FP4. La quantification consiste à coder chaque paramètre sur moins de bits pour alléger la mémoire. Là où la norme FP8 divise déjà l'empreinte par deux face au FP16, Xiaomi descend à 4 bits, mais pas n’importe comment. L’entreprise applique le format MXFP4 aux seuls “experts” du modèle, ces gros blocs de calcul d’une architecture Mixture-of-Experts (MoE) qui concentrent l’immense majorité des paramètres. Les couches d’attention et les modules critiques, eux, restent en précision élevée. Grâce à un entraînement adapté (QAT, pour Quantization-Aware Training), la qualité reste, selon les propres mesures de Xiaomi, quasiment identique à la version FP8.

Le deuxième ingrédient est le plus original : DFlash. Le décodage spéculatif classique fait deviner les 3 à 5 prochains tokens par un petit modèle “brouillon”, que le gros modèle valide ensuite en un seul passage. Problème : ce brouillon produit ses tokens un par un. DFlash remplace cette logique par une approche dite de “block-diffusion” : le brouillon remplit un bloc entier de positions masquées en une seule passe, à la manière d’un modèle qui complète une phrase d’un coup. Xiaomi plafonne la taille des blocs à 8 tokens pour équilibrer le coût de vérification. Sur de la génération de code répétitif, le système accepte en moyenne plus de six tokens par bloc. Sur des tâches créatives, il retombe autour de trois.

Le troisième pilier, souvent oublié dans les résumés, est le moteur d’inférence TileRT, développé avec le partenaire du même nom. À 1 000 tokens par seconde, chaque opération ne dure que quelques microsecondes, et les micro-délais de lancement entre opérations deviennent le vrai frein. TileRT maintient un noyau persistant résident sur le GPU pour supprimer ces temps morts.

1 000, 3 000 ou 350 tokens par seconde ?

Place aux nuances. Les chiffres les plus spectaculaires, jusqu’à 3 000 tokens par seconde évoqués par la communauté technique, correspondent à des scénarios idéaux : génération de code “boilerplate”, faible concurrence, taux d’acceptation du brouillon au plafond. Un billet de blog sur votre week-end ne verra jamais ces vitesses. Une autocomplétion pour une API CRUD, peut-être.

Dans la vraie vie, la facture est plus sage. Sur l’API publique de Xiaomi, les utilisateurs rapportent des débits bien plus proches de 350 tokens par seconde pour un usage régulier. Cela reste considérable. À titre de comparaison, d’après les mesures relayées par le média Gizchina, Claude Opus 4.6 tourne autour de 71 tokens par seconde et Gemini Flash autour de 192. Atteindre 350 tokens par seconde sur un modèle d’un trillion de paramètres demeure une rupture, là où Cerebras n’y parvenait jusqu’ici qu’avec des puces à l’échelle d’une plaquette de silicium entière, sur des modèles bien plus petits.

Un cadeau à la communauté open source

L’autre bonne surprise tient à la mise à disposition des poids. Le checkpoint MiMo-V2.5-Pro-FP4-DFlash, qui combine le squelette quantifié en FP4 et le brouillon en BF16, est déjà téléchargeable sur Hugging Face sous licence MIT. TileRT a de son côté ouvert une partie de ses modules sur GitHub. Pour un fabricant de matériel, le calcul est limpide : se forger une image de leader de l’IA tout en laissant la communauté vérifier, affiner et répliquer ses résultats. Xiaomi poursuit ainsi la stratégie open source amorcée avec ses précédents modèles MiMo.

Et maintenant ?

L’offre commerciale reste pour l’heure verrouillée. Xiaomi a ouvert un accès API limité, sur candidature, du 9 au 23 juin, facturé environ trois fois le tarif standard pour une vitesse multipliée par dix, priorité donnée aux entreprises et aux développeurs professionnels. Le déploiement exige par ailleurs une grappe de GPU haut de gamme : pas question de faire tourner ce modèle sur une carte grand public, même si la communauté réclame déjà une version allégée pour le local, que Xiaomi dit préparer.

Au-delà du buzz, le signal est clair. La bataille de l’IA ne se joue plus seulement sur la qualité des modèles, mais sur la vitesse et le coût auxquels on parvient à les servir. En réussissant ce tour de force sur du matériel standard plutôt que sur du silicium exotique, Xiaomi déplace le terrain de jeu. Reste à voir si les chiffres tiendront face à la charge réelle des serveurs, maintenant que n’importe qui peut télécharger les poids pour les mettre à l’épreuve.

Cet article vous a plu ? Recevez les prochains par email

Rejoignez +40 000 abonnés. L'essentiel du marché crypto dans votre boîte mail, tous les 2 jours.

En savoir plus sur notre newsletter crypto →
Retrouvez toute l'actualité dans notre rubrique Intelligence Artificielle sur Coin Academy.
Articles qui pourraient vous intéresser
Logo CoinAcademy
Résumé de la politique de confidentialité

Ce site utilise des cookies afin que nous puissions vous fournir la meilleure expérience utilisateur possible. Les informations sur les cookies sont stockées dans votre navigateur et remplissent des fonctions telles que vous reconnaître lorsque vous revenez sur notre site Web et aider notre équipe à comprendre les sections du site que vous trouvez les plus intéressantes et utiles.