Xiaomi MiMo V2.5 : 1 000 tokens par seconde, record d'infér…

Ce qu’il faut retenir :

Xiaomi dépasse 1 000 tokens par seconde avec MiMo V2.5 Pro, un modèle de 1 020 milliards de paramètres.

La performance repose sur la quantification FP4 des experts et le moteur de décodage DFlash, sans puce spécialisée.

Les poids du modèle quantifié sont disponibles en open source sur Hugging Face sous licence MIT.

Le fabricant de smartphones et d’aspirateurs robots vient de battre un record que des startups valorisées à plusieurs milliards de dollars visaient depuis des années. Xiaomi affirme faire tourner son modèle MiMo V2.5 Pro, doté de 1 020 milliards de paramètres, à plus de 1 000 tokens par seconde en production, avec des pics proches de 1 200 tokens par seconde. Le tout sur un simple serveur à huit GPU du commerce, sans puce sur mesure ni ASIC à un milliard de dollars. Pour mesurer l’écart : la plupart des modèles de pointe plafonnent à quelques dizaines de tokens par seconde sur du matériel haut de gamme.

La version accélérée, baptisée MiMo-V2.5-Pro-UltraSpeed, a été lancée début juin en collaboration avec le spécialiste de l’inférence TileRT. Xiaomi la présente comme la première fois qu’un modèle à mille milliards de paramètres franchit la barre des 1 000 tokens par seconde sur un nœud GPU standard.

Illustration - Xiaomi MiMo V2.5 : 1 000 tokens par seconde, le coup de force du fabricant de smartphones

Pourquoi un modèle à mille milliards de paramètres est-il si lent ?

Pour saisir l’exploit, il faut cerner le vrai goulot d’étranglement. Un modèle d’un trillion de paramètres stocké en FP16 réclame environ 2 téraoctets de mémoire. Même sur une grappe de huit cartes H100, la pression mémoire devient énorme.

Le coupable n’est pas la puissance de calcul, c’est la bande passante mémoire. À chaque token généré, le système doit transférer ces milliards de paramètres depuis la mémoire HBM vers les unités de calcul. Ce va-et-vient permanent impose un plafond physique au débit. Xiaomi attaque ce mur sur deux fronts : réduire la quantité de données par paramètre, et réduire le nombre de passages dans le modèle.

Comment Xiaomi atteint 1 000 tokens par seconde ?

La recette tient en trois ingrédients. Le premier, c’est la quantification FP4. La quantification consiste à coder chaque paramètre sur moins de bits pour alléger la mémoire. Là où la norme FP8 divise déjà l'empreinte par deux face au FP16, Xiaomi descend à 4 bits, mais pas n’importe comment. L’entreprise applique le format MXFP4 aux seuls “experts” du modèle, ces gros blocs de calcul d’une architecture Mixture-of-Experts (MoE) qui concentrent l’immense majorité des paramètres. Les couches d’attention et les modules critiques, eux, restent en précision élevée. Grâce à un entraînement adapté (QAT, pour Quantization-Aware Training), la qualité reste, selon les propres mesures de Xiaomi, quasiment identique à la version FP8.

Le deuxième ingrédient est le plus original : DFlash. Le décodage spéculatif classique fait deviner les 3 à 5 prochains tokens par un petit modèle “brouillon”, que le gros modèle valide ensuite en un seul passage. Problème : ce brouillon produit ses tokens un par un. DFlash remplace cette logique par une approche dite de “block-diffusion” : le brouillon remplit un bloc entier de positions masquées en une seule passe, à la manière d’un modèle qui complète une phrase d’un coup. Xiaomi plafonne la taille des blocs à 8 tokens pour équilibrer le coût de vérification. Sur de la génération de code répétitif, le système accepte en moyenne plus de six tokens par bloc. Sur des tâches créatives, il retombe autour de trois.

Le troisième pilier, souvent oublié dans les résumés, est le moteur d’inférence TileRT, développé avec le partenaire du même nom. À 1 000 tokens par seconde, chaque opération ne dure que quelques microsecondes, et les micro-délais de lancement entre opérations deviennent le vrai frein. TileRT maintient un noyau persistant résident sur le GPU pour supprimer ces temps morts.

1 000, 3 000 ou 350 tokens par seconde ?

Place aux nuances. Les chiffres les plus spectaculaires, jusqu’à 3 000 tokens par seconde évoqués par la communauté technique, correspondent à des scénarios idéaux : génération de code “boilerplate”, faible concurrence, taux d’acceptation du brouillon au plafond. Un billet de blog sur votre week-end ne verra jamais ces vitesses. Une autocomplétion pour une API CRUD, peut-être.

Dans la vraie vie, la facture est plus sage. Sur l’API publique de Xiaomi, les utilisateurs rapportent des débits bien plus proches de 350 tokens par seconde pour un usage régulier. Cela reste considérable. À titre de comparaison, d’après les mesures relayées par le média Gizchina, Claude Opus 4.6 tourne autour de 71 tokens par seconde et Gemini Flash autour de 192. Atteindre 350 tokens par seconde sur un modèle d’un trillion de paramètres demeure une rupture, là où Cerebras n’y parvenait jusqu’ici qu’avec des puces à l’échelle d’une plaquette de silicium entière, sur des modèles bien plus petits.

Un cadeau à la communauté open source

L’autre bonne surprise tient à la mise à disposition des poids. Le checkpoint MiMo-V2.5-Pro-FP4-DFlash, qui combine le squelette quantifié en FP4 et le brouillon en BF16, est déjà téléchargeable sur Hugging Face sous licence MIT. TileRT a de son côté ouvert une partie de ses modules sur GitHub. Pour un fabricant de matériel, le calcul est limpide : se forger une image de leader de l’IA tout en laissant la communauté vérifier, affiner et répliquer ses résultats. Xiaomi poursuit ainsi la stratégie open source amorcée avec ses précédents modèles MiMo.

Et maintenant ?

L’offre commerciale reste pour l’heure verrouillée. Xiaomi a ouvert un accès API limité, sur candidature, du 9 au 23 juin, facturé environ trois fois le tarif standard pour une vitesse multipliée par dix, priorité donnée aux entreprises et aux développeurs professionnels. Le déploiement exige par ailleurs une grappe de GPU haut de gamme : pas question de faire tourner ce modèle sur une carte grand public, même si la communauté réclame déjà une version allégée pour le local, que Xiaomi dit préparer.

Au-delà du buzz, le signal est clair. La bataille de l’IA ne se joue plus seulement sur la qualité des modèles, mais sur la vitesse et le coût auxquels on parvient à les servir. En réussissant ce tour de force sur du matériel standard plutôt que sur du silicium exotique, Xiaomi déplace le terrain de jeu. Reste à voir si les chiffres tiendront face à la charge réelle des serveurs, maintenant que n’importe qui peut télécharger les poids pour les mettre à l’épreuve.

En savoir plus sur notre newsletter crypto →

Retrouvez toute l'actualité dans notre rubrique Intelligence Artificielle sur Coin Academy.

Kraken Avis 2026 & Tuto : Plateforme fiable ou Arnaque ?

Bitpanda Avis 2026 : Est-ce la meilleure plateforme de trading ?

Avis Trade Republic 2026 : notre test complet !

Xiaomi MiMo V2.5 : 1 000 tokens par seconde, le coup de force du fabricant de smartphones

Pourquoi un modèle à mille milliards de paramètres est-il si lent ?

Comment Xiaomi atteint 1 000 tokens par seconde ?

1 000, 3 000 ou 350 tokens par seconde ?

Un cadeau à la communauté open source

Et maintenant ?

Cet article vous a plu ? Recevez les prochains par email

Strategy revoit ses indicateurs bitcoin et affiche une réserve nette de 36,6 milliards de dollars

OpenAI : comment l’agent IA s’est évadé de son bac à sable et a piraté Hugging Face

Russie : l’UE vise un réseau crypto de 120 milliards $ dans son 21e paquet de sanctions

Robinhood : le compte X de Vlad Tenev piraté pour promouvoir un faux memecoin

Solana (SOL) : Qu’est-ce que c’est, comment ça fonctionne et comment en acheter ?

Ethereum (ETH) : Qu’est-ce que c’est, comment ça fonctionne et comment en acheter ?

Bitcoin (BTC) : Qu’est-ce que c’est, comment ça fonctionne et comment en acheter ?

Xiaomi MiMo V2.5 : 1 000 tokens par seconde, le coup de force du fabricant de smartphones

Pourquoi un modèle à mille milliards de paramètres est-il si lent ?

Comment Xiaomi atteint 1 000 tokens par seconde ?

1 000, 3 000 ou 350 tokens par seconde ?

Un cadeau à la communauté open source

Et maintenant ?

Cet article vous a plu ? Recevez les prochains par email

Pour aller plus loin

Articles qui pourraient vous intéresser