Xiaomi : 1 000 tokens/seconde sur un modèle d'IA géant

Ce qu’il faut retenir :

Xiaomi affiche plus de 1 000 tokens par seconde sur un modèle d’IA de 1 000 milliards de paramètres.

L’exploit repose sur des GPU standard, sans puce sur mesure, grâce à un travail logiciel poussé.

Trois innovations se combinent : la quantization FP4, le décodage spéculatif DFlash et le moteur TileRT.

Xiaomi vient de bousculer la course à la vitesse en intelligence artificielle. En collaboration avec l’équipe TileRT, le groupe a dévoilé MiMo-V2.5-Pro-UltraSpeed, un modèle de 1 000 milliards de paramètres capable de générer plus de 1 000 tokens par seconde, et ce sur huit GPU standard. Une performance que beaucoup pensaient réservée à du matériel sur mesure.

🚀 1,000+ TOKENS/S ON A 1T MODEL! 🚀

We are thrilled to release Xiaomi MiMo-V2.5-Pro-UltraSpeed in collaboration with @TileRT_AI , breaking the 1,000 tokens/s output speed on a 1 Trillion parameter model for the FIRST TIME!

Not wafer-scale integration like Cerebras. Not pure… pic.twitter.com/FwMioJGDII
— Xiaomi MiMo (@XiaomiMiMo) June 8, 2026

Pas de puce sur mesure, mais trois prouesses logicielles

Pour atteindre de telles vitesses, l’industrie construit d’ordinaire son propre matériel, à l’image de Cerebras ou Groq. Xiaomi a pris le chemin inverse : plutôt que de concevoir une puce, l’entreprise a plié le logiciel et l’architecture du modèle jusqu’à ce que le matériel suive. Le résultat tient à trois avancées empilées, chacune levant un goulot d’étranglement différent.

FP4 : compresser le modèle sans le rendre « bête »

Le premier obstacle est la mémoire. Un modèle aussi massif occupe environ 1 To rien que pour ses paramètres, et déplacer ces données est le principal frein. La solution consiste à coder chaque paramètre sur moins de bits, ici en FP4, ce qui divise par deux l'empreinte mémoire. Problème : appliquée partout, cette compression dégrade fortement la qualité, notamment sur le raisonnement et le code.

L’astuce de Xiaomi a été de ne pas tout compresser. Dans une architecture dite « mixture of experts », qui répartit le savoir entre des sous-modèles spécialisés, ces experts concentrent l’essentiel des paramètres et tolèrent bien la compression. Xiaomi les a donc passés en FP4 tout en gardant le reste en précision supérieure. Les performances restent quasi identiques à la version non compressée, et progressent même sur certains tests de code.

DFlash et TileRT : générer plus vite, sans jamais attendre

Restait un autre verrou. Un modèle génère normalement le texte mot à mot, chaque calcul ne produisant qu’un token avant de recommencer. La technique DFlash brise cette logique séquentielle : un petit modèle « brouillon » remplit tout un bloc de positions en une seule passe, que le grand modèle valide ensuite d’un coup. En programmation, près de 6 à 7 propositions sur 8 sont acceptées, multipliant d’autant le débit.

Le dernier pilier, TileRT, est un moteur d’exécution taillé pour la microseconde. Au lieu de lancer les opérations une à une, il maintient l’ensemble du pipeline résident dans le GPU, qui ne reste donc jamais inactif. Une véritable orchestration matériel-logiciel, conçue pour ne perdre aucun cycle.

3x le prix pour 10x la vitesse

L’offre est disponible via une API, à un tarif assumé : environ trois fois le prix du modèle standard pour à peu près dix fois la vitesse de génération. Pour les agents de codage et les flux de travail autonomes, où la latence dégrade l’expérience, le calcul penche vite en faveur de la vitesse. L’accès reste toutefois limité, sur candidature et pour une fenêtre courte. Au-delà du chiffre, l’enjeu est ce que cette vitesse rend possible : raisonnements en temps réel, assistants de codage réellement interactifs, ou usages critiques. Comme le souligne l’équipe, dans l’assistance chirurgicale, « chaque seconde gagnée par l’IA offre au chirurgien un degré de liberté supplémentaire ». Xiaomi a par ailleurs publié le modèle en open source sur Hugging Face.

Et maintenant ?

L’exploit relance un débat de fond : faut-il vraiment du silicium sur mesure pour faire tourner vite de très gros modèles, ou la co-conception logicielle suffit-elle à en tirer la pleine puissance ? Comme nous l’évoquions à propos de MiniMax, la Chine confirme une stratégie offensive sur l’IA, misant sur l’efficacité et l’ouverture plutôt que sur le seul matériel. Pour les acteurs qui exploitent de grands modèles en production, le message est clair : une bonne part des gains de performance se joue désormais dans l’architecture logicielle.

En savoir plus sur notre newsletter crypto →

Retrouvez toute l'actualité dans notre rubrique Intelligence Artificielle sur Coin Academy.

Kraken Avis 2026 & Tuto : Plateforme fiable ou Arnaque ?

Bitpanda Avis 2026 : Est-ce la meilleure plateforme de trading ?

Avis Trade Republic 2026 : notre test complet !

Xiaomi atteint 1 000 tokens par seconde sur un modèle d’IA à 1 000 milliards de paramètres

Pas de puce sur mesure, mais trois prouesses logicielles

FP4 : compresser le modèle sans le rendre « bête »

DFlash et TileRT : générer plus vite, sans jamais attendre

3x le prix pour 10x la vitesse

Et maintenant ?

Cet article vous a plu ? Recevez les prochains par email

Morgan Stanley : dans les coulisses de l’usine à dette qui finance le boom de l’IA

Hut 8 et IREN : les mineurs de bitcoin signent des milliards de contrats IA, leurs actions s’envolent

Actualités crypto de la semaine du 13 juillet 2026 : Coin Hebdo #248

Vitalik Buterin vibe-code un panneau d’affichage anonyme avec modération on-chain sur Aztec

Solana (SOL) : Qu’est-ce que c’est, comment ça fonctionne et comment en acheter ?

Ethereum (ETH) : Qu’est-ce que c’est, comment ça fonctionne et comment en acheter ?

Bitcoin (BTC) : Qu’est-ce que c’est, comment ça fonctionne et comment en acheter ?

Xiaomi atteint 1 000 tokens par seconde sur un modèle d’IA à 1 000 milliards de paramètres

Pas de puce sur mesure, mais trois prouesses logicielles

FP4 : compresser le modèle sans le rendre « bête »

DFlash et TileRT : générer plus vite, sans jamais attendre

3x le prix pour 10x la vitesse

Et maintenant ?

Cet article vous a plu ? Recevez les prochains par email

Pour aller plus loin

Articles qui pourraient vous intéresser