Ce qu’il faut retenir :
- Xiaomi affiche plus de 1 000 tokens par seconde sur un modèle d’IA de 1 000 milliards de paramètres.
- L’exploit repose sur des GPU standard, sans puce sur mesure, grâce à un travail logiciel poussé.
- Trois innovations se combinent : la quantization FP4, le décodage spéculatif DFlash et le moteur TileRT.
Xiaomi vient de bousculer la course à la vitesse en intelligence artificielle. En collaboration avec l’équipe TileRT, le groupe a dévoilé MiMo-V2.5-Pro-UltraSpeed, un modèle de 1 000 milliards de paramètres capable de générer plus de 1 000 tokens par seconde, et ce sur huit GPU standard. Une performance que beaucoup pensaient réservée à du matériel sur mesure.
Pas de puce sur mesure, mais trois prouesses logicielles
Pour atteindre de telles vitesses, l’industrie construit d’ordinaire son propre matériel, à l’image de Cerebras ou Groq. Xiaomi a pris le chemin inverse : plutôt que de concevoir une puce, l’entreprise a plié le logiciel et l’architecture du modèle jusqu’à ce que le matériel suive. Le résultat tient à trois avancées empilées, chacune levant un goulot d’étranglement différent.
FP4 : compresser le modèle sans le rendre « bête »
Le premier obstacle est la mémoire. Un modèle aussi massif occupe environ 1 To rien que pour ses paramètres, et déplacer ces données est le principal frein. La solution consiste à coder chaque paramètre sur moins de bits, ici en FP4, ce qui divise par deux l'empreinte mémoire. Problème : appliquée partout, cette compression dégrade fortement la qualité, notamment sur le raisonnement et le code.
L’astuce de Xiaomi a été de ne pas tout compresser. Dans une architecture dite « mixture of experts », qui répartit le savoir entre des sous-modèles spécialisés, ces experts concentrent l’essentiel des paramètres et tolèrent bien la compression. Xiaomi les a donc passés en FP4 tout en gardant le reste en précision supérieure. Les performances restent quasi identiques à la version non compressée, et progressent même sur certains tests de code.
DFlash et TileRT : générer plus vite, sans jamais attendre
Restait un autre verrou. Un modèle génère normalement le texte mot à mot, chaque calcul ne produisant qu’un token avant de recommencer. La technique DFlash brise cette logique séquentielle : un petit modèle « brouillon » remplit tout un bloc de positions en une seule passe, que le grand modèle valide ensuite d’un coup. En programmation, près de 6 à 7 propositions sur 8 sont acceptées, multipliant d’autant le débit.
Le dernier pilier, TileRT, est un moteur d’exécution taillé pour la microseconde. Au lieu de lancer les opérations une à une, il maintient l’ensemble du pipeline résident dans le GPU, qui ne reste donc jamais inactif. Une véritable orchestration matériel-logiciel, conçue pour ne perdre aucun cycle.
3x le prix pour 10x la vitesse
L’offre est disponible via une API, à un tarif assumé : environ trois fois le prix du modèle standard pour à peu près dix fois la vitesse de génération. Pour les agents de codage et les flux de travail autonomes, où la latence dégrade l’expérience, le calcul penche vite en faveur de la vitesse. L’accès reste toutefois limité, sur candidature et pour une fenêtre courte. Au-delà du chiffre, l’enjeu est ce que cette vitesse rend possible : raisonnements en temps réel, assistants de codage réellement interactifs, ou usages critiques. Comme le souligne l’équipe, dans l’assistance chirurgicale, « chaque seconde gagnée par l’IA offre au chirurgien un degré de liberté supplémentaire ». Xiaomi a par ailleurs publié le modèle en open source sur Hugging Face.
Et maintenant ?
L’exploit relance un débat de fond : faut-il vraiment du silicium sur mesure pour faire tourner vite de très gros modèles, ou la co-conception logicielle suffit-elle à en tirer la pleine puissance ? Comme nous l’évoquions à propos de MiniMax, la Chine confirme une stratégie offensive sur l’IA, misant sur l’efficacité et l’ouverture plutôt que sur le seul matériel. Pour les acteurs qui exploitent de grands modèles en production, le message est clair : une bonne part des gains de performance se joue désormais dans l’architecture logicielle.
Cet article vous a plu ? Recevez les prochains par email
Rejoignez +40 000 abonnés. L'essentiel du marché crypto dans votre boîte mail, tous les 2 jours.