Google TurboQuant : l’algorithme qui compresse la mémoire des LLM par 6 sans perte de précision

Google dévoile TurboQuant, un algorithme compressant le cache KV des LLM à 3 bits avec un gain de vitesse jusqu’à 8x sur H100, sans perte de précision.
Google turboquant ia llm

Ce qu’il faut retenir :

  • TurboQuant réduit la mémoire du cache KV des grands modèles de langage par un facteur 6, en compressant les données à seulement 3 bits par valeur.
  • L’algorithme accélère le calcul de l’attention jusqu’à 8 fois sur GPU NVIDIA H100, sans nécessiter de réentraînement ni de fine-tuning.
  • Présenté à la conférence ICLR 2026, il s’applique aussi à la recherche vectorielle, où il élimine quasi totalement le temps d’indexation.

Google Research vient de publier TurboQuant, un algorithme de compression qui s’attaque au principal goulot d’étranglement des grands modèles de langage (LLM) en inférence : le cache Key-Value (KV). Ce cache, qui stocke les représentations intermédiaires de chaque token dans une séquence, voit sa taille croître linéairement avec la longueur du contexte. Sur des fenêtres de 100 000 tokens ou plus, il peut engloutir des dizaines de gigaoctets de mémoire GPU, limitant la capacité de traitement bien plus que la puissance de calcul elle-même.

Comprimer à 3 bits sans toucher au modèle

Le cache KV, c’est-à-dire la mémoire où un modèle stocke les “clés” et “valeurs” calculées pour chaque token précédent, représente le facteur limitant principal pour l’inférence en contexte long. TurboQuant le compresse à 3 bits par valeur contre 16 ou 32 bits habituellement, soit une réduction de mémoire d’au moins 6 fois. Le tout sans réentraînement, sans fine-tuning et sans perte mesurable de précision sur les tâches de question-réponse, de génération de code et de résumé.

L’algorithme repose sur deux sous-méthodes complémentaires. PolarQuant convertit les vecteurs de coordonnées cartésiennes classiques en coordonnées polaires (rayon et angle), ce qui élimine le surcoût mémoire lié aux constantes de normalisation que les techniques traditionnelles doivent stocker. QJL (Quantized Johnson-Lindenstrauss) corrige ensuite l’erreur résiduelle en réduisant chaque valeur restante à un seul bit de signe (+1 ou -1), sans aucun surcoût mémoire additionnel. Cette combinaison produit un estimateur mathématiquement non biaisé des produits scalaires, l’opération fondamentale du mécanisme d’attention des Transformers.

Des performances validées sur les benchmarks de référence

L’équipe de recherche, dirigée par Amir Zandieh et Vahab Mirrokni (vice-président et Google Fellow), en collaboration avec le KAIST (Corée du Sud) et l’université de New York, a validé TurboQuant sur plusieurs benchmarks de contexte long : LongBench, Needle-In-A-Haystack, ZeroSCROLLS, RULER et L-Eval, en utilisant les modèles open source Gemma et Mistral.

Les résultats sont nets. Sous un taux de compression de 4x, le modèle Llama-3.1-8B-Instruct maintient 100 % de précision sur le test Needle-In-A-Haystack jusqu’à 104 000 tokens, un résultat identique au modèle en pleine précision. En mode 4 bits, le calcul des logits d’attention est jusqu’à 8 fois plus rapide sur GPU NVIDIA H100 par rapport à la référence non compressée en 32 bits.

Sur le plan théorique, la distorsion MSE (erreur quadratique moyenne) de TurboQuant se situe à un facteur d’environ 2,7 de la borne inférieure théorique absolue établie par Shannon, et seulement 1,45 à un bit de largeur. L’algorithme est qualifié de “data-oblivious” : il ne nécessite aucun prétraitement ni calibration spécifique au jeu de données, contrairement à la Product Quantization (PQ) classique qui exige un entraînement k-means pouvant prendre des centaines de secondes.

Un impact au-delà des LLM : la recherche vectorielle

TurboQuant ne se limite pas à la compression des caches KV. Appliqué à la recherche de voisins les plus proches dans les bases de données vectorielles, il réduit le temps d’indexation à quasiment zéro. Pour des vecteurs de dimension 1 536, courante dans les embeddings modernes, TurboQuant indexe en 0,0013 seconde contre 239 secondes pour la Product Quantization, tout en offrant un meilleur taux de rappel sur le dataset GloVe. Cet avantage est décisif pour les applications de recherche sémantique et de RAG (Retrieval-Augmented Generation) à grande échelle.

Ce qu’il faut surveiller

TurboQuant sera présenté officiellement à ICLR 2026, l’une des conférences de référence en apprentissage automatique. Google indique que l’une des applications prioritaires vise à résoudre le goulot d’étranglement du cache KV dans ses propres modèles Gemini.

Aucune implémentation PyTorch ou CUDA publique n’est encore disponible sur GitHub, mais la communauté open source (notamment les développeurs de llama.cpp et vLLM) a déjà commencé à discuter de l’intégration.

Si les gains se confirment à grande échelle sur des modèles plus lourds, TurboQuant pourrait devenir un standard de facto pour l’inférence longue, mettant la pression sur les solutions concurrentes d’OpenAI, Anthropic et des fournisseurs cloud.

Cet article vous a plu ? Recevez les prochains par email

Rejoignez +40 000 abonnés. L'essentiel du marché crypto dans votre boîte mail, tous les 2 jours.

En savoir plus sur notre newsletter crypto →
Retrouvez toute l'actualité dans notre rubrique Intelligence Artificielle sur Coin Academy.
Articles qui pourraient vous intéresser
Logo CoinAcademy
Résumé de la politique de confidentialité

Ce site utilise des cookies afin que nous puissions vous fournir la meilleure expérience utilisateur possible. Les informations sur les cookies sont stockées dans votre navigateur et remplissent des fonctions telles que vous reconnaître lorsque vous revenez sur notre site Web et aider notre équipe à comprendre les sections du site que vous trouvez les plus intéressantes et utiles.