Google TurboQuant : mémoire LLM compressée par 6, zéro perte

Ce qu’il faut retenir :

TurboQuant réduit la mémoire du cache KV des grands modèles de langage par un facteur 6, en compressant les données à seulement 3 bits par valeur.

L’algorithme accélère le calcul de l’attention jusqu’à 8 fois sur GPU NVIDIA H100, sans nécessiter de réentraînement ni de fine-tuning.

Présenté à la conférence ICLR 2026, il s’applique aussi à la recherche vectorielle, où il élimine quasi totalement le temps d’indexation.

Google Research vient de publier TurboQuant, un algorithme de compression qui s’attaque au principal goulot d’étranglement des grands modèles de langage (LLM) en inférence : le cache Key-Value (KV). Ce cache, qui stocke les représentations intermédiaires de chaque token dans une séquence, voit sa taille croître linéairement avec la longueur du contexte. Sur des fenêtres de 100 000 tokens ou plus, il peut engloutir des dizaines de gigaoctets de mémoire GPU, limitant la capacité de traitement bien plus que la puissance de calcul elle-même.

Introducing TurboQuant: Our new compression algorithm that reduces LLM key-value cache memory by at least 6x and delivers up to 8x speedup, all with zero accuracy loss, redefining AI efficiency. Read the blog to learn how it achieves these results: https://t.co/CDSQ8HpZoc pic.twitter.com/9SJeMqCMlN
— Google Research (@GoogleResearch) March 24, 2026

Comprimer à 3 bits sans toucher au modèle

Le cache KV, c’est-à-dire la mémoire où un modèle stocke les “clés” et “valeurs” calculées pour chaque token précédent, représente le facteur limitant principal pour l’inférence en contexte long. TurboQuant le compresse à 3 bits par valeur contre 16 ou 32 bits habituellement, soit une réduction de mémoire d’au moins 6 fois. Le tout sans réentraînement, sans fine-tuning et sans perte mesurable de précision sur les tâches de question-réponse, de génération de code et de résumé.

L’algorithme repose sur deux sous-méthodes complémentaires. PolarQuant convertit les vecteurs de coordonnées cartésiennes classiques en coordonnées polaires (rayon et angle), ce qui élimine le surcoût mémoire lié aux constantes de normalisation que les techniques traditionnelles doivent stocker. QJL (Quantized Johnson-Lindenstrauss) corrige ensuite l’erreur résiduelle en réduisant chaque valeur restante à un seul bit de signe (+1 ou -1), sans aucun surcoût mémoire additionnel. Cette combinaison produit un estimateur mathématiquement non biaisé des produits scalaires, l’opération fondamentale du mécanisme d’attention des Transformers.

Des performances validées sur les benchmarks de référence

L’équipe de recherche, dirigée par Amir Zandieh et Vahab Mirrokni (vice-président et Google Fellow), en collaboration avec le KAIST (Corée du Sud) et l’université de New York, a validé TurboQuant sur plusieurs benchmarks de contexte long : LongBench, Needle-In-A-Haystack, ZeroSCROLLS, RULER et L-Eval, en utilisant les modèles open source Gemma et Mistral.

Les résultats sont nets. Sous un taux de compression de 4x, le modèle Llama-3.1-8B-Instruct maintient 100 % de précision sur le test Needle-In-A-Haystack jusqu’à 104 000 tokens, un résultat identique au modèle en pleine précision. En mode 4 bits, le calcul des logits d’attention est jusqu’à 8 fois plus rapide sur GPU NVIDIA H100 par rapport à la référence non compressée en 32 bits.

Sur le plan théorique, la distorsion MSE (erreur quadratique moyenne) de TurboQuant se situe à un facteur d’environ 2,7 de la borne inférieure théorique absolue établie par Shannon, et seulement 1,45 à un bit de largeur. L’algorithme est qualifié de “data-oblivious” : il ne nécessite aucun prétraitement ni calibration spécifique au jeu de données, contrairement à la Product Quantization (PQ) classique qui exige un entraînement k-means pouvant prendre des centaines de secondes.

Un impact au-delà des LLM : la recherche vectorielle

TurboQuant ne se limite pas à la compression des caches KV. Appliqué à la recherche de voisins les plus proches dans les bases de données vectorielles, il réduit le temps d’indexation à quasiment zéro. Pour des vecteurs de dimension 1 536, courante dans les embeddings modernes, TurboQuant indexe en 0,0013 seconde contre 239 secondes pour la Product Quantization, tout en offrant un meilleur taux de rappel sur le dataset GloVe. Cet avantage est décisif pour les applications de recherche sémantique et de RAG (Retrieval-Augmented Generation) à grande échelle.

Ce qu’il faut surveiller

TurboQuant sera présenté officiellement à ICLR 2026, l’une des conférences de référence en apprentissage automatique. Google indique que l’une des applications prioritaires vise à résoudre le goulot d’étranglement du cache KV dans ses propres modèles Gemini.

Aucune implémentation PyTorch ou CUDA publique n’est encore disponible sur GitHub, mais la communauté open source (notamment les développeurs de llama.cpp et vLLM) a déjà commencé à discuter de l’intégration.

Si les gains se confirment à grande échelle sur des modèles plus lourds, TurboQuant pourrait devenir un standard de facto pour l’inférence longue, mettant la pression sur les solutions concurrentes d’OpenAI, Anthropic et des fournisseurs cloud.

En savoir plus sur notre newsletter crypto →

Retrouvez toute l'actualité dans notre rubrique Intelligence Artificielle sur Coin Academy.

Binance Avis 2026 & Tuto : Plateforme fiable ou Arnaque ?

Kraken Avis 2026 & Tuto : Plateforme fiable ou Arnaque ?

Bitpanda Avis 2026 : Est-ce la meilleure plateforme de trading ?

Google TurboQuant : l’algorithme qui compresse la mémoire des LLM par 6 sans perte de précision

Comprimer à 3 bits sans toucher au modèle

Des performances validées sur les benchmarks de référence

Un impact au-delà des LLM : la recherche vectorielle

Ce qu’il faut surveiller

Cet article vous a plu ? Recevez les prochains par email

IA : le fondateur d’OpenZeppelin déclare que “toute la DeFi est à risque” et conseille d’en sortir

DuckDuckGo : les téléchargements bondissent de 30% après les changements IA de Google

Bitcoin : BTC glisse à 75 000 $ alors que l’or reprend l’avantage

L’Iran dénonce des violations “flagrantes” du cessez-le-feu en pleines négociations à Doha

Solana (SOL) : Qu’est-ce que c’est, comment ça fonctionne et comment en acheter ?

Ethereum (ETH) : Qu’est-ce que c’est, comment ça fonctionne et comment en acheter ?

Bitcoin (BTC) : Qu’est-ce que c’est, comment ça fonctionne et comment en acheter ?

Google TurboQuant : l’algorithme qui compresse la mémoire des LLM par 6 sans perte de précision

Comprimer à 3 bits sans toucher au modèle

Des performances validées sur les benchmarks de référence

Un impact au-delà des LLM : la recherche vectorielle

Ce qu’il faut surveiller

Cet article vous a plu ? Recevez les prochains par email

Pour aller plus loin

Articles qui pourraient vous intéresser