Google TurboQuant : l’algorithme qui compresse la mémoire des LLM par 6 sans perte de précision
Google dévoile TurboQuant, un algorithme compressant le cache KV des LLM à 3 bits avec un gain de vitesse jusqu'à 8x sur H100, sans perte de précision.