Nouvelle information marquante dans l’actualité IA.
Together AI open-source OSCAR : un système de quantification de cache KV à 2 bits tenant compte de l’attention pour le service de modèles de langage à long contexte
L’inférence sur des contextes longs fait du cache clé-valeur l’un des principaux facteurs de coût liés à l’exploitation des modèles de langage à grande échelle (LLM). Lors du décodage autorégressif, la taille du cache augmente en fonction de la longueur du contexte, de la taille du lot et de la profondeur du modèle. Avec des lots volumineux et des contextes longs de 100 000 tokens répartis sur des dizaines de requêtes simultanées, le cache clé-valeur consomme une part importante de la mémoire du GPU. La compression est un moyen direct d’augmenter la taille des lots et de réduire la consommation de mémoire.
À noter également, la plateforme qui s’impose est la quantification. Cependant, il s’est avéré pratiquement impossible de faire passer les caches KV à une précision INT2 (2 bits). Les méthodes existantes soit sacrifient la précision, soit nécessitent des structures de service sur mesure incompatibles avec les systèmes de cache KV paginés. L’OSCAR (Offline Spectral Covariance-Aware Rotation) de Together AI résout ces deux problèmes.
Autre élément, les activations des réseaux neuronaux convolutifs (KV) contiennent des valeurs aberrantes au niveau de certains canaux. Un petit sous-ensemble de canaux présente des valeurs extrêmement élevées. La plupart des canaux se comportent normalement. Lorsque l’on applique une quantification INT2, qui ne dispose que de quatre niveaux de représentation, ces valeurs aberrantes dominent le facteur d’échelle. Le quantificateur gaspille la majeure partie de sa plage sur de rares pics. Les valeurs normales sont alors compressées en seulement un ou deux niveaux effectifs. Cela dégrade considérablement la qualité de l’attention.
La quantification par rotation résout ce problème en appliquant une transformation orthogonale fixe, généralement la transformation d’Hadamard, afin de répartir l’énergie des valeurs aberrantes sur l’ensemble des canaux. Cette approche fonctionne assez bien au niveau INT4. Au niveau INT2, un problème plus profond subsiste : la rotation ne tient pas compte des données. Elle peut lisser les plages d’activation, toutefois elle ne sait pas dans quelles directions le mécanisme d’attention lit réellement les informations. Répartir uniformément l’erreur de quantification n’est pas la même chose que la concentrer sur les directions de faible importance. À l’étape INT2, qui ne comporte que quatre niveaux, cette distinction détermine si le modèle d’IA fonctionne ou non.
Le principal constat d’OSCAR est que la rotation appliquée avant la quantification doit être dérivée des statistiques d’attention elles-mêmes, et non de la distribution brute des activations des paires clé-valeur.
Pour les clés, l’erreur en aval qui importe n’est pas l’erreur de reconstruction euclidienne de K. Il s’agit de l’erreur dans les logits d’attention. L’équipe de recherche a démontré que cette erreur est : ‖QK⊤ − QK̂⊤‖²F = tr((K − K̂)Q⊤Q(K − K̂)⊤). La matrice de pondération est la covariance de la requête Q⊤Q, et non K⊤K. Les directions où les requêtes ont une grande énergie amplifient les erreurs de quantification dans les logits. OSCAR estime la covariance empirique des requêtes CQ = (1/N) Σ qn⊤qn à partir d’un ensemble d’étalonnage, la décompose en valeurs propres et utilise les vecteurs propres UQ comme base de rotation principale.
Les analystes auront matière à débattre dans les prochaines semaines.
Dans le même ordre d’idées :
- Le monde littéraire n’est pas prêt pour l’IA
- Dans les coulisses du projet d’Anduril et de Meta visant à développer des lunettes connectées destinées à un usage militaire
- Développer la créativité à l’ère de l’IA
Information rapportée par MarkTechPost : MarkTechPost