Nous Research présente une méthode d'entraînement par superposition de tokens permettant d'accélérer jusqu'à 2,5 fois le pré-entraînement des modèles de langage de grande envergure (LLM), pour des modèles comptant entre 270 millions et 10 milliards de paramètres

Voici une annonce qui mérite l’attention des observateurs du secteur.

Nous Research présente une méthode d’entraînement par superposition de tokens permettant d’accélérer jusqu’à 2,5 fois le pré-entraînement des modèles de langage de grande envergure (LLM), pour des modèles comptant entre 270 millions et 10 milliards de paramètres

Cette technique d’entraînement en deux phases — validée sur quatre échelles de modèles allant de 270 millions à 10 milliards de paramètres — ne modifie que la boucle d’entraînement, sans toucher en rien à l’architecture utilisée lors de l’inférence.

Le pré-entraînement des grands modèles linguistiques est suffisamment coûteux pour que même de modestes gains d’efficacité se traduisent par des économies significatives en termes de coûts et de temps. Nous Research lance le Token Superposition Training (TST), une méthode qui réduit considérablement la durée totale du pré-entraînement à puissance de calcul fixe, sans modifier l’architecture du modèle, l’optimiseur, le tokeniseur, la stratégie de parallélisation ni les données d’entraînement.

Sur l’échelle de mélange d’experts 10B-A1B, le TST atteint une perte finale d’entraînement inférieure à celle d’un modèle d’IA de référence à FLOPs équivalents, tout en consommant 4 768 heures-GPU B200 contre 12 311 pour le modèle de référence, ce qui représente une réduction d’environ 2,5 fois du temps total de pré-entraînement.

Sur ce point, le pré-entraînement des grands modèles de langage (LLM) modernes repose largement sur les éléments. Les protocoles d’entraînement récents entraînent systématiquement un surentraînement bien au-delà des estimations optimales en termes de puissance de calcul et de débit de texte brut. La quantité de données qu’un modèle peut traiter par FLOP est désormais devenue un levier essentiel. Les tokenizers par sous-mots comme BPE améliorent déjà le débit en compressant les séquences ; et les recherches indiquent qu’une grande partie de l’avantage de BPE par rapport aux modèles au niveau des octets provient simplement de la plus courte longueur des séquences, ce qui signifie que le modèle d’IA traite davantage de texte par unité de calcul.

TST se demande s’il est possible d’optimiser davantage ce paramètre de débit pendant l’entraînement, indépendamment du tokenizer et sans modifier le modèle de manière permanente.

Précisons, la méthode TST modifie la boucle de pré-entraînement standard en deux phases successives :

Phase 1 — Superposition : pendant la première fraction du nombre total d’étapes d’apprentissage (l’article conclut que r ∈ [0,2, 0,4] est proche de l’optimum pour toutes les échelles testées), le modèle ne reçoit pas de tokens individuels. Au lieu de cela, la séquence d’entrée de longueur L est segmentée en « bags » non chevauchants de s tokens contigus. Dans la couche d’intégration, chaque sac est réduit à un seul « s-token » latent en calculant la moyenne des intégrations des tokens. Le transformateur traite ensuite une séquence de longueur L/s.

Ce qu’il faut garder à l’esprit :

La méthode TST modifie la boucle de pré-entraînement standard en deux phases successives :
Au lieu de cela, la séquence d’entrée de longueur L est segmentée en « bags » non chevauchants de s tokens contigus.

Une affaire qui méritera assurément d’être suivie de près.

À découvrir aussi :

Reportage initial : MarkTechPost : MarkTechPost