Comprendre les techniques de distillation des modèles de langage (LLM)

Un acteur majeur du secteur vient de faire parler de lui.

Comprendre les techniques de distillation des modèles de langage (LLM)

Les grands modèles linguistiques modernes ne sont plus uniquement entraînés à partir de textes bruts issus d’Internet. De plus en plus, les entreprises ont recours à de puissants modèles « enseignants » pour aider à former des modèles « élèves » plus petits ou plus efficaces. Ce processus, communément appelé « distillation de LLM » ou « apprentissage de modèle à modèle d’IA », est devenu une technique essentielle pour créer des modèles hautement performants à moindre coût de calcul. Meta a utilisé son gigantesque modèle Llama 4 Behemoth pour contribuer à l’entraînement de Llama 4 Scout et Maverick, tandis que Google s’est appuyé sur les modèles Gemini lors du développement de Gemma 2 et Gemma 3. De même, DeepSeek a intégré les capacités de raisonnement de DeepSeek-R1 dans des modèles plus compacts basés sur Qwen et Llama.

Autre élément, le principe est simple : au lieu d’apprendre uniquement à partir de textes rédigés par des humains, un modèle d’apprentissage peut en outre s’inspirer des résultats, des probabilités, des traces de raisonnement ou des comportements d’un autre modèle de langage de grande envergure (LLM). Cela rend possible à des modèles plus petits d’hériter de aptitudes telles que le raisonnement, l’exécution d’instructions et la génération structurée, issues de systèmes bien plus volumineux. La distillation peut avoir lieu pendant la phase de pré-entraînement, au cours de laquelle les modèles « enseignant » et « élève » sont entraînés conjointement, ou pendant la phase de post-entraînement, au cours de laquelle un modèle « enseignant » entièrement entraîné transmet ses connaissances à un modèle « élève » distinct.

Dans cet article, nous allons examiner trois grandes approches utilisées pour former un modèle de langage (LLM) à partir d’un autre : la distillation par étiquettes souples, où le système « élève » apprend à partir des distributions de probabilité du modèle d’IA « enseignant » ; la distillation par étiquettes rigides, où le modèle d’IA « élève » imite les sorties générées par le modèle d’IA « enseignant » ; et la co-distillation, où plusieurs modèles apprennent en collaboration en partageant leurs prédictions et leurs comportements pendant la formation.

Il faut souligner, la distillation « soft-label » est une technique d’apprentissage par laquelle un grand modèle de langage (LLM) « élève », de taille réduite, apprend en imitant la distribution de probabilité des sorties d’un grand système de langage (LLM) « enseignant », de plus grande taille. Au lieu d’être entraîné uniquement sur le token suivant correct, l’élève est entraîné à reproduire les probabilités softmax de l’enseignant sur l’ensemble du vocabulaire. Par exemple, si l’enseignant prédit le mot suivant avec des probabilités telles que « chat » = 70 %, « chien » = 20 % et « animal » = 10 %, l’élève apprend non seulement la réponse finale, toutefois aussi les relations et l’incertitude entre les différents mots. Ce signal plus riche est souvent appelé la « connaissance cachée » de l’enseignant, car il contient des informations implicites sur les schémas de raisonnement et la compréhension sémantique.

Le principal avantage de la distillation par étiquettes souples réside dans le fait qu’elle permet à des modèles plus petits d’hériter des capacités de modèles bien plus volumineux, tout en restant plus rapides et moins coûteux à déployer. Étant donné que l’élève apprend à partir de la distribution de probabilité complète du maître, l’apprentissage devient plus stable et plus instructif que s’il se basait uniquement sur des cibles fixes d’un seul mot. Cependant, cette méthode pose également des défis pratiques. Pour générer des étiquettes souples, il faut pouvoir accéder aux logits ou aux poids du modèle enseignant, ce qui n’est souvent pas possible avec les modèles à code source fermé. De plus, le stockage des distributions de probabilité pour chaque token dans des vocabulaires contenant plus de 100 000 tokens devient extrêmement gourmand en mémoire à l’échelle des grands modèles de langage (LLM), ce qui rend la distillation par étiquettes souples purement coûteuse pour les ensembles de données de plusieurs milliards de tokens.

La distillation à étiquette fixe est une approche plus simple dans laquelle le modèle d’IA élève LLM apprend uniquement à partir du dernier token prédit par le modèle enseignant, plutôt qu’à partir de sa distribution de probabilités complète. Dans ce cadre, un modèle enseignant pré-entraîné génère le token ou la réponse suivante la plus probable, et le modèle élève est entraîné à l’aide d’un apprentissage supervisé standard afin de reproduire cette sortie. En substance, l’enseignant joue le rôle d’un annotateur de haut niveau qui génère des données d’entraînement synthétiques pour l’élève. DeepSeek a utilisé cette approche pour transposer les capacités techniques de raisonnement de DeepSeek-R1 dans des modèles plus compacts, tels que Qwen et Llama 3.1.

Contrairement à la distillation à étiquettes souples, l’élève ne voit pas les scores de confiance internes de l’enseignant ni les relations entre les tokens : il n’apprend que la réponse finale. Cela rend la distillation à étiquettes fixes beaucoup moins gourmande en ressources informatiques et plus facile à mettre en œuvre, puisqu’il n’est pas nécessaire de stocker d’énormes distributions de probabilités pour chaque token. Cela s’avère également particulièrement utile lorsqu’on travaille avec des modèles propriétaires de type « boîte noire », tels que les API GPT-4, où les développeuses et développeurs n’ont accès qu’au texte généré et non aux logits sous-jacents. Bien que les étiquettes « hard » contiennent moins d’informations que les étiquettes « soft », elles restent très efficaces pour l’ajustement des instructions, les ensembles de données de raisonnement, la génération de données synthétiques et les tâches de réglage fin spécifiques à un domaine.

À retenir de cette annonce :

Cependant, cette méthode pose également des défis pratiques.
En substance, l’enseignant joue le rôle d’un annotateur de haut niveau qui génère des données d’entraînement synthétiques pour l’élève.

Difficile à ce stade de prédire tous les impacts de cette annonce.

Sur le même sujet :

D’après MarkTechPost : MarkTechPost