Comment affiner LFM2 à l'aide de QLoRA et DPO : un didacticiel de codage complet étape par étape sur Google Colab

L’industrie de l’IA poursuit sa transformation rapide avec cette nouvelle annonce.

Comment affiner LFM2 à l’aide de QLoRA et DPO : un didacticiel de codage complet étape par étape sur Google Colab

Dans ce didacticiel, nous affinons le système LFM2 de Liquid AI via un flux de travail open source complet. Nous commençons par charger le point de contrôle LFM2 de base avec QLoRA, préparer un ensemble de données de réglage fin supervisé de type chat, former un adaptateur LoRA léger à l’aide de TRL et PEFT, puis fusionner à nouveau l’adaptateur dans le système. Nous étendons par ailleurs le flux de travail avec DPO pour montrer comment nous pouvons améliorer les préférences de réponse en utilisant les réponses choisies et rejetées. À la fin, nous disposons d’un pipeline pratique qui passe d’un modèle LFM2 de base à un point de contrôle optimisé par SFT et aligné sur les préférences, prêt pour des tests ou un déploiement ultérieurs.

Précisons, nous installons toutes les bibliothèques requises pour affiner LFM2 dans Google Colab. Nous importons les outils de base de Transformers, TRL, PEFT, des ensembles de données, bitsandbytes et PyTorch. Nous définissons par ailleurs les principaux paramètres d’entraînement, détectons les GPU disponibles et sélectionnons la précision appropriée pour un entraînement performant.

Nous fusionnons enfin l’adaptateur DPO, enregistrons le point de contrôle final du modèle et comparons le résultat aux sorties précédentes.

Nous chargeons le modèle de base LFM2 avec une quantification 4 bits en option pour réduire l’utilisation de la mémoire GPU. Nous préparons le tokenizer, définissons le jeton de remplissage et définissons une fonction de discussion pour tester les réponses du modèle. Nous exécutons ensuite une invite de base pour comparer le comportement du système avant et après le réglage fin.

Nous chargeons un ensemble de données de réglage fin supervisé au format chat et conservons uniquement la colonne des messages. Nous configurons LoRA pour une formation légère basée sur un adaptateur et définissons les paramètres de formation SFT. Nous entraînons ensuite le modèle avec SFT, enregistrons l’adaptateur LoRA et testons la réponse améliorée du modèle.

Nous effaçons les objets d’entraînement précédents de la mémoire pour libérer les ressources GPU. Nous rechargeons le modèle de base LFM2 en fp16 ou bf16 et fixons l’adaptateur SFT LoRA formé. Nous fusionnons ensuite l’adaptateur dans le modèle de base et enregistrons le point de contrôle SFT fusionné pour l’étape suivante.

Nous exécutons éventuellement DPO en utilisant des paires de réponses sélectionnées et rejetées. Nous configurons un autre adaptateur LoRA pour le réglage des préférences et formons le modèle fusionné SFT avec DPO. Nous fusionnons enfin l’adaptateur DPO, enregistrons le point de contrôle final du modèle et comparons le résultat aux sorties précédentes.

En conclusion, nous avons construit un pipeline de réglage complet pour LFM2 en utilisant uniquement des outils open source, notamment Transformers, TRL, PEFT, des ensembles de informations et des bits et octets. Nous avons utilisé QLoRA pour rendre la formation efficient sur les GPU Colab, appliqué un réglage fin supervisé aux informations au format chat, fusionné l’adaptateur formé dans le modèle de base et éventuellement amélioré le modèle via DPO. Cela nous donne une vision claire du fonctionnement pratique du réglage fin du LLM moderne, du chargement du modèle à la production d’un point de contrôle final qui peut être comparé à la référence d’origine et préparé pour le déploiement.

Point notable, besoin de collaborer avec nous pour promouvoir votre dépôt GitHub OU votre page Hugging Face OU votre version de produit OU votre webinaire, etc. ? Connectez-vous avec nous

En synthèse :

Nous exécutons éventuellement DPO en utilisant des paires de réponses sélectionnées et rejetées.
Besoin de collaborer avec nous pour promouvoir votre dépôt GitHub OU votre page Hugging Face OU votre version de produit OU votre webinaire, etc. ?

Reste à voir comment l’industrie va réagir à cette annonce.

Pour aller plus loin :

Via MarkTechPost : MarkTechPost