Concevoir un pipeline RLVR multimodal complet avec Open-MM-RL, l'utilisation de prompts vision-langage, l'évaluation des récompenses et l'exportation vers GRPO

L’actualité tech du jour met en lumière un développement significatif.

Concevoir un pipeline RLVR multimodal complet avec Open-MM-RL, l’utilisation de prompts vision-langage, l’évaluation des récompenses et l’exportation vers GRPO

Dans ce tutoriel, nous explorons l’ensemble de informations TuringEnterprises/Open-MM-RL comme base pratique pour le raisonnement multimodal et l’apprentissage par renforcement avec des récompenses vérifiables. Nous chargeons l’ensemble de données, examinons son schéma, analysons les domaines, les formats, la longueur des questions, les types de réponses et la répartition des images, puis visualisons des exemples représentatifs de chaque domaine. Nous développons en outre une fonction de récompense allégée qui vérifie les réponses exactes, numériques, fractionnaires, en LaTeX et symboliques, ce qui nous offre un moyen utile d’évaluer les résultats du modèle. Enfin, nous formatons les invites pour les modèles vision-langage, testons éventuellement SmolVLM sur des exemples types et exportons l’ensemble de données dans une structure de type GRPO en vue d’un futur apprentissage par renforcement multimodal.

Nous installons toutes les bibliothèques requises et importons les outils essentiels nécessaires au chargement, à l’analyse et à la visualisation des ensembles de données, aux calculs mathématiques symboliques et à la gestion des fichiers. Nous définissons des graines aléatoires pour garantir la reproductibilité et configurons pandas de manière à ce que les champs de texte longs s’affichent correctement. Nous chargeons ensuite l’ensemble de informations TuringEnterprises/Open-MM-RL depuis Hugging Face et examinons sa taille, ses caractéristiques et la structure de la première ligne.

Nous ajoutons également un outil d’aide à la conversion de LaTeX vers SymPy, permettant d’évaluer les expressions mathématiques de manière plus fiable.

Nous convertissons l’ensemble de éléments en un DataFrame après avoir supprimé la colonne « image », puis nous calculons des champs utiles tels que le nombre d’images, la longueur des questions et celle des réponses. Nous analysons le nombre de domaines, la répartition des formats, la ventilation par sous-secteurs et les statistiques de base sur le texte et les images. Nous créons également des graphiques pour illustrer le nombre d’exemples par domaine, les formats d’image et la répartition des images par exemple.

Nous définissons une fonction d’aide permettant d’afficher un exemple représentatif de chaque domaine, comprenant la question, la réponse de référence et les images associées. Nous utilisons cette étape d’inspection visuelle pour mieux comprendre comment les problèmes de raisonnement multimodal s’articulent dans les différents champs d’application. Nous analysons ensuite l’utilisation de LaTeX dans les questions et les réponses, classons les types de réponses et comparons la répartition de ces types de réponses entre les domaines.

À relever, nous mettons au point une fonction de notation vérifiable qui extrait les réponses finales et compare les prédictions aux réponses de référence à l’aide d’une correspondance exacte, numérique et symbolique. Nous ajoutons également un outil d’aide à la conversion de LaTeX vers SymPy, permettant d’évaluer les expressions mathématiques de manière plus fiable. Nous testons le correcteur à l’aide de contrôles de cohérence, puis nous créons un format de prompt structuré pour le raisonnement des modèles vision-langage.

Nous vérifions si CUDA est disponible et, si nécessaire, exécutons SmolVLM sur quelques exemples pour générer des prédictions, puis nous les évaluons à l’aide de notre fonction de récompense. Nous exportons ensuite l’ensemble de informations au format JSONL de type GRPO, en enregistrant toutes les images sur le disque en vue de futures expériences d’apprentissage par renforcement multimodal. Enfin, nous présentons des simulations de rollouts GRPO, calculons les avantages relatifs par groupe et expliquons comment ceux-ci peuvent être remplacés par de véritables échantillons générés par le modèle d’IA.

Le chapitre n’est pas clos, loin de là.

Pour aller plus loin :

Information publiée en premier lieu par MarkTechPost : MarkTechPost