Le secteur technologique continue de livrer des avancées remarquables.
Développer un agent basé sur l’apprentissage par renforcement capable d’apprendre à extraire des souvenirs pertinents à long terme pour répondre avec précision aux questions posées à un modèle de langage à grande échelle (LLM)
Dans ce tutoriel, nous développons un agent basé sur l’apprentissage par renforcement qui apprend à extraire des souvenirs pertinents d’une banque de mémoire à long terme. Nous commençons par constituer un ensemble de données de mémoire synthétique et par générer des requêtes qui obligent l’agent à se remémorer des informations spécifiques. À l’aide des encodages OpenAI, nous convertissons à la fois les souvenirs et les requêtes en représentations vectorielles, ce qui permet d’utiliser des signaux de similarité pour guider la sélection des résultats. Nous concevons ensuite un environnement d’apprentissage par renforcement sur mesure dans lequel l’agent observe les caractéristiques des souvenirs candidats et apprend une stratégie permettant de sélectionner le plus utile d’entre eux. En entraînant l’agent à l’aide de l’algorithme PPO, nous lui permettons d’améliorer ses décisions de récupération au-delà d’une simple recherche par similarité. Enfin, nous évaluons le mécanisme en comparant le moteur de travaux de recherche basé sur l’apprentissage par renforcement à une approche de référence, et nous montrons comment un modèle de langage de grande envergure (LLM) peut mettre à profit les souvenirs extraits pour générer des réponses précises.
Nous avons mis en place l’environnement nécessaire à notre dispositif de récupération de souvenirs basé sur l’apprentissage par renforcement. Nous installons toutes les bibliothèques requises, importons les modules nécessaires et chargeons en toute sécurité la clé API OpenAI pour les interactions avec les modèles d’embeddings et les modèles linguistiques. Nous définissons également des fonctions d’aide qui génèrent des embeddings, produisent des réponses à partir des souvenirs récupérés et évaluent ces réponses à l’aide d’un mécanisme d’évaluation basé sur un modèle linguistique de grande capacité (LLM).
Nous entraînons un agent PPO afin qu’il apprenne une stratégie permettant de sélectionner le souvenir le plus pertinent parmi un ensemble de candidats.
Nous construisons une banque de mémoire synthétique à long terme qui simule des connaissances stockées dans différents secteurs. Nous générons des éléments de mémoire structurés et les convertissons en mémoires textuelles pouvant ensuite être intégrées pour permettre une recherche sémantique. Nous créons également des ensembles de éléments de requêtes à partir de ces mémoires et les intégrons afin que l’agent puisse comparer les requêtes avec les connaissances stockées.
Dans la foulée, nous préparons des souvenirs candidats pour chaque requête en calculant des scores de similarité entre les représentations de la requête et celles des souvenirs. Nous construisons ensuite des vecteurs de caractéristiques qui décrivent chaque souvenir candidat à l’aide de la similarité, du chevauchement des mots-clés, de la correspondance d’entités et des signaux de classement. Enfin, nous définissons un environnement d’apprentissage par renforcement personnalisé dans lequel l’agent apprend à sélectionner la meilleure mémoire pour répondre à chaque requête.
Nous divisons les ensembles de informations et initialisons le modèle d’apprentissage par renforcement. Nous entraînons un agent PPO afin qu’il apprenne une stratégie permettant de sélectionner le souvenir le plus pertinent parmi un ensemble de candidats. Une fois l’entraînement terminé, nous évaluons les performances de l’agent en matière de recherche et les comparons à celles d’une approche de référence basée sur la similarité des représentations.
En parallèle, nous évaluons dans quelle mesure les souvenirs extraits permettent de répondre aux questions en aval. Nous générons des réponses à partir du contexte du souvenir extrait et évaluons ces réponses à l’aide d’un système d’évaluation basé sur un modèle d’IA de langage de grande capacité (LLM) afin d’en déterminer l’exactitude. Nous examinons également des exemples de requêtes afin de comparer visuellement la manière dont le système de recherche de référence et l’agent d’apprentissage par renforcement sélectionnent des souvenirs différents.
Nous mettons au point une démonstration interactive qui nous permet de tester l’agent de recherche formé sur de nouvelles questions. Nous affichons les souvenirs candidats, mettons en évidence celui sélectionné par l’agent d’apprentissage par renforcement et générons une réponse à partir du contexte choisi. De plus, nous enregistrons tous les éléments, y compris les représentations, les résultats, les ensembles de données et le modèle d’IA d’apprentissage par renforcement formé, afin que le système puisse être réutilisé ou faire l’objet d’analyses plus approfondies.
En conclusion, nous avons démontré comment l’apprentissage par renforcement peut améliorer la récupération de souvenirs dans les systèmes d’IA agentique. Nous avons formé un agent d’apprentissage par renforcement à sélectionner des souvenirs pertinents parmi un ensemble de candidats en utilisant des signaux tels que la similarité sémantique, le recoupement de mots-clés et la correspondance d’entités. Nous avons ensuite évalué le mécanisme de récupération et comparé la stratégie apprise aux méthodes traditionnelles de récupération basées sur les embeddings. En intégrant le système de récupération à un modèle de langage à grande échelle (LLM), nous avons également démontré comment une meilleure sélection des données en mémoire améliore les performances en matière de réponse aux questions en aval. À travers des expériences, des visualisations et des démonstrations interactives, nous avons exploré comment l’apprentissage par renforcement (RL) peut optimiser l’accès à la mémoire à long terme chez les agents intelligents.
L’écosystème continuera probablement de s’ajuster dans les semaines à venir.
À découvrir aussi :
- Découvrez Talkie-1930 : un grand modèle de langage (LLM) de type 13B à poids ouvert, formé sur des textes anglais antérieurs à 1931 pour la travaux de recherche en raisonnement historique et en généralisation
- Le créateur de Claude Code vient de dévoiler son processus de travail, et les développeuses et développeurs sont en effervescence
Article original : MarkTechPost : MarkTechPost