Comment créer un agent incarné léger inspiré du système « vision-langage-action », utilisant la modélisation du monde latent et le contrôle prédictif par modèle

Le paysage de l’intelligence artificielle s’enrichit d’une nouveauté significative.

Comment créer un agent incarné léger inspiré du système « vision-langage-action », utilisant la modélisation du monde latent et le contrôle prédictif par modèle

Dans ce tutoriel, nous développons un agent de vision par simulation incarnée qui apprend à percevoir, planifier, prédire et replanifier directement à partir d’observations de pixels. Nous créons un monde en grille entièrement rendu avec NumPy, dans lequel l’agent observe des images RVB plutôt que des variables d’état symboliques, ce qui nous permet de simuler un pipeline simplifié de type « vision-langage-action ». Nous formons un modèle global léger qui encode les éléments visuelles en une représentation latente, prédit les états futurs en fonction des actions et des objectifs, et reconstitue l’image suivante. Grâce au contrôle prédictif du modèle dans l’espace latent, nous permettons à l’agent d’évaluer différentes séquences d’actions possibles, d’analyser les résultats prédits et d’exécuter la meilleure action dans une boucle fermée.

Nous initialisons l’environnement, définissons des graines déterministes et configurons le monde en grille allégé. Nous mettons en œuvre un moteur de rendu RVB entièrement basé sur NumPy afin que l’agent puisse percevoir les observations brutes des pixels sans avoir recours à des bibliothèques externes. Nous définissons aussi la dynamique des transitions d’état et préparons la conversion des images en tenseurs pour l’entraînement du modèle.

De plus, nous collectons des informations de simulation en permettant à l’agent d’interagir de manière aléatoire avec l’environnement. Nous construisons des transitions qui associent l’image et l’action actuelles à l’image suivante et à la représentation de l’état. Nous intégrons ensuite ces données dans un ensemble de données PyTorch et un DataLoader afin de permettre un apprentissage par mini-lots performant.

Fait intéressant, nous définissons un modèle du monde compact inspiré du cadre Vision-Language-Action. Nous construisons un encodeur CNN afin de compresser les données visuelles en un espace latent et de conditionner la dynamique latente en fonction des actions et des objectifs. Nous ajoutons aussi un décodeur et une tête de prédiction d’état afin que le modèle puisse reconstruire les images futures et prédire des variables d’état structurées.

Nous entraînons le système global en combinant la perte de reconstruction d’image et la perte de prédiction d’état. Nous optimisons la dynamique latente afin que le modèle apprenne à effectuer des prédictions prospectives cohérentes à partir des pixels. Nous veillons à ce que l’architecture reste légère et que l’entraînement soit stable afin de garantir une exécution fluide dans des environnements aux ressources limitées.

Nous mettons en œuvre le contrôle prédictif par modèle directement dans l’espace latent. Nous échantillonnons divers séquences d’actions, les simulons à l’aide de la dynamique apprise, puis sélectionnons la séquence qui minimise la distance prédite par rapport à l’objectif. Nous exécutons ensuite le cycle complet « perception-planification-prévision-replanification » et visualisons dans quelle mesure l’avenir prévu par l’agent correspond à la dynamique réelle de l’environnement.

Reste à voir comment l’industrie va réagir à cette annonce.

Pour aller plus loin :

Lire l’article original sur MarkTechPost : MarkTechPost