Un développement récent dans le monde de l’IA attire l’attention.
Les 10 principaux modèles d’IA physique équipant les robots du monde réel en 2026
L’écart entre les capacités des modèles linguistiques et leur déploiement dans le domaine de la robotique s’est considérablement réduit au cours des 18 derniers mois. Une nouvelle catégorie de modèles de base — conçus non pas pour la génération de texte, cependant pour l’action physique — est désormais mise en œuvre sur du matériel réel dans des usines, des entrepôts et des laboratoires de recherche. Ces systèmes englobent les politiques robotiques déployées, les VLA en préversion privée, les modèles de travaux de recherche à poids libre et les modèles du monde utilisés pour adapter les informations d’entraînement des robots. Certains font actuellement l’objet d’évaluations ou sont déployés en collaboration avec des partenaires industriels ; d’autres sont principalement destinés à la travaux de recherche ou aux développeurs. Voici une présentation des dix systèmes les plus importants en 2026.
NVIDIA a présenté le modèle originalGR00T N1 lors de la conférence GTC en mars 2025, le premier modèle de base ouvert et entièrement personnalisable au monde dédié au raisonnement et aux compétences humanoïdes généralisés. Depuis, la série N a connu une évolution rapide. GR00T N1.5, annoncé lors du salon COMPUTEX en mai 2025, a introduit un VLM figé, des améliorations apportées à l’ancrage de l’Eagle 2.5, un objectif d’entraînement FLARE permettant d’apprendre à partir de vidéos de l’ego humain, ainsi que le plan GR00T-Dreams — qui a permis de réduire la génération de données synthétiques de différents mois à environ 36 heures.
Parmi les premiers utilisateurs de la série GR00T N figurent AeiRobot, Foxlink, NEURA Robotics et Lightwheel.
Dans la foulée, le GR00T N1.6 a suivi le 15 décembre 2025, doté d’une récente architecture interne NVIDIA Cosmos-2B VLM prenant en charge une résolution flexible, d’un DiT deux fois plus grand (32 couches contre 16 dans le N1.5), de blocs d’action relatifs à l’état pour des mouvements plus fluides, ainsi que de plusieurs milliers d’heures supplémentaires de données de téléopération provenant de bras YAM bimanuels, AGIBot Genie-1 et Unitree G1. Sa performance a été validée lors de tâches réelles de manipulation bimanuelle et de manipulation de l’environnement sur l’ensemble de ces versions.
De plus, la dernière version, GR00T N1.7 Early Access (17 avril 2026), est un VLA à paramètres 3B ouvert et sous licence commerciale, construit sur une infrastructure Cosmos-Reason2-2B et doté d’un DiT à 32 couches pour le contrôle moteur de bas niveau — une architecture à double système de type « Action Cascade ». Sa principale avancée réside dans EgoScale : un pré-entraînement sur 20 854 heures de vidéos centrées sur l’humain, couvrant plus de 20 catégories de tâches, ce qui représente une augmentation considérable par rapport aux heures de téléopération robotique utilisées dans les versions précédentes. NVIDIA a identifié ce qu’elle décrit comme la toute première loi d’échelle applicable à la dextérité robotique : le fait de passer de 1 000 à 20 000 heures de éléments egocentriques humaines offre la possibilité de plus que doubler le temps moyen nécessaire à l’exécution d’une tâche. La version N1.7 en accès anticipé est proposé sur HuggingFace et GitHub sous licence Apache 2.0, le support complet pour la production étant prévu pour la sortie de la version grand public. Parmi les premiers utilisateurs de la série GR00T N figurent AeiRobot, Foxlink, NEURA Robotics et Lightwheel.
Gemini Robotics est un modèle avancé de vision-langage-action (VLA) basé sur Gemini 2.0, auquel ont été ajoutées des actions physiques en tant que nouvelle modalité de sortie permettant de contrôler directement des robots. Il a été lancé en mars 2025, parallèlement à Gemini Robotics-ER (raisonnement incarné). La mise à jour de septembre 2025, Gemini Robotics 1.5, a introduit des capacités d’agentique : elle permet de transformer les informations visuelles et les instructions en commandes motrices tout en rendant transparent le processus de raisonnement du modèle, aidant ainsi les robots à évaluer et à accomplir des tâches complexes en plusieurs étapes de manière plus compréhensible.
Sur ce point, l’accès reste réservé à certains partenaires, notamment Agile Robots, Agility Robotics, Boston Dynamics et Enchanted Tools, et n’est pas accessible au grand public. La gamme continue de s’étoffer : le Gemini Robotics-ER 1.6, lancé le 14 avril 2026, améliore le raisonnement spatial et la compréhension multi-vues — notamment grâce à une nouvelle fonctionnalité de lecture d’instruments mise au point en collaboration avec Boston Dynamics pour l’interprétation de jauges et de voyants complexes. Gemini Robotics-ER 1.6 est accessible aux développeurs via l’API Gemini et Google AI Studio.
π0 propose une architecture de correspondance de flux s’appuyant sur un modèle d’IA vision-langage pré-entraîné afin d’intégrer des connaissances sémantiques à l’échelle d’Internet, et qui a été formé sur divers plateformes de robots agiles, notamment des robots à un bras, des robots à deux bras et des manipulateurs mobiles. Physical Intelligence a mis π0 en open source en février 2025.
Les informations principales :
- Il a été lancé en mars 2025, parallèlement à Gemini Robotics-ER (raisonnement incarné).
- Gemini Robotics-ER 1.6 est accessible aux développeurs via l’API Gemini et Google AI Studio.
- Physical Intelligence a mis π0 en open source en février 2025.
Une affaire qui méritera assurément d’être suivie de près.
Pour aller plus loin :
- Le NousCoder-14B de Nous Research est un modèle de codage open source qui s’inscrit parfaitement dans la tendance Claude Code
- Tesla vient de porter son budget à 25 milliards de dollars — voici où ira cet argent | TechCrunch
- Google dévoile deux nouveaux TPU conçus pour « l’ère des agents »
Source : MarkTechPost : MarkTechPost