Un robot qui peut explorer de manière autonome des environnements du monde réel
Les roboticiens ont développé de nombreux systèmes avancés au cours de la dernière décennie, mais la plupart de ces systèmes nécessitent encore un certain degré de supervision humaine. Idéalement, les futurs robots devraient explorer des environnements inconnus de manière autonome et indépendante, en collectant en permanence des données et en apprenant à partir de ces données.
Des chercheurs de l’Université Carnegie Mellon ont récemment créé ALAN, un agent robotique capable d’explorer de manière autonome des environnements inconnus. Ce robot, présenté dans un article prépublié sur arXiv et qui devait être présenté à la Conférence internationale sur la robotique et l’automatisation (ICRA 2023), s’est avéré capable d’accomplir avec succès des tâches dans le monde réel après un bref nombre d’essais d’exploration.
« Nous nous sommes intéressés à la construction d’une IA qui apprend en fixant ses propres objectifs », a déclaré Russell Mendonca, l’un des chercheurs qui a mené l’étude, à Tech Xplore. « En ne dépendant pas des humains pour la supervision ou les conseils, ces agents peuvent continuer à apprendre dans de nouveaux scénarios, poussés par leur propre curiosité. Cela permettrait une généralisation continue à différents domaines et la découverte de comportements de plus en plus complexes. »
Le groupe de robotique de l’Université Carnegie Mellon avait déjà introduit des agents autonomes qui pouvaient bien effectuer de nouvelles tâches avec peu ou pas de formation supplémentaire, y compris un modèle formé pour jouer au jeu vidéo Mario et un système qui pouvait effectuer des tâches de manipulation d’objets en plusieurs étapes. . Cependant, ces systèmes n’ont été formés et testés que dans des environnements simulés.
L’objectif principal de l’étude récente de l’équipe était de créer un cadre qui pourrait être appliqué aux robots physiques dans le monde, améliorant leur capacité à explorer leur environnement et à accomplir de nouvelles tâches. ALAN, le système qu’ils créent, apprend à explorer son environnement de manière autonome, sans recevoir de récompenses ou de conseils d’agents humains. Par la suite, il peut réutiliser ce qu’il a appris dans le passé pour s’attaquer à de nouvelles tâches ou à de nouveaux problèmes.
« ALAN apprend un modèle mondial dans lequel planifier ses actions et se dirige en utilisant des objectifs centrés sur l’environnement et sur l’agent », a expliqué Mendonca. « Il réduit également l’espace de travail à la zone d’intérêt à l’aide de détecteurs pré-entraînés prêts à l’emploi. Après l’exploration, le robot peut assembler les compétences découvertes pour effectuer des tâches à une ou plusieurs étapes spécifiées via des images d’objectifs. »
Le robot des chercheurs dispose d’un module visuel qui peut estimer les mouvements des objets dans son environnement. Ce module utilise ensuite ces estimations de la façon dont les objets se sont déplacés pour maximiser le changement d’objets et encourager le robot à interagir avec ces objets.
« Il s’agit d’un signal centré sur l’environnement, car il ne dépend pas de la croyance de l’agent », a déclaré Mendonca. « Pour améliorer son estimation du changement d’objets, ALAN doit être curieux à ce sujet. Pour cela, ALAN utilise son modèle appris du monde pour identifier les actions où il est incertain du changement d’objet prédit, puis les exécute dans le réel monde. Ce signal centré sur l’agent évolue à mesure que le robot voit plus de données. »
Les approches proposées précédemment pour l’exploration de robots autonomes nécessitaient de grandes quantités de données de formation. Cela empêche ou limite considérablement leur déploiement sur de vrais robots. En revanche, l’approche d’apprentissage proposée par Mendonca et ses collègues permet au robot ALAN d’apprendre de manière continue et autonome à accomplir des tâches tout en explorant son environnement.
« Nous montrons qu’ALAN peut apprendre à manipuler des objets avec seulement environ 100 trajectoires en 1 à 2 heures dans deux cuisines de jeu distinctes, sans aucune récompense », a déclaré Mendonca. « Par conséquent, l’utilisation de priors visuels peut considérablement augmenter l’efficacité de l’apprentissage des robots. Les versions à grande échelle de ce système qui fonctionnent 24h/24 et 7j/7 pourront acquérir en permanence de nouvelles compétences utiles avec une intervention humaine minimale dans tous les domaines, nous rapprochant robots intelligents à des fins spécifiques. »
Lors des premières évaluations, le robot de l’équipe a remarquablement bien fonctionné, car il a pu apprendre rapidement à effectuer de nouvelles tâches de manipulation sans aucune formation ni aide d’agents humains. À l’avenir, ALAN et le cadre qui le sous-tend pourraient ouvrir la voie à la création de systèmes robotiques autonomes plus performants pour l’exploration de l’environnement.
« Nous voulons ensuite étudier comment utiliser d’autres a priori pour aider à structurer le comportement du robot, comme des vidéos d’humains effectuant des tâches et des descriptions de langage », a ajouté Mendonca. « Les systèmes qui peuvent efficacement s’appuyer sur ces données pourront mieux explorer de manière autonome en opérant dans des espaces structurés. De plus, nous sommes intéressés par des systèmes multi-robots qui peuvent mettre en commun leur expérience pour apprendre en permanence. »