Des chercheurs présentent une nouvelle approche permettant de former des robots à des simulations d'environnements domestiques scannés
En tête de nombreuses listes de souhaits en matière d'automatisation se trouve une tâche particulièrement chronophage : les corvées.
L'objectif de nombreux roboticiens est de mettre au point la combinaison matérielle et logicielle appropriée pour qu'une machine puisse apprendre des politiques « généralistes » (les règles et stratégies qui guident le comportement du robot) qui fonctionnent partout, dans toutes les conditions.
En réalité, si vous possédez un robot domestique, vous ne vous souciez probablement pas vraiment de le voir travailler pour vos voisins. Les chercheurs du MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) ont décidé, dans cet esprit, de tenter de trouver une solution pour former facilement des politiques robotiques robustes pour des environnements très spécifiques.
« Nous souhaitons que les robots fonctionnent exceptionnellement bien en cas de perturbations, de distractions, de conditions d'éclairage variables et de changements de pose d'objets, le tout dans un seul environnement », explique Marcel Torne Villasevil, assistant de recherche du MIT CSAIL dans le laboratoire Improbable AI et auteur principal d'un article sur le travail, qui apparaît sur le serveur de préimpression. arXiv.
« Nous proposons une méthode permettant de créer des jumeaux numériques à la volée en utilisant les dernières avancées en matière de vision par ordinateur. Avec son simple téléphone, n'importe qui peut capturer une réplique numérique du monde réel, et les robots peuvent s'entraîner dans un environnement simulé beaucoup plus rapidement que dans le monde réel, grâce à la parallélisation du GPU. Notre approche élimine le besoin d'une ingénierie de récompense approfondie en s'appuyant sur quelques démonstrations du monde réel pour lancer le processus de formation. »
Emmener votre robot à la maison
RialTo, bien sûr, est un peu plus compliqué qu'un simple geste de la main avec un téléphone et (boum !) un robot domestique à votre service. Il commence par utiliser votre appareil pour scanner l'environnement cible à l'aide d'outils comme NeRFStudio, ARCode ou Polycam. Une fois la scène reconstruite, les utilisateurs peuvent la télécharger sur l'interface de RialTo pour effectuer des ajustements détaillés, ajouter les articulations nécessaires aux robots, etc.
La scène raffinée est exportée et importée dans le simulateur. Ici, l'objectif est de développer une politique basée sur des actions et des observations du monde réel, comme celle consistant à saisir une tasse sur un comptoir. Ces démonstrations du monde réel sont reproduites dans la simulation, fournissant des données précieuses pour l'apprentissage par renforcement.
« Cela permet de créer une politique solide qui fonctionne bien à la fois dans la simulation et dans le monde réel. Un algorithme amélioré utilisant l'apprentissage par renforcement permet de guider ce processus, pour garantir que la politique est efficace lorsqu'elle est appliquée en dehors du simulateur », explique Torne.
Les tests ont montré que RialTo a créé des politiques solides pour une variété de tâches, que ce soit dans des environnements de laboratoire contrôlés ou dans des environnements réels plus imprévisibles, améliorant de 67 % par rapport à l'apprentissage par imitation avec le même nombre de démonstrations. Les tâches consistaient à ouvrir un grille-pain, à placer un livre sur une étagère, à placer une assiette sur un support, à placer une tasse sur une étagère, à ouvrir un tiroir et à ouvrir une armoire.
Pour chaque tâche, les chercheurs ont testé les performances du système selon trois niveaux de difficulté croissants : randomisation des poses d'objets, ajout de distracteurs visuels et application de perturbations physiques pendant l'exécution des tâches. Associé à des données du monde réel, le système a surpassé les méthodes traditionnelles d'apprentissage par imitation, en particulier dans les situations comportant de nombreuses distractions visuelles ou perturbations physiques.
« Ces expériences montrent que si nous souhaitons être très robustes dans un environnement particulier, la meilleure idée est de tirer parti des jumeaux numériques au lieu d'essayer d'obtenir une robustesse avec une collecte de données à grande échelle dans des environnements divers », explique Pulkit Agrawal, directeur de l'Improbable AI Lab, professeur associé de génie électrique et d'informatique du MIT (EECS), chercheur principal du MIT CSAIL et auteur principal de l'ouvrage.
En ce qui concerne les limitations, RialTo nécessite actuellement trois jours pour être entièrement formé. Pour accélérer ce processus, l'équipe mentionne l'amélioration des algorithmes sous-jacents et l'utilisation de modèles de base. La formation en simulation a également ses limites, et il est actuellement difficile d'effectuer un transfert de simulation vers la réalité sans effort et de simuler des objets ou des liquides déformables.
Le niveau suivant
Et quelle est la suite du voyage de RialTo ? En s'appuyant sur les efforts précédents, les scientifiques s'efforcent de préserver la robustesse du modèle face à diverses perturbations tout en améliorant l'adaptabilité du modèle à de nouveaux environnements.
« Notre prochain projet consiste à utiliser des modèles pré-entraînés, à accélérer le processus d'apprentissage, à minimiser l'intervention humaine et à obtenir des capacités de généralisation plus larges », explique Torne.
« Nous sommes extrêmement enthousiastes à propos de notre concept de programmation de robots « à la volée », où les robots peuvent analyser leur environnement de manière autonome et apprendre à résoudre des tâches spécifiques en simulation. Bien que notre méthode actuelle ait des limites (nécessitant par exemple quelques démonstrations initiales par un humain et un temps de calcul important pour la formation de ces politiques (jusqu'à trois jours), nous la considérons comme une étape importante vers l'apprentissage et le déploiement de robots « à la volée » », déclare Torne.
« Cette approche nous rapproche d’un avenir où les robots n’auront plus besoin d’une politique préexistante couvrant tous les scénarios. Au lieu de cela, ils pourront rapidement apprendre de nouvelles tâches sans interaction approfondie avec le monde réel. À mon avis, cette avancée pourrait accélérer l’application pratique de la robotique bien plus tôt que si l’on s’appuyait uniquement sur une politique universelle et globale. »
« Pour déployer des robots dans le monde réel, les chercheurs s'appuient traditionnellement sur des méthodes telles que l'apprentissage par imitation à partir de données d'experts, qui peuvent être coûteuses, ou l'apprentissage par renforcement, qui peut être dangereux », explique Zoey Chen, doctorante en informatique à l'Université de Washington qui n'a pas participé à l'étude.
« RialTo répond directement aux contraintes de sécurité du RL réel [robot learning]et des contraintes de données efficaces pour les méthodes d'apprentissage basées sur les données, avec son nouveau pipeline réel-sim-réel.
« Ce nouveau pipeline garantit non seulement une formation sûre et robuste en simulation avant le déploiement dans le monde réel, mais améliore également considérablement l'efficacité de la collecte de données. RialTo a le potentiel d'améliorer considérablement l'apprentissage des robots et permet à ces derniers de s'adapter beaucoup plus efficacement à des scénarios complexes du monde réel. »
« La simulation a montré des capacités impressionnantes sur de vrais robots en fournissant des données peu coûteuses, voire infinies, pour l'apprentissage des politiques », ajoute Marius Memmel, doctorant en informatique à l'Université de Washington qui n'a pas participé aux travaux.
« Cependant, ces méthodes sont limitées à quelques scénarios spécifiques, et la construction des simulations correspondantes est coûteuse et laborieuse. RialTo fournit un outil facile à utiliser pour reconstruire des environnements réels en quelques minutes au lieu de plusieurs heures.
« De plus, il utilise largement les démonstrations collectées lors de l'apprentissage des politiques, minimisant ainsi la charge de l'opérateur et réduisant l'écart sim2real. RialTo démontre sa robustesse face aux poses et aux perturbations des objets, montrant des performances incroyables dans le monde réel sans nécessiter de construction de simulateur et de collecte de données approfondies. »