Un nouvel algorithme d’augmentation des données pourrait faciliter le transfert de compétences entre robots
Ces dernières années, les roboticiens ont développé une large gamme de systèmes conçus pour accomplir diverses tâches du monde réel, allant de l'accomplissement de tâches ménagères à la livraison de colis ou à la recherche d'objets cibles dans des environnements délimités.
Un objectif clé dans ce domaine a été de développer des algorithmes permettant le transfert fiable de compétences spécifiques entre des robots présentant des corps et des caractéristiques différents, ce qui contribuerait à former rapidement les robots à de nouvelles tâches, élargissant ainsi leurs capacités.
Des chercheurs de l'UC Berkeley ont développé RoVi-Aug, un nouveau cadre informatique conçu pour augmenter les données robotiques et faciliter le transfert de compétences entre différents robots. L'approche proposée, décrite dans un article pré-publié sur arXiv et qui doit être présenté à la Conférence 2024 sur l'apprentissage des robots (CoRL), utilise des modèles génératifs de pointe pour augmenter les données d'image et créer des démonstrations de tâches visuelles synthétisées avec différentes vues de caméra pour des robots distincts.
« Le succès des systèmes d'apprentissage automatique modernes, en particulier des modèles génératifs, démontre une généralisabilité impressionnante et motive les chercheurs en robotique à explorer comment parvenir à une généralisabilité similaire en robotique », Lawrence Chen (candidat au doctorat, AUTOLab, EECS & IEOR, BAIR, UC Berkeley ) et Chenfeng Xu (candidat au doctorat, Pallas Lab & MSC Lab, EECS & ME, BAIR, UC Berkeley), ont déclaré à Tech Xplore.
« Nous étudions le problème de la généralisation des points de vue croisés et des robots depuis le début de cette année. »
Lors de leurs précédentes recherches, Chen, Xu et leurs collègues ont identifié certains des défis liés à la généralisation de l’apprentissage sur différents robots. Plus précisément, ils ont constaté que lorsque les scènes incluses dans les ensembles de données robotiques sont inégalement réparties, par exemple, contenant une prédominance de visuels de robots et d'angles de caméra spécifiques par rapport à d'autres, cela les rend moins efficaces pour enseigner les mêmes compétences à différents robots.
Il est intéressant de noter que les chercheurs ont découvert que de nombreux ensembles de données existants sur la formation des robots sont déséquilibrés, y compris certains des plus bien établis. Par exemple, même l'ensemble de données Open-X Embodiment (OXE), un ensemble de données largement utilisé pour la formation d'algorithmes robotiques et contenant des démonstrations de différents robots accomplissant diverses tâches, contient davantage de données pour certains robots, tels que les manipulateurs Franka et xArm.
« De tels biais dans l'ensemble de données font que le modèle politique en matière de robots a tendance à être suradapté à des types de robots et à des points de vue spécifiques », ont déclaré Chen et Xu.
« Pour atténuer ce problème, en février 2024, nous avons proposé un algorithme d'adaptation au moment du test, Mirage, qui utilise le « cross-painting » pour transformer un robot cible invisible en robot source vu pendant l'entraînement, créant ainsi l'illusion que le robot source est effectuer la tâche au moment du test.
Mirage, l'algorithme que les chercheurs ont présenté dans leur article précédent, s'est avéré permettre un transfert de compétences sans tir vers des robots cibles invisibles. Néanmoins, le modèle s’est avéré présenter diverses limites.
Premièrement, pour bien fonctionner, Mirage nécessite des modèles de robots et des matrices de caméras précis. De plus, l'algorithme ne prend pas en charge le réglage fin des politiques du robot et se limite au traitement d'images avec peu de changements dans la pose de la caméra, car il est susceptible de commettre des erreurs dans la reprojection de la profondeur de l'image.
« Dans nos derniers travaux, nous présentons un algorithme alternatif appelé RoVi-Aug », ont déclaré Chen et Xu. « Le but de cet algorithme est de surmonter les limites de Mirage en améliorant la robustesse et la généralisabilité des politiques pendant la formation, en se concentrant sur la gestion de divers visuels de robot et poses de caméra, plutôt que de s'appuyer sur l'approche de peinture croisée au moment du test avec des hypothèses strictes sur les poses de caméra connues et les URDF de robot (formats de description de robot unifiés). »
RoVi-Aug, le nouveau cadre d'augmentation des données robotiques introduit par les chercheurs, est basé sur des modèles de diffusion de pointe. Il s'agit de modèles informatiques capables d'augmenter les images des trajectoires d'un robot, en générant des images synthétiques montrant différents robots accomplissant des tâches, vus sous différents points de vue.
Les chercheurs ont utilisé leur cadre pour compiler un ensemble de données contenant un large éventail de démonstrations de robots synthétiques, puis ont formé des politiques de robots sur cet ensemble de données. Cela permet à son tour le transfert de compétences vers de nouveaux robots qui n’ont pas été préalablement exposés à la tâche incluse dans la démonstration, connue sous le nom d’apprentissage zéro.
Notamment, les politiques du robot peuvent également être affinées pour atteindre des performances toujours meilleures dans une tâche donnée. De plus, contrairement au modèle Mirage présenté dans l'article précédent de l'équipe, leur nouvel algorithme peut prendre en charge des changements drastiques dans les angles de caméra.
« Contrairement aux méthodes d'adaptation au temps de test comme Mirage, RoVi-Aug ne nécessite aucun traitement supplémentaire pendant le déploiement, ne repose pas sur la connaissance des angles de caméra à l'avance et prend en charge le réglage fin des politiques », ont expliqué Chen et Xu. « Cela va également au-delà de la co-formation traditionnelle sur des ensembles de données multi-robots et multi-tâches en encourageant activement le modèle à apprendre la gamme complète de robots et de compétences à travers les ensembles de données. »
Le modèle RoVi-Aug comporte deux composants distincts, à savoir les modules d'augmentation du robot (Ro-Aug) et d'augmentation du point de vue (Vi-Aug). Le premier de ces composants est conçu pour synthétiser les données de démonstration mettant en vedette différents systèmes robotiques, tandis que le second peut produire des démonstrations vues sous différents angles.
« Ro-Aug possède deux fonctionnalités clés : un modèle SAM affiné pour segmenter le robot et un ControlNet affiné pour remplacer le robot d'origine par un autre », ont déclaré Chen et Xu. « Pendant ce temps, Vi-Aug exploite ZeroNVS, un nouveau modèle de synthèse de vue de pointe, pour générer de nouvelles perspectives de la scène, rendant le modèle adaptable à différents points de vue de la caméra. »
Dans le cadre de leur étude, les chercheurs ont utilisé leur modèle pour produire un ensemble de données robot augmenté, puis ont testé l’efficacité de cet ensemble de données pour les politiques de formation et le transfert de compétences entre différents robots. Leurs premières découvertes mettent en évidence le potentiel de Rovi-Aug, car l’algorithme s’est avéré permettre la formation de politiques qui se généralisent bien à différents robots et configurations de caméras.
« Son innovation clé réside dans l'application de modèles génératifs, tels que la génération d'image à image et la synthèse de nouvelles vues, au défi de l'apprentissage des robots entre modes de réalisation », ont expliqué Chen et Xu.
« Alors que des travaux antérieurs utilisaient l'augmentation générative pour améliorer la robustesse des politiques face à des objets et des arrière-plans distrayants, RoVi-Aug est le premier à montrer comment cette approche peut faciliter le transfert de compétences entre différents robots. »
Ces travaux récents de Chen et Xu pourraient contribuer au progrès des robots, en aidant les chercheurs en robotique à élargir facilement l'ensemble des compétences de leurs systèmes. À l’avenir, il pourrait être utilisé par d’autres équipes pour transférer des compétences entre différents robots ou développer des politiques robotiques générales plus efficaces.
« Par exemple, imaginez un scénario dans lequel un chercheur a déployé des efforts considérables pour collecter des données et former une politique sur un robot Franka pour effectuer une tâche, mais vous ne disposez que d'un robot UR5 », ont déclaré Chen et Xu.
« RoVi-Aug vous permet de réutiliser les données Franka et de déployer la politique sur le robot UR5 sans formation supplémentaire. Ceci est particulièrement utile car les politiques du robot sont souvent sensibles aux changements de point de vue de la caméra, et la configuration d'angles de caméra identiques sur différents robots est un défi. RoVi-Aug élimine le besoin de configurations aussi précises. »
Étant donné que la collecte de grandes quantités de démonstrations de robots dans le monde réel peut s’avérer très coûteuse et prendre beaucoup de temps, RoVi-Aug pourrait constituer une alternative rentable pour compiler facilement des ensembles de données fiables sur la formation des robots.
Même si les images de ces ensembles de données seraient synthétiques (c’est-à-dire générées par l’IA), elles pourraient néanmoins s’avérer utiles pour produire des politiques robotiques fiables. Les chercheurs travaillent actuellement avec des collègues des laboratoires de recherche Toyota et d’autres instituts pour appliquer et étendre leur approche à d’autres ensembles de données robotiques.
« Nous visons maintenant à affiner davantage RoVi-Aug en intégrant les développements récents dans les techniques de modélisation générative, telles que la génération vidéo à la place de la génération d'images », ont ajouté Chen et Xu.
« Nous prévoyons également d'appliquer RoVi-Aug aux ensembles de données existants tels que l'ensemble de données Open-X Embodiment (OXE), et nous sommes enthousiasmés par le potentiel d'amélioration des performances des politiques robotiques généralistes formées sur ces données. L'expansion des capacités de RoVi-Aug pourrait considérablement améliorer la flexibilité et la robustesse de ces politiques sur un plus large éventail de robots et de tâches.