Aider les robots à apprendre rapidement dans de nouveaux environnements

Aider les robots à apprendre rapidement dans de nouveaux environnements

Seul à la maison, les os grinçants à cause de la vieillesse, vous avez envie d’une boisson fraîche. Vous vous tournez vers votre robot et dites : « S’il vous plaît, apportez-moi un grand verre d’eau du réfrigérateur. » Votre compagnon formé à l’IA vous oblige. Bientôt, votre soif sera étanchée.

Bien que ce scénario soit encore dans une décennie ou plus en termes d’application transparente dans le monde réel, un nouveau document de recherche dirigé par Sumedh A. Sontakke, étudiant en informatique à l’USC, avec ses conseillers, le professeur adjoint Erdem Bıyık et le professeur Laurent Itti, ouvre la porte. plus large à cette réalité potentielle avec un nouvel algorithme en ligne qu’ils ont créé appelé RoboCLIP.

Les populations vieillissantes et les soignants bénéficieront le plus des futurs travaux basés sur RoboCLIP, qui réduisent considérablement la quantité de données nécessaires à l’entraînement des robots en permettant à quiconque d’interagir avec eux par le biais d’un langage ou de vidéos, du moins, pour l’instant, dans des simulations informatiques.

« Pour moi, la chose la plus impressionnante à propos de RoboCLIP est de pouvoir faire faire quelque chose à nos robots sur la base d’une seule démonstration vidéo ou d’une seule description linguistique », déclare Biyik, un roboticien qui a rejoint le département d’informatique Thomas Lord de l’USC Viterbi en août 2023 et dirige le laboratoire d’apprentissage et d’autonomie interactive des robots (Lira Lab).

Apprendre rapidement avec quelques démonstrations

L’article, intitulé « RoboCLIP : Une démonstration suffit pour apprendre les politiques relatives aux robots », est publié sur le arXiv serveur de préimpression et sera présenté par Sontakke lors de la 37e conférence sur les systèmes de traitement de l’information neuronale (NeurIPS), du 10 au 16 décembre à la Nouvelle-Orléans.

« La grande quantité de données actuellement requise pour qu’un robot puisse accomplir avec succès la tâche que vous souhaitez qu’il accomplisse n’est pas réalisable dans le monde réel, où vous voulez des robots capables d’apprendre rapidement avec peu de démonstrations », explique Sontakke.

Pour contourner ce problème notoirement difficile de l’apprentissage par renforcement – ​​un sous-ensemble de l’IA dans lequel une machine apprend par essais et erreurs comment se comporter pour obtenir la meilleure récompense – les chercheurs ont testé RoboCLIP.

Le résultat?

En utilisant une seule démonstration vidéo ou textuelle d’une tâche, RoboCLIP a été deux à trois fois plus performant que les autres méthodes d’apprentissage par imitation (IL).

Des recherches futures sont nécessaires avant que cette étude ne se traduise par un monde dans lequel les robots peuvent apprendre rapidement avec peu de démonstrations ou d’instructions, comme aller chercher un grand verre d’eau glacée, mais RoboCLIP représente un pas en avant significatif dans la recherche sur l’IL, ont déclaré Sontakke et Biyik.

À l’heure actuelle, les méthodes IL nécessitent de nombreuses démonstrations, des ensembles de données massifs et une supervision humaine substantielle pour qu’un robot puisse maîtriser une tâche dans des simulations informatiques.

Désormais, il peut apprendre d’un seul, montre la recherche RoboCLIP.

De bons résultats « hors des sentiers battus »

RoboCLIP a été inspiré par les progrès dans le domaine de l’IA générative et des modèles de langage vidéo (VLM), qui sont pré-entraînés sur de grandes quantités de démonstrations vidéo et textuelles, ont expliqué Sontakke et Biyik. Le nouvel algorithme exploite la puissance de ces intégrations VLM pour former des robots.

Une poignée de vidéos expérimentales sur le site RoboCLIP montrent l’efficacité de la méthode.

Dans les vidéos, un robot (dans des simulations informatiques) appuie sur un bouton rouge, ferme une boîte noire et ferme un tiroir vert après avoir reçu des instructions avec une seule démonstration vidéo ou une description textuelle (par exemple, « Robot appuyant sur le bouton rouge »).

« Prêt à l’emploi », déclare Biyik, « RoboCLIP a bien fonctionné ».

Deux ans de préparation

Sontakke a déclaré que la genèse du document de recherche remontait à deux ans.

« J’ai commencé à penser aux tâches ménagères comme ouvrir les portes et les armoires », a-t-il déclaré. « Je n’aimais pas la quantité de données que je devais collecter avant de pouvoir amener le robot à accomplir avec succès la tâche qui me tenait à cœur. Je voulais éviter cela, et c’est de là qu’est né ce projet. »

Deux diplômés de l’USC Viterbi, Sébastien MR Arnold, maintenant chez Google Research, et Karl Pertsch, maintenant à l’UC Berkeley et à l’Université de Stanford, ont collaboré avec Sontakke, Biyik et Itti sur l’article RoboCLIP. Jesse Zhang, doctorant en quatrième année. candidat en informatique à l’USC Viterbi, a également travaillé sur le projet RoboCLIP.

« Innovation clé »

« L’innovation clé ici consiste à utiliser le VLM pour « observer » de manière critique les simulations du robot virtuel qui babille tout en essayant d’accomplir la tâche, jusqu’à ce qu’à un moment donné il commence à bien faire les choses. À ce stade, le VLM reconnaîtra les progrès et récompensera les progrès accomplis. le robot virtuel pour continuer à essayer dans cette direction », a expliqué Itti.

« Le VLM peut reconnaître que le robot virtuel se rapproche du succès lorsque la description textuelle produite par le VLM observant les mouvements du robot se rapproche de ce que souhaite l’utilisateur », a ajouté Itti. « Ce nouveau type d’interaction en boucle fermée est très excitant pour moi et aura probablement de nombreuses autres applications futures dans d’autres domaines. »

Outre la population vieillissante qui comptera sur les robots pour améliorer sa vie quotidienne, RoboCLIP pourrait déboucher sur des applications qui pourraient aider tout le monde.

Pensez à ces vidéos de bricolage que vous recherchez sur YouTube pour savoir comment réparer une poubelle en panne ou un micro-ondes défectueux.

Pourriez-vous simplement, à l’avenir, demander à votre robot assistant d’effectuer de telles tâches pendant que vous dormez sur le canapé ?

Les possibilités sont intrigantes, ont déclaré Biyik et Sontakke.