Des chercheurs élargissent la capacité des robots à apprendre à partir de vidéos
De nouveaux travaux de l’Université Carnegie Mellon ont permis aux robots d’apprendre les tâches ménagères en regardant des vidéos de personnes effectuant des tâches quotidiennes chez elles.
La recherche pourrait aider à améliorer l’utilité des robots à la maison, leur permettant d’aider les gens à effectuer des tâches comme la cuisine et le nettoyage. Deux robots ont appris avec succès 12 tâches, dont l’ouverture d’un tiroir, la porte du four et le couvercle ; retirer une casserole du feu; et décrocher un téléphone, un légume ou une boîte de soupe.
« Le robot peut apprendre où et comment les humains interagissent avec différents objets en regardant des vidéos », a déclaré Deepak Pathak, professeur adjoint à l’Institut de robotique de l’École d’informatique de la CMU. « A partir de ces connaissances, nous pouvons former un modèle qui permet à deux robots d’accomplir des tâches similaires dans des environnements variés. »
Les méthodes actuelles d’entraînement des robots nécessitent soit la démonstration manuelle des tâches par des humains, soit une formation approfondie dans un environnement simulé. Les deux prennent du temps et sont sujets à l’échec. Des recherches antérieures menées par Pathak et ses étudiants ont démontré une nouvelle méthode dans laquelle les robots apprennent en observant les humains accomplir des tâches. Cependant, WHIRL, abréviation de In-the-Wild Human Imitating Robot Learning, exigeait que l’humain accomplisse la tâche dans le même environnement que le robot.
Le dernier travail de Pathak, Vision-Robotics Bridge, ou VRB en abrégé, s’appuie sur WHIRL et l’améliore. Le nouveau modèle élimine la nécessité de démonstrations humaines ainsi que la nécessité pour le robot de fonctionner dans un environnement identique. Comme WHIRL, le robot nécessite encore de la pratique pour maîtriser une tâche. Les recherches de l’équipe ont montré qu’il peut apprendre une nouvelle tâche en aussi peu que 25 minutes.
« Nous avons pu emmener des robots sur le campus et effectuer toutes sortes de tâches », a déclaré Shikhar Bahl, titulaire d’un doctorat. étudiant en robotique. « Les robots peuvent utiliser ce modèle pour explorer curieusement le monde qui les entoure. Au lieu de simplement agiter ses bras, un robot peut être plus direct avec la façon dont il interagit. »
Pour apprendre au robot comment interagir avec un objet, l’équipe a appliqué le concept des affordances. Les affordances ont leurs racines dans la psychologie et font référence à ce qu’un environnement offre à un individu. Le concept a été étendu à la conception et à l’interaction homme-machine pour faire référence aux actions potentielles perçues par un individu.
Pour VRB, les affordances définissent où et comment un robot peut interagir avec un objet en fonction du comportement humain. Par exemple, lorsqu’un robot regarde un humain ouvrir un tiroir, il identifie les points de contact – la poignée – et la direction du mouvement du tiroir – directement à partir de l’emplacement de départ. Après avoir regardé plusieurs vidéos d’humains ouvrant des tiroirs, le robot peut déterminer comment ouvrir n’importe quel tiroir.
L’équipe a utilisé des vidéos provenant de grands ensembles de données tels que Ego4D et Epic Kitchens. Ego4D a près de 4 000 heures de vidéos égocentriques d’activités quotidiennes à travers le monde. Des chercheurs de la CMU ont aidé à collecter certaines de ces vidéos. Epic Kitchens propose des vidéos similaires capturant la cuisine, le nettoyage et d’autres tâches de cuisine. Les deux ensembles de données sont destinés à aider à former des modèles de vision par ordinateur.
« Nous utilisons ces ensembles de données d’une manière nouvelle et différente », a déclaré Bahl. « Ce travail pourrait permettre aux robots d’apprendre à partir de la grande quantité de vidéos disponibles sur Internet et YouTube. »
Plus d’informations sont disponibles sur le site Web du projet et dans un article présenté en juin lors de la conférence sur la vision et la reconnaissance des formes.