Une nouvelle technique aide l'utilisateur à comprendre pourquoi un robot a échoué, puis à l'ajuster pour effectuer la tâche

Crédit : Pixabay/CC0 Domaine public

Imaginez acheter un robot pour effectuer des tâches ménagères. Ce robot a été construit et formé dans une usine sur un certain ensemble de tâches et n’a jamais vu les articles dans votre maison. Lorsque vous lui demandez de prendre une tasse sur votre table de cuisine, il se peut qu’il ne reconnaisse pas votre tasse (peut-être parce que cette tasse est peinte avec une image inhabituelle, par exemple, de la mascotte du MIT, Tim le castor). Donc, le robot tombe en panne.

« Un élément essentiel qui manque à ce système est de permettre au robot de démontrer pourquoi il échoue afin que l’utilisateur puisse lui donner un retour », explique Andi Peng, étudiant diplômé en génie électrique et informatique (EECS) au MIT.

Peng et ses collaborateurs du MIT, de l’Université de New York et de l’Université de Californie à Berkeley ont créé un cadre qui permet aux humains d’enseigner rapidement à un robot ce qu’ils veulent qu’il fasse, avec un minimum d’effort.

Lorsqu’un robot échoue, le système utilise un algorithme pour générer des explications contrefactuelles qui décrivent ce qui doit changer pour que le robot réussisse. Par exemple, peut-être que le robot aurait pu ramasser la tasse si la tasse était d’une certaine couleur. Il montre ces contrefactuels à l’humain et demande des commentaires sur la raison pour laquelle le robot a échoué. Ensuite, le système utilise ces commentaires et les explications contrefactuelles pour générer de nouvelles données qu’il utilise pour affiner le robot.

Le réglage fin consiste à peaufiner un modèle d’apprentissage automatique qui a déjà été formé pour effectuer une tâche, afin qu’il puisse effectuer une deuxième tâche similaire.

Les chercheurs ont testé cette technique dans des simulations et ont découvert qu’elle pouvait enseigner un robot plus efficacement que d’autres méthodes. Les robots formés avec ce cadre ont obtenu de meilleurs résultats, tandis que le processus de formation a consommé moins de temps humain.

Ce cadre pourrait aider les robots à apprendre plus rapidement dans de nouveaux environnements sans exiger qu’un utilisateur ait des connaissances techniques. À long terme, cela pourrait être une étape vers la possibilité pour les robots à usage général d’effectuer efficacement les tâches quotidiennes des personnes âgées ou des personnes handicapées dans divers contextes.

Peng, l’auteur principal, est rejoint par les co-auteurs Aviv Netanyahu, un étudiant diplômé de l’EECS ; Mark Ho, professeur adjoint au Stevens Institute of Technology ; Tianmin Shu, un post-doctorant du MIT ; Andreea Bobu, étudiante diplômée à UC Berkeley ; et les auteurs principaux Julie Shah, professeur d’aéronautique et d’astronautique au MIT et directrice du groupe de robotique interactive du Laboratoire d’informatique et d’intelligence artificielle (CSAIL), et Pulkit Agrawal, professeur au CSAIL.

La recherche sera présentée à la Conférence internationale sur l’apprentissage automatique et est disponible sur le serveur de préimpression arXiv.

Sur la formation professionnelle

Les robots échouent souvent en raison d’un changement de distribution – le robot se voit présenter des objets et des espaces qu’il n’a pas vus pendant la formation, et il ne comprend pas quoi faire dans ce nouvel environnement.

Une façon de recycler un robot pour une tâche spécifique est l’apprentissage par imitation. L’utilisateur pourrait démontrer la tâche correcte pour apprendre au robot quoi faire. Si un utilisateur essaie d’apprendre à un robot à ramasser une tasse, mais fait une démonstration avec une tasse blanche, le robot pourrait apprendre que toutes les tasses sont blanches. Il peut alors échouer à ramasser une tasse rouge, bleue ou « Tim-le-castor-brun ».

Apprendre à un robot à reconnaître qu’une tasse est une tasse, quelle que soit sa couleur, pourrait nécessiter des milliers de démonstrations.

« Je ne veux pas avoir à faire une démonstration avec 30 000 tasses. Je veux faire une démonstration avec une seule tasse. Mais ensuite, je dois apprendre au robot pour qu’il reconnaisse qu’il peut ramasser une tasse de n’importe quelle couleur », déclare Peng.

Pour ce faire, le système des chercheurs détermine de quel objet spécifique l’utilisateur se soucie (une tasse) et quels éléments ne sont pas importants pour la tâche (peut-être que la couleur de la tasse n’a pas d’importance). Il utilise ces informations pour générer de nouvelles données synthétiques en modifiant ces concepts visuels « sans importance ». Ce processus est connu sous le nom d’augmentation de données.

Le cadre comporte trois étapes. Tout d’abord, il montre la tâche qui a provoqué l’échec du robot. Ensuite, il recueille une démonstration de l’utilisateur des actions souhaitées et génère des contrefactuels en recherchant toutes les fonctionnalités de l’espace qui montrent ce qui devait changer pour que le robot réussisse.

Le système montre ces contrefactuels à l’utilisateur et demande des commentaires pour déterminer quels concepts visuels n’ont pas d’impact sur l’action souhaitée. Ensuite, il utilise cette rétroaction humaine pour générer de nombreuses nouvelles démonstrations augmentées.

De cette façon, l’utilisateur pourrait démontrer qu’il prend une tasse, mais le système produirait des démonstrations montrant l’action souhaitée avec des milliers de tasses différentes en modifiant la couleur. Il utilise ces données pour affiner le robot.

Créer des explications contrefactuelles et solliciter les commentaires de l’utilisateur sont essentiels pour que la technique réussisse, dit Peng.

Du raisonnement humain au raisonnement robotique

Parce que leur travail cherche à mettre l’humain dans la boucle de formation, les chercheurs ont testé leur technique auprès d’utilisateurs humains. Ils ont d’abord mené une étude dans laquelle ils ont demandé aux gens si des explications contrefactuelles les aidaient à identifier les éléments qui pouvaient être modifiés sans affecter la tâche.

« C’était si clair dès le départ. Les humains sont si doués pour ce type de raisonnement contrefactuel. Et cette étape contrefactuelle est ce qui permet de traduire le raisonnement humain en raisonnement de robot d’une manière qui a du sens », dit Peng.

Ensuite, ils ont appliqué leur cadre à trois simulations où les robots étaient chargés de : naviguer vers un objet cible, ramasser une clé et déverrouiller une porte, et ramasser un objet souhaité puis le placer sur une table. Dans chaque cas, leur méthode a permis au robot d’apprendre plus rapidement qu’avec d’autres techniques, tout en nécessitant moins de démonstrations de la part des utilisateurs.

À l’avenir, les chercheurs espèrent tester ce cadre sur de vrais robots. Ils souhaitent également se concentrer sur la réduction du temps nécessaire au système pour créer de nouvelles données à l’aide de modèles d’apprentissage automatique génératifs.

« Nous voulons que les robots fassent ce que font les humains, et nous voulons qu’ils le fassent d’une manière sémantiquement significative. Les humains ont tendance à opérer dans cet espace abstrait, où ils ne pensent pas à chaque propriété d’une image. En fin de compte, il s’agit vraiment de permettre à un robot d’apprendre une bonne représentation humaine à un niveau abstrait », explique Peng.