Le cadre permet à une personne de corriger les actions d'un robot en utilisant le type de rétroaction qu'il donnerait à un autre humain

Imaginez qu’un robot vous aide à nettoyer la vaisselle. Vous lui demandez de prendre un bol savonneux hors de l’évier, mais sa pince manque légèrement la marque.

En utilisant un nouveau cadre développé par les chercheurs du MIT et NVIDIA, vous pouvez corriger le comportement de ce robot avec des interactions simples. La méthode vous permettrait de pointer vers le bol ou de retracer une trajectoire sur un écran, ou simplement donner un coup de pouce au bras du robot dans la bonne direction.

Les travaux ont été publiés sur le serveur pré-imprimé arxiv.

Contrairement à d’autres méthodes pour corriger le comportement des robots, cette technique ne demande pas aux utilisateurs de collecter de nouvelles données et de recycler le modèle d’apprentissage automatique qui alimente le cerveau du robot. Il permet à un robot d’utiliser des commentaires humains intuitifs et en temps réel pour choisir une séquence d’action réalisable qui se rapproche le plus possible pour satisfaire l’intention de l’utilisateur.

Lorsque les chercheurs ont testé leur cadre, son taux de réussite était de 21% supérieur à une méthode alternative qui n’a pas tiré parti des interventions humaines.

À long terme, ce cadre pourrait permettre à un utilisateur de guider plus facilement un robot formé en usine pour effectuer une grande variété de tâches ménagères même si le robot n’a jamais vu sa maison ou les objets.

« Nous ne pouvons pas nous attendre à ce que les laïcs effectuent une collecte de données et affiner un modèle de réseau neuronal. arxiv papier.

Ses co-auteurs incluent Lirui Wang Ph.D. et Yilun du Ph.D; L’auteure principale Julie Shah, professeure du MIT en aéronautique et astronautique et directrice du groupe de robotique interactive au Laboratoire d’intelligence informatique et de l’intelligence artificielle (CSAIL); ainsi que Balakumar Sundaralingam, Xuning Yang, Yu-Wei Chao, Claudia Perez-D’arpino Ph.D. et Dieter Fox de Nvidia. La recherche sera présentée à la Conférence internationale sur les robots et l’automatisation.

Désalignement atténuant

Récemment, les chercheurs ont commencé à utiliser des modèles d’IA génératifs pré-formés pour apprendre une «politique» ou un ensemble de règles, qu’un robot suit pour terminer une action. Les modèles génératifs peuvent résoudre plusieurs tâches complexes.

Pendant l’entraînement, le modèle ne voit que des mouvements de robot réalisables, il apprend donc à générer des trajectoires valides pour que le robot puisse suivre.

Bien que ces trajectoires soient valides, cela ne signifie pas qu’ils s’alignent toujours avec l’intention d’un utilisateur dans le monde réel. Le robot a peut-être été formé pour saisir des boîtes sur une étagère sans les renverser, mais elle pourrait ne pas atteindre la boîte au-dessus de la bibliothèque de quelqu’un si l’étagère est orientée différemment de celles qu’elle a vues en formation.

Pour surmonter ces échecs, les ingénieurs collectent généralement des données démontrant la nouvelle tâche et rétractent le modèle génératif, un processus coûteux et long qui nécessite une expertise d’apprentissage automatique.

Au lieu de cela, les chercheurs du MIT ont voulu permettre aux utilisateurs de diriger le comportement du robot pendant le déploiement lorsqu’il fait une erreur.

Mais si un humain interagit avec le robot pour corriger son comportement, cela pourrait faire par inadvertance le modèle génératif pour choisir une action non valide. Il pourrait atteindre la boîte que l’utilisateur veut, mais éliminer les livres sur l’étagère dans le processus.

« Nous voulons permettre à l’utilisateur d’interagir avec le robot sans introduire ce type d’erreurs, nous obtenons donc un comportement beaucoup plus aligné avec l’intention de l’utilisateur pendant le déploiement, mais qui est également valide et possible », explique Wang.

Leur cadre accomplit cela en fournissant à l’utilisateur trois façons intuitives de corriger le comportement du robot, chacun qui offre certains avantages.

Tout d’abord, l’utilisateur peut pointer vers l’objet qu’il souhaite que le robot manipule dans une interface qui montre sa vue de la caméra. Deuxièmement, ils peuvent retracer une trajectoire dans cette interface, leur permettant de spécifier comment ils veulent que le robot atteigne l’objet. Troisièmement, ils peuvent physiquement déplacer le bras du robot dans la direction qu’ils veulent qu’il suive.

« Lorsque vous cartographiez une image 2D de l’environnement en actions dans un espace 3D, certaines informations sont perdues. Le coup de fouet physiquement le robot est le moyen le plus direct de spécifier l’intention de l’utilisateur sans perdre aucune information », explique Wang.

Échantillonnage pour le succès

Pour garantir que ces interactions ne provoquent pas le robot à choisir une action invalide, comme entrer en collision avec d’autres objets, les chercheurs utilisent une procédure d’échantillonnage spécifique. Cette technique permet au modèle de choisir une action dans l’ensemble des actions valides qui s’alignent le plus étroitement sur l’objectif de l’utilisateur.

« Plutôt que d’imposer la volonté de l’utilisateur, nous donnons au robot une idée de ce que l’utilisateur entend, mais laissons la procédure d’échantillonnage osciller autour de son propre ensemble de comportements apprises », explique Wang.

Cette méthode d’échantillonnage a permis au cadre des chercheurs de surpasser les autres méthodes auxquelles ils l’ont comparé lors des simulations et des expériences avec un vrai bras de robot dans une cuisine jouet.

Bien que leur méthode puisse ne pas toujours terminer la tâche immédiatement, elle offre aux utilisateurs l’avantage de pouvoir corriger immédiatement le robot s’ils le voient faire quelque chose de mal, plutôt que d’attendre qu’il se termine, puis de lui donner de nouvelles instructions.

De plus, après qu’un utilisateur aggravait le robot plusieurs fois jusqu’à ce qu’il ramasse le bon bol, il pourrait enregistrer cette action corrective et l’intégrer dans son comportement par le biais d’une formation future. Ensuite, le lendemain, le robot pourrait ramasser le bon bol sans avoir besoin d’un coup de pouce.

« Mais la clé de cette amélioration continue est d’avoir un moyen pour l’utilisateur d’interagir avec le robot, ce que nous avons montré ici », explique Wang.

À l’avenir, les chercheurs veulent augmenter la vitesse de la procédure d’échantillonnage tout en conservant ou en améliorant ses performances. Ils veulent également expérimenter la génération de politiques de robots dans de nouveaux environnements.