Une nouvelle méthode permet aux robots de cartographier une scène, d'identifier des objets afin d'accomplir un ensemble de tâches

Imaginez devoir remettre de l'ordre dans une cuisine en désordre, en commençant par un comptoir jonché de sachets de sauce. Si votre objectif est de nettoyer le comptoir, vous pouvez balayer les paquets en groupe. Si toutefois vous vouliez d'abord trier les sachets de moutarde avant de jeter le reste, vous trieriez de manière plus discriminante, par type de sauce. Et si, parmi les moutardes, vous aviez une envie de Grey Poupon, trouver cette marque précise nécessiterait une recherche plus approfondie.

Les ingénieurs du MIT ont développé une méthode qui permet aux robots de prendre des décisions tout aussi intuitives et pertinentes pour la tâche.

La nouvelle approche de l'équipe, nommée Clio, permet à un robot d'identifier les parties d'une scène qui comptent, compte tenu des tâches à accomplir. Avec Clio, un robot récupère une liste de tâches décrites en langage naturel et, sur la base de ces tâches, il détermine ensuite le niveau de granularité requis pour interpréter son environnement et « mémoriser » uniquement les parties d'une scène qui sont pertinentes.

Dans le cadre d'expériences réelles allant d'une cabine encombrée à un bâtiment de cinq étages sur le campus du MIT, l'équipe a utilisé Clio pour segmenter automatiquement une scène à différents niveaux de granularité, sur la base d'un ensemble de tâches spécifiées dans des invites en langage naturel telles que « déplacer le rack ». de magazines » et « procurez-vous une trousse de premiers soins ».

L’équipe a également piloté Clio en temps réel sur un robot quadrupède. Alors que le robot explorait un immeuble de bureaux, Clio a identifié et cartographié uniquement les parties de la scène liées aux tâches du robot (comme récupérer un jouet pour chien tout en ignorant les piles de fournitures de bureau), permettant au robot de saisir les objets d'intérêt.

Clio doit son nom à la muse grecque de l'histoire, pour sa capacité à identifier et à mémoriser uniquement les éléments importants pour une tâche donnée. Les chercheurs envisagent que Clio serait utile dans de nombreuses situations et environnements dans lesquels un robot devrait rapidement étudier et donner un sens à son environnement dans le contexte de sa tâche donnée.

« La recherche et le sauvetage sont l'application motivante de ce travail, mais Clio peut également propulser des robots domestiques et des robots travaillant dans une usine aux côtés des humains », explique Luca Carlone, professeur agrégé au département d'aéronautique et d'astronautique du MIT (AeroAstro), chercheur principal dans le Laboratoire des systèmes d'information et de décision (LIDS) et directeur du laboratoire MIT SPARK. « Il s'agit vraiment d'aider le robot à comprendre l'environnement et ce dont il doit se souvenir pour mener à bien sa mission. »

L'équipe détaille ses résultats dans une étude publiée aujourd'hui dans la revue Lettres IEEE sur la robotique et l'automatisation. Les co-auteurs de Carlone incluent des membres du SPARK Lab : Dominic Maggio, Yun Chang, Nathan Hughes et Lukas Schmid ; et membres du MIT Lincoln Laboratory : Matthew Trang, Dan Griffith, Carlyn Dougherty et Eric Cristofalo.

Champs ouverts

D’énormes progrès dans les domaines de la vision par ordinateur et du traitement du langage naturel ont permis aux robots d’identifier des objets dans leur environnement. Mais jusqu'à récemment, les robots n'étaient capables de le faire que dans des scénarios « fermés », dans lesquels ils étaient programmés pour travailler dans un environnement soigneusement organisé et contrôlé, avec un nombre fini d'objets que le robot avait été pré-entraîné à reconnaître.

Ces dernières années, les chercheurs ont adopté une approche plus « ouverte » pour permettre aux robots de reconnaître des objets dans des contextes plus réalistes. Dans le domaine de la reconnaissance ouverte, les chercheurs ont exploité des outils d'apprentissage profond pour créer des réseaux neuronaux capables de traiter des milliards d'images provenant d'Internet, ainsi que le texte associé à chaque image (comme la photo d'un chien sur Facebook d'un ami, sous-titrée « Meet ». mon nouveau chiot! »).

À partir de millions de paires image-texte, un réseau neuronal apprend, puis identifie, les segments d'une scène qui sont caractéristiques de certains termes, comme un chien. Un robot peut ensuite utiliser ce réseau neuronal pour repérer un chien dans une scène totalement nouvelle.

Mais il reste encore un défi à relever : comment analyser une scène de manière utile et pertinente pour une tâche particulière.

« Les méthodes typiques sélectionnent un niveau de granularité arbitraire et fixe pour déterminer comment fusionner des segments d'une scène en ce que vous pouvez considérer comme un seul » objet « », explique Maggio. « Cependant, la granularité de ce que vous appelez un « objet » est en réalité liée à ce que le robot doit faire. Si cette granularité est fixée sans prendre en compte les tâches, alors le robot peut se retrouver avec une carte qui n'est pas utile pour son travail. tâches. »

Goulet d’étranglement de l’information

Avec Clio, l'équipe du MIT visait à permettre aux robots d'interpréter leur environnement avec un niveau de granularité pouvant être automatiquement adapté aux tâches à accomplir.

Par exemple, pour une tâche consistant à déplacer une pile de livres vers une étagère, le robot devrait être capable de déterminer que la pile entière de livres est l’objet pertinent pour la tâche. De même, si la tâche consistait à déplacer uniquement le livre vert du reste de la pile, le robot devrait distinguer le livre vert comme un objet cible unique et ignorer le reste de la scène, y compris les autres livres de la pile.

L'approche de l'équipe combine une vision par ordinateur de pointe et de grands modèles de langage comprenant des réseaux de neurones qui établissent des connexions entre des millions d'images et de textes sémantiques open source. Ils intègrent également des outils de cartographie qui divisent automatiquement une image en plusieurs petits segments, qui peuvent être introduits dans le réseau neuronal pour déterminer si certains segments sont sémantiquement similaires.

Les chercheurs exploitent ensuite une idée de la théorie classique de l’information appelée « goulot d’étranglement de l’information », qu’ils utilisent pour compresser un certain nombre de segments d’image de manière à sélectionner et stocker les segments sémantiquement les plus pertinents pour une tâche donnée.

« Par exemple, disons qu'il y a une pile de livres dans la scène et que ma tâche consiste simplement à obtenir le livre vert. Dans ce cas, nous faisons passer toutes ces informations sur la scène à travers ce goulot d'étranglement et nous nous retrouvons avec un groupe de segments qui représentent » le livre vert », explique Maggio.

« Tous les autres segments qui ne sont pas pertinents sont simplement regroupés dans un cluster que nous pouvons simplement supprimer. Et nous nous retrouvons avec un objet avec la bonne granularité qui est nécessaire pour prendre en charge ma tâche. »

Les chercheurs ont démontré Clio dans différents environnements réels.

« Ce que nous pensions être une expérience vraiment pragmatique serait de faire fonctionner Clio dans mon appartement, où je n'ai fait aucun ménage au préalable », explique Maggio.

L'équipe a dressé une liste de tâches en langage naturel, telles que « déplacer une pile de vêtements », puis a appliqué Clio aux images de l'appartement encombré de Maggio. Dans ces cas, Clio a pu segmenter rapidement les scènes de l'appartement et alimenter les segments via l'algorithme Information Bottleneck pour identifier les segments qui constituaient la pile de vêtements.

Ils ont également utilisé Clio sur le robot quadrupède de Boston Dynamic, Spot. Ils ont donné au robot une liste de tâches à accomplir et, pendant que le robot explorait et cartographiait l'intérieur d'un immeuble de bureaux, Clio fonctionnait en temps réel sur un ordinateur de bord monté sur Spot, pour sélectionner des segments dans les scènes cartographiées. se rapportent visuellement à la tâche donnée.

La méthode a généré une carte superposée montrant uniquement les objets cibles, que le robot a ensuite utilisée pour s'approcher des objets identifiés et terminer physiquement la tâche.

« Faire fonctionner Clio en temps réel a été une grande réussite pour l'équipe », déclare Maggio. « De nombreux travaux préalables peuvent prendre plusieurs heures. »

À l’avenir, l’équipe prévoit d’adapter Clio pour qu’elle soit capable de gérer des tâches de plus haut niveau et de s’appuyer sur les avancées récentes en matière de représentations visuelles photoréalistes de scènes.

« Nous confions toujours à Clio des tâches quelque peu spécifiques, comme » trouver un jeu de cartes « », explique Maggio. « Pour la recherche et le sauvetage, vous devez lui confier des tâches de plus haut niveau, comme « trouver des survivants » ou « remettre le courant ». Nous souhaitons donc parvenir à une compréhension plus humaine de la manière d’accomplir des tâches plus complexes. »