Un modèle de physique prédictive aide les robots à comprendre l'imprévisible

Lorsque les robots rencontrent des objets inconnus, ils ont du mal à comprendre une vérité simple : les apparences ne font pas tout. Ils peuvent tenter de saisir un bloc, pour découvrir que c'est littéralement un jeu d'enfant. L'apparence trompeuse de cet objet pourrait amener le robot à mal calculer les propriétés physiques telles que le poids et le centre de masse de l'objet, en utilisant une mauvaise prise et en appliquant plus de force que nécessaire.

Pour voir à travers cette illusion, les chercheurs du Laboratoire d’informatique et d’intelligence artificielle (CSAIL) du MIT ont conçu le Grasping Neural Process, un modèle physique prédictif capable de déduire ces caractéristiques cachées en temps réel pour une saisie robotique plus intelligente. Basé sur des données d'interaction limitées, leur système d'apprentissage en profondeur peut aider les robots dans des domaines tels que les entrepôts et les ménages pour une fraction du coût de calcul des modèles algorithmiques et statistiques précédents.

Le processus neuronal de saisie est entraîné à déduire des propriétés physiques invisibles à partir d'un historique de tentatives de saisie, et utilise les propriétés déduites pour deviner quelles saisies fonctionneront bien à l'avenir. Les modèles antérieurs identifiaient souvent les préhensions des robots uniquement à partir de données visuelles.

En règle générale, les méthodes qui déduisent des propriétés physiques s'appuient sur des méthodes statistiques traditionnelles qui nécessitent de nombreuses connaissances connues et un temps de calcul important pour fonctionner correctement. Le processus neuronal de saisie permet à ces machines d'exécuter de bonnes saisies plus efficacement en utilisant beaucoup moins de données d'interaction et termine son calcul en moins d'un dixième de seconde, par opposition aux secondes (ou minutes) requises par les méthodes traditionnelles.

Les chercheurs notent que le processus neuronal de saisie prospère dans des environnements non structurés comme les maisons et les entrepôts, car tous deux abritent une pléthore d’objets imprévisibles. Par exemple, un robot alimenté par le modèle du MIT pourrait rapidement apprendre à manipuler des boîtes bien emballées contenant différentes quantités de nourriture sans voir l'intérieur de la boîte, puis à les placer là où cela est nécessaire. Dans un centre de distribution, les objets ayant des propriétés physiques et des géométries différentes seraient placés dans la boîte correspondante pour être expédiés aux clients.

Formé sur 1 000 géométries uniques et 5 000 objets, le Grasping Neural Process a obtenu une maîtrise stable de la simulation pour les nouveaux objets 3D générés dans le référentiel ShapeNet. Ensuite, le groupe dirigé par CSAIL a testé son modèle dans le monde physique via deux blocs pondérés, où leurs travaux ont surpassé une référence qui ne prenait en compte que la géométrie des objets.

Limité à 10 prises expérimentales au préalable, le bras robotique a réussi à récupérer les boîtes à 18 et 19 tentatives sur 20 chacune, tandis que la machine n'a donné que huit et 15 prises stables lorsqu'elle n'était pas préparée.

Bien que moins théâtraux qu’un acteur, les robots qui accomplissent des tâches d’inférence doivent également suivre un acte en trois parties : formation, adaptation et test. Au cours de l’étape de formation, les robots s’entraînent sur un ensemble fixe d’objets et apprennent à déduire des propriétés physiques à partir d’un historique de saisies réussies (ou infructueuses).

Le nouveau modèle CSAIL amortit l'inférence de la physique des objets, ce qui signifie qu'il entraîne un réseau neuronal à apprendre à prédire le résultat d'un algorithme statistique autrement coûteux. Un seul passage à travers un réseau neuronal avec des données d'interaction limitées est nécessaire pour simuler et prédire quelles saisies fonctionnent le mieux sur différents objets.

Ensuite, le robot est présenté à un objet inconnu lors de la phase d’adaptation. Au cours de cette étape, le processus neuronal de préhension aide un robot à expérimenter et à mettre à jour sa position en conséquence, en comprenant quelles poignées fonctionneraient le mieux. Cette phase de bricolage prépare la machine à l'étape finale : le test, où le robot exécute formellement une tâche sur un objet avec une nouvelle compréhension de ses propriétés.

« En tant qu'ingénieur, il est imprudent de supposer qu'un robot connaît toutes les informations nécessaires dont il a besoin pour réussir à les saisir », déclare l'auteur principal Michael Noseworthy, titulaire d'un doctorat au MIT. étudiant en génie électrique et informatique (EECS) et affilié CSAIL.

« Sans que les humains n'étiquetent les propriétés d'un objet, les robots ont traditionnellement dû utiliser un processus d'inférence coûteux. »

Selon un autre auteur principal, EECS Ph.D. Seiji Shaw, étudiant et affilié au CSAIL, leur processus neuronal de préhension pourrait être une alternative simplifiée : « Notre modèle aide les robots à le faire beaucoup plus efficacement, leur permettant d'imaginer quelles saisies donneront le meilleur résultat. »

« Pour sortir les robots des espaces contrôlés comme le laboratoire ou l'entrepôt et les intégrer dans le monde réel, ils doivent mieux gérer l'inconnu et moins susceptibles d'échouer à la moindre variation de leur programmation. Ce travail est une étape cruciale vers la réalisation du tout le potentiel de transformation de la robotique », déclare Chad Kessens, chercheur en robotique autonome au laboratoire de recherche militaire DEVCOM de l'armée américaine, qui a parrainé les travaux.

Bien que leur modèle puisse aider un robot à déduire efficacement des propriétés statiques cachées, les chercheurs souhaitent augmenter le système pour ajuster les saisies en temps réel pour plusieurs tâches et objets présentant des caractéristiques dynamiques. Ils envisagent que leur travail les aidera éventuellement à accomplir plusieurs tâches dans un plan à long terme, comme ramasser une carotte et la hacher. De plus, leur modèle pourrait s’adapter aux changements de distributions de masse dans des objets moins statiques, comme lorsque vous remplissez une bouteille vide.

Nicholas Roy, professeur d'aéronautique et d'astronautique au MIT et membre du CSAIL, auteur principal, rejoint les chercheurs sur l'article. Le groupe a récemment présenté ces travaux lors de la Conférence internationale de l'IEEE sur la robotique et l'automatisation (ICRA 2024), qui s'est tenue à Yokohama, au Japon, du 13 au 17 mai.