Le système robotique zéros dans les objets les plus pertinents pour aider les humains
Pour un robot, le monde réel est beaucoup à prendre en compte. Donner un sens à chaque point de données d’une scène peut prendre une énorme quantité d’efforts et de temps de calcul. L’utilisation de ces informations pour décider ensuite de la meilleure façon d’aider un humain est un exercice encore plus épineux.
Maintenant, les roboticistes du MIT ont un moyen de couper le bruit des données, pour aider les robots à se concentrer sur les fonctionnalités d’une scène qui sont les plus pertinentes pour aider les humains.
Leur approche, qu’ils surnomment bien «pertinente», permet à un robot d’utiliser des indices dans une scène, tels que des informations audio et visuelles, pour déterminer l’objectif d’un humain, puis identifier rapidement les objets les plus susceptibles d’être pertinents pour atteindre cet objectif. Le robot réalise ensuite un ensemble de manœuvres pour offrir en toute sécurité les objets ou actions pertinents à l’humain. Le papier est disponible sur le arxiv serveur de préimprimée.
Les chercheurs ont démontré l’approche avec une expérience qui a simulé un petit-déjeuner buffet de conférence. Ils ont installé une table avec divers fruits, boissons, collations et vaisselle, ainsi qu’un bras robotique équipé d’un microphone et d’une caméra. En appliquant la nouvelle approche de pertinence, ils ont montré que le robot était en mesure d’identifier correctement l’objectif d’un humain et de les aider de manière appropriée dans différents scénarios.
Dans un cas, le robot a pris des indices visuels d’un humain qui atteignit une boîte de café préparé et a rapidement remis le lait de la personne et un Stir Stick. Dans un autre scénario, le robot a repris une conversation entre deux personnes parlant de café et leur a offert une boîte de café et de crémeuse.
Dans l’ensemble, le robot a pu prédire l’objectif d’un humain avec une précision de 90% et d’identifier des objets pertinents avec une précision de 96%. La méthode a également amélioré la sécurité d’un robot, réduisant le nombre de collisions de plus de 60%, par rapport à l’exécution des mêmes tâches sans appliquer la nouvelle méthode.
« Cette approche pour permettre la pertinence pourrait permettre à un robot d’interagir beaucoup plus facilement avec les humains », explique Kamal Youcef-Toumi, professeur de génie mécanique au MIT. « Un robot n’aurait pas à poser à un humain tant de questions sur ce dont ils ont besoin. Il prendrait activement des informations de la scène pour comprendre comment aider. »
Le groupe de Youcef-Toumi explore comment les robots programmés avec pertinence peuvent aider à la fabrication intelligente et aux paramètres d’entrepôt, où ils envisagent des robots travaillant et aident intuitivement les humains.
Youcef-Toumi, ainsi que les étudiants diplômés Xiaotong Zhang et Dingcheng Huang, présenteront leur nouvelle méthode à la Conférence internationale de l’IEEE sur la robotique et l’automatisation (ICRA 2025) en mai. Le travail s’appuie sur un autre article présenté à l’ICRA l’année précédente.
Trouver l’accent
L’approche de l’équipe est inspirée par notre propre capacité à évaluer ce qui est pertinent dans la vie quotidienne. Les humains peuvent filtrer les distractions et se concentrer sur ce qui est important, grâce à une région du cerveau connue sous le nom de système d’activation réticulaire (RAS). Le RAS est un paquet de neurones dans le tronc cérébral qui agit inconsciemment pour tailler des stimuli inutiles, afin qu’une personne puisse percevoir consciemment les stimuli pertinents.
Le RAS aide à empêcher la surcharge sensorielle, nous empêchant, par exemple, de fixer chaque élément sur un comptoir de cuisine, et de nous aider à nous concentrer sur le versement d’une tasse de café.
« Ce qui est étonnant, c’est que ces groupes de neurones filtrent tout ce qui n’est pas important, puis il a le cerveau de se concentrer sur ce qui est pertinent à l’époque », explique Youcef-Toumi. « C’est essentiellement quelle est notre proposition. »
Lui et son équipe ont développé un système robotique qui imite largement la capacité du RAS à traiter et filtrer sélectivement les informations. L’approche se compose de quatre phases principales. Le premier est une étape de « perception » de surveillance, au cours de laquelle un robot prend des indices audio et visuels, par exemple à partir d’un microphone et d’une caméra, qui sont en continu dans une « boîte à outils » AI.
Cette boîte à outils peut inclure un modèle de langue large (LLM) qui traite les conversations audio pour identifier les mots clés et les phrases, et divers algorithmes qui détectent et classent les objets, les humains, les actions physiques et les objectifs de la tâche. La boîte à outils AI est conçue pour fonctionner en continu en arrière-plan, de la même manière que le filtrage subconscient que le RAS du cerveau effectue.
La deuxième étape est une phase de « chèque de déclenchement », qui est un contrôle périodique que le système fonctionne pour évaluer si quelque chose d’important se produit, par exemple si un humain est présent ou non. Si un humain est entré dans l’environnement, la troisième phase du système entrera en jeu. Cette phase est le cœur du système de l’équipe, qui agit pour déterminer les caractéristiques de l’environnement qui sont probablement pertinentes pour aider l’humain.
Pour établir la pertinence, les chercheurs ont développé un algorithme qui prend les prédictions en temps réel faites par la boîte à outils de l’IA. Par exemple, le LLM de la boîte à outils peut ramasser le mot-clé «café» et un algorithme de classification de l’action peut étiqueter une personne à la recherche d’une tasse comme ayant l’objectif de «faire du café».
La méthode de pertinence de l’équipe devrait prendre en compte ces informations pour déterminer d’abord la « classe » des objets qui ont la plus grande probabilité d’être pertinente pour l’objectif de « faire du café ». Cela pourrait automatiquement filtrer les classes telles que les « fruits » et les « collations », en faveur des « tasses » et des « crémiers ».
L’algorithme allgorithmerait ensuite davantage dans les classes pertinentes pour déterminer les «éléments» les plus pertinents. Par exemple, sur la base des indices visuels de l’environnement, le système peut étiqueter une tasse la plus proche d’une personne comme plus pertinente – et utile – qu’une tasse qui est plus éloignée.
Dans la quatrième et dernière phase, le robot prendrait ensuite les objets pertinents identifiés et planifierait un chemin pour accéder physiquement et offrirait les objets à l’humain.
Mode auxiliaire
Les chercheurs ont testé le nouveau système dans des expériences qui simulent un petit-déjeuner buffet de conférence. Ils ont choisi ce scénario basé sur l’ensemble de données des actions du petit-déjeuner accessible au public, qui comprend des vidéos et des images d’activités typiques que les gens effectuent pendant le petit-déjeuner, comme la préparation du café, la cuisson des crêpes, la fabrication de céréales et les œufs de friture. Les actions dans chaque vidéo et image sont étiquetées, ainsi que l’objectif global (œufs de friture, par rapport à la fabrication de café).
En utilisant cet ensemble de données, l’équipe a testé divers algorithmes dans sa boîte à outils AI, de sorte que, lors de la réception des actions d’une personne dans une nouvelle scène, les algorithmes peuvent étiqueter et classer avec précision les tâches et objectifs humains, et les objets pertinents associés.
Dans leurs expériences, ils ont installé un bras et une pince robotiques et ont demandé au système d’aider les humains à l’approche d’une table remplie de diverses boissons, collations et vaisselle. Ils ont constaté qu’aucun humain n’était présent, la boîte à outils AI du robot fonctionnait en continu en arrière-plan, étiquetant et classant des objets sur la table.
Lorsque, lors d’un chèque de déclenchement, le robot a détecté un humain, il a pris l’attention, en activant sa phase de pertinence et en identifiant rapidement les objets de la scène qui étaient les plus susceptibles d’être pertinents, en fonction de l’objectif de l’homme, qui a été déterminé par la boîte à outils AI.
« La pertinence peut guider le robot pour générer une assistance transparente, intelligente, sûre et efficace dans un environnement très dynamique », explique le co-auteur Zhang.
À l’avenir, l’équipe espère appliquer le système à des scénarios qui ressemblent à des environnements de travail et d’entrepôt, ainsi qu’à d’autres tâches et objectifs généralement effectués dans des milieux ménagères.
« Je voudrais tester ce système chez moi pour voir, par exemple, si je lis le journal, cela peut peut-être m’apporter du café. Si je fais la lessive, cela peut m’apporter un pod à linge. Si je fais une réparation, cela peut m’apporter un tournevis », dit Zhang. « Notre vision est de permettre des interactions humaines-robot qui peuvent être beaucoup plus naturelles et courantes. »