Un chercheur explique comment une méthode nouvellement développée peut aider les robots à identifier des objets dans des espaces encombrés
Imaginez une tasse de café posée sur une table. Imaginez maintenant un livre masquant partiellement la tasse. En tant qu’humains, nous savons toujours ce qu’est une tasse de café même si nous ne pouvons pas la voir en entier. Mais un robot pourrait être confus.
Les robots dans les entrepôts et même autour de nos maisons ont du mal à identifier et à ramasser les objets s’ils sont trop rapprochés ou si un espace est encombré. En effet, les robots manquent de ce que les psychologues appellent « l’unité des objets », ou notre capacité à identifier les choses même lorsque nous ne pouvons pas toutes les voir.
Des chercheurs de l’Université de Washington ont mis au point un moyen d’enseigner cette compétence aux robots. La méthode, appelée THOR en abrégé, a permis à un robot peu coûteux d’identifier des objets, notamment une bouteille de moutarde, une canette de Pringles et une balle de tennis, sur une étagère encombrée. Dans un article récent publié dans Transactions IEEE sur la robotiquel’équipe a démontré que THOR surpassait les modèles de pointe actuels.
UW News a contacté l’auteur principal Ashis Banerjee, professeur agrégé de l’UW dans les départements d’ingénierie industrielle et des systèmes et de génie mécanique, pour plus de détails sur la façon dont les robots identifient les objets et sur le fonctionnement de THOR.
Comment les robots perçoivent-ils leur environnement ?
Nous percevons le monde qui nous entoure grâce à la vision, au son, à l’odorat, au goût et au toucher. Les robots détectent leur environnement à l’aide d’un ou plusieurs types de capteurs. Les robots « voient » les choses à l’aide de caméras couleur standard ou de caméras stéréo ou de profondeur plus complexes. Alors que les caméras standard enregistrent simplement des images colorées et texturées de l’environnement, les caméras stéréo et de profondeur fournissent également des informations sur la distance des objets, tout comme nos yeux.
Cependant, à eux seuls, les capteurs ne peuvent pas permettre aux robots de donner un « sens » à leur environnement. Les robots ont besoin d’un système de perception visuelle, similaire au cortex visuel du cerveau humain, pour traiter les images et détecter où se trouvent tous les objets, estimer leurs orientations, identifier ce que pourraient être les objets et analyser tout texte écrit dessus.
Pourquoi est-il difficile pour les robots d’identifier des objets dans des espaces encombrés ?
Il y a ici deux défis principaux. Premièrement, il existe probablement un grand nombre d’objets de formes et de tailles variées. Il est donc difficile pour le système de perception du robot de distinguer les différents types d’objets. Deuxièmement, lorsque plusieurs objets sont proches les uns des autres, ils obstruent la vue des autres objets. Les robots ont du mal à reconnaître les objets lorsqu’ils n’en ont pas une vue complète.
Existe-t-il des types d’objets particulièrement difficiles à identifier dans des espaces encombrés ?
Cela dépend en grande partie des objets présents. Par exemple, il est difficile de reconnaître des objets plus petits s’il existe une variété de tailles. Il est également plus difficile de différencier des objets ayant des formes similaires ou identiques, comme différents types de balles ou de boîtes. Des défis supplémentaires surviennent avec des objets mous ou spongieux qui peuvent changer de forme à mesure que le robot collecte des images depuis différents points de vue dans la pièce.

Alors, comment fonctionne THOR et pourquoi est-il meilleur que les tentatives précédentes pour résoudre ce problème ?
THOR est en réalité le fruit de l’auteur principal Ekta Samani, qui a réalisé cette recherche en tant que doctorant à l’UW. Le cœur de THOR est qu’il permet au robot d’imiter la façon dont nous, les humains, savons que les objets partiellement visibles ne sont pas des objets cassés ou entièrement nouveaux.
THOR le fait en utilisant la forme des objets dans une scène pour créer une représentation 3D de chaque objet. À partir de là, il utilise la topologie, un domaine des mathématiques qui étudie la connectivité entre différentes parties d’objets, pour attribuer chaque objet à une classe d’objets « la plus probable ». Pour ce faire, il compare sa représentation 3D à une bibliothèque de représentations stockées.
THOR ne s’appuie pas sur la formation de modèles d’apprentissage automatique avec des images de pièces encombrées. Il lui suffit d’images de chacun des différents objets eux-mêmes. THOR ne nécessite pas que le robot soit équipé de capteurs ou de processeurs spécialisés et coûteux, et il fonctionne également bien avec les caméras classiques.
Cela signifie que THOR est très facile à construire et, plus important encore, facilement utile pour des espaces complètement nouveaux avec des arrière-plans, des conditions d’éclairage, des dispositions d’objets et un degré d’encombrement variés. Il fonctionne également mieux que les méthodes de reconnaissance de formes 3D existantes car sa représentation 3D des objets est plus détaillée, ce qui permet d’identifier les objets en temps réel.
Comment THOR pourrait-il être utilisé ?
THOR peut être utilisé avec n’importe quel robot de service intérieur, que le robot fonctionne dans une maison, un bureau, un magasin, un entrepôt ou une usine de fabrication. En fait, notre évaluation expérimentale démontre que THOR est tout aussi efficace pour les espaces de type entrepôt, salon et salle familiale.
Bien que THOR soit nettement plus efficace que les autres méthodes existantes pour toutes sortes d’objets dans ces espaces encombrés, elle est la plus efficace pour identifier les objets de style cuisine, tels qu’une tasse ou un pichet, qui ont généralement des formes distinctives mais régulières et des variations de taille modérées. .
Et après?
Il y a plusieurs problèmes supplémentaires qui doivent être résolus, et nous travaillons sur certains d’entre eux. Par exemple, pour l’instant, THOR ne considère que la forme des objets, mais les versions futures pourraient également prêter attention à d’autres aspects de l’apparence, comme la couleur, la texture ou les étiquettes de texte. Il convient également d’examiner comment THOR pourrait être utilisé pour traiter des objets spongieux ou endommagés, dont les formes sont différentes de leurs configurations attendues.
De plus, certains espaces peuvent être tellement encombrés que certains objets peuvent ne pas être visibles du tout. Dans ces scénarios, un robot doit être capable de décider de se déplacer pour mieux « voir » les objets, ou si cela est autorisé, de se déplacer autour de certains objets pour obtenir une meilleure vue des objets obstrués.
Enfin et surtout, le robot doit être capable de gérer des objets qu’il n’a jamais vus auparavant. Dans ces scénarios, le robot devrait être capable de placer ces objets dans une catégorie d’objets « divers » ou « inconnus », puis de demander l’aide d’un humain pour identifier correctement ces objets.
