Un cadre visuo-linguistique qui permet la saisie d'objets à vocabulaire ouvert chez les robots

Un cadre visuo-linguistique qui permet la saisie d'objets à vocabulaire ouvert chez les robots

Pour être déployés dans un large éventail de contextes dynamiques réels, les robots doivent être capables d'accomplir avec succès diverses tâches manuelles, allant des tâches ménagères aux processus complexes de fabrication ou d'agriculture. Ces tâches manuelles impliquent de saisir, de manipuler et de placer des objets de différents types, qui peuvent varier en forme, en poids, en propriétés et en textures.

Cependant, la plupart des approches existantes permettant aux robots de saisir et de manipuler des objets ne permettent aux robots d'interagir avec succès qu'avec des objets qui correspondent ou sont très similaires à ceux qu'ils ont rencontrés lors de leur formation. Cela signifie que lorsqu'ils rencontrent un type d'objet nouveau (c'est-à-dire jamais vu auparavant), de nombreux robots sont incapables de le saisir.

Une équipe de chercheurs de l'Université Beihang et de l'Université de Liverpool a récemment entrepris de développer une nouvelle approche qui permettrait de surmonter cette limitation clé des systèmes de préhension robotisée. Leur article, publié sur le site arXiv Le serveur de préimpression présente OVGNet, un cadre visuel-linguistique unifié qui pourrait permettre l'apprentissage d'un vocabulaire ouvert, ce qui pourrait à son tour permettre aux robots de saisir des objets dans des catégories connues et nouvelles.

« Reconnaître et saisir des objets de nouvelles catégories reste un problème crucial mais difficile dans les applications robotiques du monde réel », ont écrit Meng Li, Qi Zhao et leurs collègues dans leur article. « Malgré son importance, peu de recherches ont été menées dans ce domaine spécifique.

« Pour résoudre ce problème, nous proposons un nouveau cadre qui intègre l'apprentissage du vocabulaire ouvert dans le domaine de la préhension robotique, donnant aux robots la capacité de manipuler habilement de nouveaux objets. »

Le cadre de travail des chercheurs s'appuie sur un nouvel ensemble de données de référence qu'ils ont compilé, appelé OVGrasping. Cet ensemble de données contient 63 385 exemples de scénarios de saisie avec des objets appartenant à 117 catégories différentes, qui sont divisées en catégories de base (c'est-à-dire connues) et nouvelles (c'est-à-dire invisibles).

« Tout d’abord, nous présentons un ensemble de données de référence à grande échelle spécialement conçu pour évaluer les performances des tâches de saisie de vocabulaire ouvert », ont écrit Li, Zhao et leurs collègues. « Ensuite, nous proposons un cadre visuo-linguistique unifié qui sert de guide aux robots pour saisir avec succès les objets de base et les objets nouveaux. Troisièmement, nous introduisons deux modules d’alignement conçus pour améliorer la perception visuo-linguistique dans le processus de saisie robotique. »

OVGNet, le nouveau cadre introduit par cette équipe de chercheurs, est basé sur un système de perception visuo-linguistique entraîné à reconnaître des objets et à concevoir des stratégies efficaces pour les saisir en utilisant à la fois des éléments visuels et linguistiques. Le cadre comprend à la fois un module d'attention langagière guidée par l'image (IGLA) et un module d'attention langagière guidée par le langage (LGIA).

Ces deux modules analysent collectivement les caractéristiques globales des objets détectés, améliorant ainsi la capacité d'un robot à généraliser ses stratégies de préhension à travers des catégories d'objets connus et nouveaux.

Les chercheurs ont évalué leur cadre proposé dans une série de tests effectués dans un environnement de simulation de préhension basé sur pybullet, en utilisant un robot ROBOTIQ-85 simulé et un bras robotique UR5. Leur cadre a obtenu des résultats prometteurs, surpassant d'autres approches de base pour la préhension robotique dans des tâches impliquant de nouvelles catégories d'objets.

« Il est à noter que notre cadre atteint une précision moyenne de 71,2 % et 64,4 % sur les catégories de base et nouvelles dans notre nouvel ensemble de données, respectivement », ont écrit Li, Zhao et leurs collègues.

L'ensemble de données OVGrasping compilé par les chercheurs et le code de leur framework OVGNet sont open source et peuvent être consultés par d'autres développeurs sur GitHub. À l'avenir, leur ensemble de données pourrait être utilisé pour former d'autres algorithmes, tandis que leur framework pourrait être testé dans des expériences supplémentaires et déployé sur d'autres systèmes robotiques.