OK-Robot

Meta AI et l’Université de New York présentent OK-Robot

Un cadre ouvert basé sur la connaissance qui combine des modèles d’apprentissage automatique (ML) pré-entraînés pour créer un système robotique capable d’effectuer des tâches dans des environnements jamais vus auparavant. Il s’appelle OK-Robot et est le résultat d’une étude récente menée par des chercheurs de Méta-IA et de L’Université de New York.

Ces derniers temps, nous avons constaté des progrès notables dans modèles de langage de vision (VLM) qui sont capables d’associer des requêtes en langage naturel à des objets présents dans une scène visuelle. Les chercheurs expérimentent comment ces modèles peuvent être appliqués à des systèmes robotiques, qui peinent cependant encore à généraliser leurs compétences.

Index des sujets :

Le problème des systèmes robotiques actuels

Le framework, appelé OK-Robot, combine VLM avec des modèles de planification de mouvement et de manipulation d’objets pour effectuer des opérations de sélection et de pose sans avoir besoin de formation.

Les systèmes robotiques sont généralement conçus pour être déployés dans des environnements familiers et éprouvent des difficultés à généraliser leurs capacités au-delà des lieux dans lesquels ils ont été formés. Cette limitation est particulièrement problématique dans les contextes où les données sont rares, comme dans les foyers non structurés. Bien que des progrès significatifs aient été réalisés dans les composants individuels nécessaires aux systèmes robotiques – les VLM se révèlent efficaces pour associer des commandes linguistiques à des objets visuels, et les compétences robotiques de navigation et de préhension ont considérablement progressé – les systèmes robotiques combinent des modèles de vision moderne avec des primitives spécifiques aux robots. continuent d’afficher des performances médiocres.

Vidéo : OK-Robot

« Les progrès sur ce problème nécessitent un cadre réfléchi et nuancé qui intègre à la fois les VLM et les primitives robotiques, tout en étant suffisamment flexible pour incorporer de nouveaux modèles au fur et à mesure qu’ils sont développés par la communauté VLM et robotique », écrivent les chercheurs dans leur étude.

OK-Robot, comment ça marche

OK-Robot combine des VLM de pointe avec de puissantes primitives robotiques pour effectuer des tâches de sélection et de placement dans des environnements inconnus. Les modèles utilisés dans le système sont formés sur de vastes ensembles de données accessibles au public.

OK-Robot combine trois sous-systèmes principaux :

  • un module de navigation d’objets avec un vocabulaire ouvert
  • un module de saisie RVB-D
  • un système de libération heuristique.

Lorsqu’il est placé dans une nouvelle maison, OK-Robot nécessite une analyse manuelle de l’intérieur, qui peut être capturée avec une application iPhone qui capture une séquence d’images RVB-D lorsque l’utilisateur se déplace dans le bâtiment. Le système utilise les images et la position de la caméra pour créer une carte de l’environnement 3D. Le système traite chaque image avec un modèle de transformateur visuel (ViT) pour extraire des informations sur l’objet. Les informations sur l’objet et l’environnement sont ensuite combinées pour créer un module de mémoire d’objet sémantique.

Étant donné une commande en langage naturel pour récupérer un objet, le module de mémoire calcule l’intégration de la commande et l’associe à l’objet ayant la représentation sémantique la plus proche. OK-Robot utilise ensuite des algorithmes de navigation pour trouver le meilleur chemin vers l’emplacement de l’objet afin de fournir au robot l’espace dont il a besoin pour manipuler l’objet sans provoquer de collisions. Enfin, le robot utilise une caméra RVB-D, un modèle de segmentation d’objet et un modèle de préhension pré-entraîné pour saisir l’objet. Le système utilise un processus similaire pour atteindre la destination et libérer l’objet. Cela permet au robot de trouver la prise la plus adaptée à chaque objet et de manipuler des points cibles qui peuvent ne pas être plats.

« À partir du moment où il arrive dans un environnement complètement nouveau jusqu’à ce qu’il commence à fonctionner de manière autonome, notre système prend en moyenne moins de 10 minutes pour effectuer la première tâche de prise en charge et de dépose », écrivent les chercheurs.

OK-Robot, des tests dans dix cas et plus de 170 expériences

Les chercheurs ont testé OK-Robot dans 10 foyers et réalisé 171 expériences de type « pick-and-put » pour évaluer ses performances dans de nouveaux environnements. OK-Robot a réalisé avec succès les opérations complètes de retrait et de dépôt dans 58% des cas. Il est important de souligner qu’il s’agit d’un algorithme de tir zéro, ce qui signifie que les modèles utilisés dans le système n’ont pas été spécifiquement formés pour de tels environnements. Les chercheurs ont également constaté qu’en améliorant les demandes, en libérant de l’espace et en excluant les objets adverses, le taux de réussite augmentait jusqu’à plus de 82 %.

OK-Robot n’est pas parfait. Parfois, il ne parvient pas à faire correspondre la commande en langage naturel au bon objet. Son modèle de préhension échoue sur certains objets et le matériel du robot présente des limites. Plus important encore, son module de mémoire objet est bloqué après avoir analysé l’environnement. Par conséquent, le robot ne peut pas s’adapter dynamiquement aux changements d’objets et d’arrangements.

Cependant, le projet OK-Robot a conduit à des découvertes très importantes. Tout d’abord, cela démontre que les modèles actuels de langage de vision à vocabulaire ouvert sont très efficaces pour identifier des objets arbitraires dans le monde réel et pour y accéder en mode zéro tir. En outre, les résultats montrent que des modèles robotiques spécialisés pré-entraînés sur de grandes quantités de données peuvent être appliqués « prêts à l’emploi » pour aborder la saisie de vocabulaire ouvert dans des environnements inconnus. Enfin, cela démontre qu’avec les outils et la configuration appropriés, des modèles pré-entraînés peuvent être combinés pour effectuer des tâches sans tir sans formation.

OK-Robot pourrait représenter le début d’un domaine de recherche avec une grande marge d’amélioration.