Un modèle généraliste open source pour la manipulation d'objets robotisés

Un modèle généraliste open source pour la manipulation d'objets robotisés

La sortie publique de ChatGPT et d'autres grands modèles de langage (LLM) a permis aux développeurs du monde entier de commencer à expérimenter ces modèles pour améliorer les capacités interactives de leurs propres systèmes. Les modèles généralisables similaires pour la manipulation robotique restent cependant rares.

Des chercheurs de l'Université de Californie à Berkeley (UC Berkeley), de l'Université de Stanford et de la CMU ont récemment présenté Octo, un modèle généraliste open source de manipulation robotique qui pourrait permettre à différents systèmes robotiques de manipuler efficacement un large éventail d'objets. Ce modèle, présenté dans un article pré-publié sur le serveur arXivpourrait ouvrir de nouvelles voies pour le développement de robots capables d’effectuer des tâches manuelles.

« Une grande partie des progrès actuels en matière d'IA repose sur de grands ensembles de données et de grands modèles », ont déclaré Dibya Ghosh, Homer Walke, Karl Pertsch, Kevin Black et Oier Mees à Tech Xplore. « Dans la communauté robotique, nous avons récemment rassemblé l'ensemble de données Open X-Embodiment, un vaste ensemble de données de manipulation qui regroupe les données de nombreux instituts de recherche. Bien que ce nouvel ensemble de données soit une ressource vraiment passionnante, à l'époque, il n'existait pas beaucoup de modèles capables de faire je ne l'ai pas encore utilisé. »

Les travaux récents de cette équipe de recherche avaient deux objectifs principaux. La première consistait à développer un bon modèle robotique généraliste pouvant être appliqué à divers robots et la seconde consistait à créer un code open source qui permettrait à d’autres chercheurs de construire des modèles similaires à l’avenir.

« Octo est ce que nous appelons un modèle de robot « généraliste », un réseau neuronal capable de contrôler de nombreux types différents de robots et de leur faire répondre à des requêtes telles que « prendre la cuillère », « fermer le tiroir », « essuyer la table », etc. « , ont expliqué Ghosh, Walke, Pertsch, Black et Mees.

« Être un généraliste et travailler sur de nombreux robots est essentiel, car si vous regardez les laboratoires de recherche du monde entier, beaucoup d'entre eux utilisent des robots différents. La seule façon de garantir qu'Octo puisse être utilisé par de nombreux chercheurs est de prendre en charge un large éventail de robots. des robots. »

Au sein de la communauté de recherche et développement technologique, les outils informatiques hautement performants pouvant être appliqués sur plusieurs systèmes sont souvent appelés modèles fondamentaux. Un exemple de ces modèles est ChatGPT, qui peut être utilisé pour équiper divers agents et systèmes de capacités de traitement du langage naturel (NLP).

« Nous voulons construire des modèles de base similaires, mais pour le contrôle des robots, ou en d'autres termes, des modèles capables de contrôler de nombreux robots et de leur faire résoudre de nombreuses tâches différentes », ont déclaré Ghosh, Walke, Pertsch, Black et Mees.

« Octo est un premier pas vers cet objectif. Sa formation ressemble beaucoup à des modèles comme ChatGPT : nous organisons un ensemble de données vaste et diversifié, dans notre cas des données de robot au lieu de texte, et formons un grand modèle pour prédire la prochaine action que le robot devrait faire. exécuter compte tenu de l'état actuel du robot et d'une instruction de tâche.

Octo, le modèle développé par Ghosh, Walke, Pertsch, Black et Mees est basé sur le même type de réseaux de neurones que ChatGPT, appelés transformateurs. L’un des principaux avantages d’Octo par rapport aux autres modèles robotiques développés précédemment réside dans l’ampleur des données utilisées pour l’entraîner et dans sa flexibilité.

Le modèle a été formé sur le plus grand ensemble de données de trajectoires de manipulation robotique compilé à ce jour ; l'ensemble de données Open X-Embodiment. Octo peut également traiter une large gamme d'entrées sensorielles, notamment différents types d'images, des lectures conjointes de robots, des instructions linguistiques, des images liées à des objectifs, etc.

« Octo peut également contrôler de nombreux types de bras robotisés, depuis les petits bras simples qui peuvent à peine ramasser une canette de soda, jusqu'aux bras robotisés plus grands et plus puissants et même aux configurations bi-manuelles », ont déclaré Ghosh, Walke, Pertsch, Black et Mees. . « Cette flexibilité est ce qui rend Octo plus applicable aux diverses configurations dont disposent actuellement les roboticiens dans le monde. »

Les chercheurs ont évalué leur modèle dans une série d'expériences initiales, en le déployant sur neuf systèmes robotiques différents développés à l'UC Berkely, Stanford et CMU. Octo a réussi à contrôler ces robots et leur a permis d'effectuer diverses tâches de manipulation, même dans les cas où il n'avait pas rencontré de données collectées par les capteurs de ces robots ou leur conception unique lors de l'entraînement.

« C'était vraiment cool de voir que nous pouvons prendre notre modèle Octo et l'utiliser pour contrôler de nombreux robots différents », ont déclaré les chercheurs. « Depuis que nous avons publié le modèle, nous avons vu pas mal de personnes essayer de l'exécuter sur leurs propres robots et nous utilisons également la base de code que nous avons construite pour Octo dans nos prochains projets. Ce sont quelques signes encourageants qu'Octo contribuera effectivement à favoriser la prochaine génération de modèles de base améliorés pour la robotique.

Pour les chercheurs, le développement d’Octo n’était qu’une petite étape vers leur objectif de construire un modèle généraliste de manipulation robotique. Dans leurs prochaines études, ils prévoient de continuer à travailler dans ce sens et espèrent que des groupes de recherche d’autres instituts commenceront également à expérimenter leur code.

Un modèle généraliste open source pour la manipulation d'objets robotisés

« À l'heure actuelle, il est probable que le modèle ne fonctionnera pas immédiatement sur votre robot et vous devrez rassembler quelques exemples de la tâche que vous souhaitez que votre robot résolve pour l'enseigner à Octo, même s'il s'agit d'une tâche banale comme choisir une canette de coca dans une nouvelle cuisine », ont-ils ajouté.

« C'est-à-dire que la capacité de généralisation du modèle actuel est encore assez limitée et nous travaillons sur de nouveaux modèles qui iront un peu plus loin. Nous n'en sommes pas encore au point où vous pouvez simplement télécharger un modèle sur votre ordinateur. robot, dites à votre robot ce que vous aimeriez qu'il fasse et il réussira 9 fois sur 10, mais nous travaillons pour atteindre cet objectif.