Meta dévoile l'ensemble de données HOT3D pour une formation avancée en vision par ordinateur
Alors que la plupart des humains peuvent naturellement utiliser leurs mains pour communiquer avec les autres ou saisir et manipuler des objets, de nombreux systèmes robotiques existants n'excellent que dans les tâches manuelles simples. Ces dernières années, les informaticiens du monde entier ont développé des modèles basés sur l'apprentissage automatique capables de traiter des images d'humains effectuant des tâches manuelles, en utilisant les informations acquises pour améliorer la manipulation du robot, ce qui pourrait à son tour améliorer les interactions d'un robot avec les humains et les objets dans son environnement.
Des modèles similaires pourraient également être utilisés pour créer des interfaces homme-machine reposant sur la vision par ordinateur ou pour élargir les capacités des systèmes de réalité augmentée et virtuelle (AR et VR). Pour entraîner ces modèles d’apprentissage automatique, les chercheurs doivent accéder à des ensembles de données de haute qualité contenant des images annotées d’humains accomplissant diverses tâches manuelles réelles.
Les chercheurs de Meta Reality Labs ont récemment présenté HOT3D, un nouvel ensemble de données qui pourrait aider à accélérer la recherche sur l'apprentissage automatique pour analyser les interactions main-objet. Cet ensemble de données, présenté dans un article publié sur le arXiv Le serveur de préimpression contient des vidéos 3D égocentriques de haute qualité d'utilisateurs humains saisissant et manipulant divers objets, prises d'un point de vue égocentrique (c'est-à-dire reflétant ce que verrait la personne accomplissant la tâche).
« Nous présentons HOT3D, un ensemble de données accessible au public pour le suivi égocentrique des mains et des objets en 3D », ont écrit Prithviraj Banerjee, Sindi Shkodrani et leurs collègues dans leur article.
« L'ensemble de données offre plus de 833 minutes (plus de 3,7 millions d'images) de flux d'images RVB/monochrome multi-vues montrant 19 sujets interagissant avec 33 objets rigides divers, des signaux multimodaux tels que le regard ou des nuages de points de scène, ainsi qu'une analyse complète. des annotations de vérité sur le terrain, y compris des poses 3D d'objets, de mains et de caméras, ainsi que des modèles 3D de mains et d'objets.
Le nouvel ensemble de données compilé par l’équipe de Meta Reality Labs contient des démonstrations simples d’humains ramassant et observant des objets, ainsi que les remettant sur une surface. Mais il comprend également des démonstrations plus élaborées montrant les utilisateurs effectuant des actions couramment observées dans les environnements de bureau et domestiques, telles que ramasser et utiliser des ustensiles de cuisine, manipuler divers aliments, taper sur un clavier, etc.
Les images annotées incluses dans l'ensemble de données ont été collectées à l'aide de deux appareils développés chez Meta, à savoir les lunettes Project Aria et le casque Quest 3. Le projet Aria a abouti à la création de prototypes de lunettes de détection légères pour les applications de réalité augmentée (RA).
Les lunettes Project Aria peuvent capturer des données vidéo et audio tout en suivant les mouvements oculaires des utilisateurs qui les portent et en collectant des informations sur l'emplacement des objets dans leur champ de vision. Quest 3, le deuxième appareil utilisé pour collecter des données, est un casque de réalité virtuelle (VR) disponible dans le commerce et développé par Meta.
« Les poses de vérité sur le terrain ont été obtenues par un système professionnel de capture de mouvement utilisant de petits marqueurs optiques attachés aux mains et aux objets », ont écrit Banerjee, Shkodrani et leurs collègues. « Les annotations manuelles sont fournies aux formats UmeTrack et MANO et les objets sont représentés par des maillages 3D avec des matériaux PBR obtenus par un scanner interne. »
Pour évaluer le potentiel de l’ensemble de données HOT3D pour la recherche en robotique et en vision par ordinateur, les chercheurs l’ont utilisé pour entraîner des modèles de base sur trois tâches différentes. Ils ont constaté que ces modèles fonctionnaient nettement mieux lorsqu'ils étaient entraînés sur les données multi-vues contenues dans HOT3D que lorsqu'ils étaient entraînés sur des démonstrations capturant un seul point de vue.
« Dans nos expériences, nous démontrons l'efficacité des données égocentriques multi-vues pour trois tâches courantes : le suivi des mains en 3D, l'estimation de la pose d'objets 6DoF et le levage 3D d'objets inconnus en main », ont écrit Banerjee, Shkodrani et leurs collègues. « Les méthodes multi-vues évaluées, dont l'analyse comparative est uniquement permise par HOT3D, surpassent considérablement leurs homologues à vue unique. »
L'ensemble de données HOT3D est open source et peut être téléchargé par les chercheurs du monde entier sur le site Web du Projet Aria. À l’avenir, cela pourrait contribuer au développement et à l’avancement de diverses technologies, notamment les interfaces homme-machine, les robots et d’autres systèmes basés sur la vision par ordinateur.