Les robots entraînés avec un ensemble de données spatiales montrent une gestion et une sensibilisation améliorées aux objets
Lorsqu’il s’agit de naviguer dans leur environnement, les machines présentent un désavantage naturel par rapport aux humains. Pour les aider à perfectionner les capacités de perception visuelle dont ils ont besoin pour comprendre le monde, les chercheurs ont développé un nouvel ensemble de données de formation pour améliorer la conscience spatiale des robots.
Dans de nouvelles recherches, des expériences ont montré que les robots entraînés avec cet ensemble de données, appelé RoboSpatial, surpassaient ceux entraînés avec des modèles de base pour la même tâche robotique, démontrant une compréhension complexe des relations spatiales et de la manipulation d'objets physiques.
Pour les humains, la perception visuelle façonne la façon dont nous interagissons avec l'environnement, depuis la reconnaissance de différentes personnes jusqu'au maintien d'une conscience des mouvements et de la position de notre corps. Malgré les tentatives précédentes visant à doter les robots de ces compétences, les efforts ont échoué car la plupart sont formés sur des données manquant de compréhension spatiale sophistiquée.
Parce qu'une compréhension spatiale approfondie est nécessaire pour les interactions intuitives, si elle n'est pas résolue, ces défis de raisonnement spatial pourraient entraver la capacité des futurs systèmes d'IA à comprendre des instructions complexes et à fonctionner dans des environnements dynamiques, a déclaré Luke Song, auteur principal de l'étude et actuel doctorant. étudiant en ingénierie à l'Ohio State University.
« Pour disposer de véritables modèles de base à usage général, un robot doit comprendre le monde 3D qui l'entoure », a-t-il déclaré. « La compréhension spatiale est donc l'une des capacités les plus cruciales. »
L'étude a récemment été présentée sous forme de présentation orale lors de la conférence sur la vision par ordinateur et la reconnaissance de formes. L'ouvrage est publié dans la revue Conférence IEEE/CVF 2025 sur la vision par ordinateur et la reconnaissance de formes (CVPR).
Pour apprendre aux robots à mieux interpréter la perspective, RoboSpatial comprend plus d'un million d'images réelles d'intérieur et de table, des milliers de numérisations 3D détaillées et 3 millions d'étiquettes décrivant de riches informations spatiales pertinentes pour la robotique. En utilisant ces vastes ressources, le cadre associe des images égocentriques 2D à des analyses 3D complètes de la même scène afin que le modèle apprenne à identifier les objets en utilisant soit la reconnaissance d'images plates, soit la géométrie 3D.
Selon l’étude, il s’agit d’un processus qui imite fidèlement les signaux visuels du monde réel.
Par exemple, alors que les ensembles de données d'entraînement actuels pourraient permettre à un robot de décrire avec précision un « bol sur la table », le modèle n'aurait pas la capacité de discerner où il se trouve réellement sur la table, où il devrait être placé pour rester accessible, ou comment il pourrait s'intégrer à d'autres objets. En revanche, RoboSpatial pourrait tester rigoureusement ces compétences de raisonnement spatial dans des tâches robotiques pratiques, d'abord en démontrant le réarrangement des objets, puis en examinant la capacité des modèles à se généraliser à de nouveaux scénarios de raisonnement spatial au-delà de leurs données d'entraînement d'origine.
« Cela signifie non seulement des améliorations sur les actions individuelles, comme ramasser et placer des objets, mais cela conduit également les robots à interagir plus naturellement avec les humains », a déclaré Song.
L'un des systèmes sur lesquels l'équipe a testé ce cadre était un robot Kinova Jaco, un bras d'assistance qui aide les personnes handicapées à se connecter à leur environnement.
Au cours de la formation, il a été capable de répondre à des questions spatiales simples et fermées telles que « La chaise peut-elle être placée devant la table ? » ou « La tasse est-elle à gauche de l'ordinateur portable ? » correctement.
Ces résultats prometteurs révèlent que la normalisation du contexte spatial en améliorant la perception robotique pourrait conduire à des systèmes d'IA plus sûrs et plus fiables, a déclaré Song.
Bien qu'il reste encore de nombreuses questions sans réponse sur le développement et la formation de l'IA, les travaux concluent que RoboSpatial a le potentiel de servir de base à des applications plus larges en robotique, notant que des avancées spatiales plus passionnantes en découleront probablement.
« Je pense que nous verrons beaucoup d'améliorations importantes et de capacités intéressantes pour les robots au cours des cinq à dix prochaines années », a déclaré Song.
Les co-auteurs incluent Yu Su de l'Ohio State et Valts Blukis, Jonathan Tremblay, Stephen Tyree et Stan Birchfield de NVIDIA.
