L'IA génère des données pour aider à incarner les agents terrestres du langage au monde 3D

Un nouvel ensemble de données de texte 3D densément annoté appelé 3D-Grand peut aider à former l'IA incarnée, comme les robots de ménage, pour connecter le langage aux espaces 3D. L'étude, dirigée par des chercheurs de l'Université du Michigan, a été présentée à la conférence de la Vision et de la reconnaissance des modèles (CVPR) à Nashville, au Tennessee, le 15 juin, et publiée sur la arxiv serveur de préimprimée.

Lorsqu'elle est mise à l'épreuve par rapport aux ensembles de données 3D précédents, le modèle formé sur la taille 3D a atteint une précision de mise à la terre de 38%, dépassant le meilleur modèle précédent de 7,7%. 3D-Grand a également considérablement réduit les hallucinations à seulement 6,67% par rapport au taux précédent de 48% de pointe.

L'ensemble de données contribue à la prochaine génération de robots ménagères qui dépasseront de loin les aspirateurs robotiques qui peuplent actuellement les maisons. Avant de pouvoir commander un robot pour « récupérer le livre à côté de la lampe sur la table de nuit et me l'apporter », le robot doit être formé pour comprendre ce que la langue fait référence dans l'espace.

« Les grands modèles de langage multimodal sont principalement formés sur du texte avec des images 2D, mais nous vivons dans un monde 3D. Si nous voulons qu'un robot interagisse avec nous, il doit comprendre les termes spatiaux et les perspectives, interpréter les orientations d'objets dans l'espace et le langage terrestre dans le riche environnement 3D », a déclaré Joyce Chai, professeur d'informatique et d'ingénierie à UM et auteur de l'étude.

Bien que les modèles d'IA basés sur du texte ou de l'image puissent tirer une énorme quantité d'informations d'Internet, les données 3D sont rares. Il est encore plus difficile de trouver des données 3D avec des données de texte à la terre – ce qui signifie que des mots spécifiques comme « canapé » sont liés à des coordonnées 3D délimitant le canapé réel.

Comme tous les LLM, 3D-LLMS fonctionnent mieux lorsqu'ils sont formés sur de grands ensembles de données. Cependant, la construction d'un grand ensemble de données par des salles d'imagerie avec des caméras serait à forte intensité de temps et coûteuse car les annotateurs doivent spécifier manuellement des objets et leurs relations spatiales et relier les mots à leurs objets correspondants.

L'équipe de recherche a adopté une nouvelle approche, tirant parti de l'IA générative pour créer des salles synthétiques qui sont automatiquement annotées avec des structures 3D. L'ensemble de données 3D-Grand qui en résulte comprend 40 087 scènes de ménage associées à 6,2 millions de descriptions densément fondées de la salle.

« Un grand avantage des données synthétiques est que les étiquettes sont gratuites parce que vous savez déjà où se trouve le canapé, ce qui facilite le processus de conservation », a déclaré Jianing Jed Yang, doctorant en informatique et en génie chez UM et auteur principal de l'étude.

Après avoir généré les données 3D synthétiques, un pipeline AI a d'abord utilisé des modèles de vision pour décrire la couleur, la forme et le matériau de chaque objet. À partir de là, un modèle unique a généré des descriptions de scènes entières tout en utilisant des graphiques de scène – des cartes structurées de la façon dont les objets se rapportent les uns aux autres – pour s'assurer que chaque phrase nominale est fondée sur des objets 3D spécifiques.

Une étape de contrôle de la qualité finale a utilisé un filtre d'hallucination pour garantir que chaque objet généré dans le texte a réellement un objet associé dans la scène 3D.

Les évaluateurs humains ont vérifié au trait de 10 200 paires d'annotation en chambre pour garantir la fiabilité en évaluant s'il y avait des inexactitudes dans les phrases ou objets générés par l'IA. Les annotations synthétiques avaient un faible taux d'erreur d'environ 5% à 8%, ce qui est comparable aux annotations humaines professionnelles.

« Compte tenu de la taille de l'ensemble de données, l'annotation basée sur LLM réduit à la fois le coût et le temps par ordre de grandeur par rapport à l'annotation humaine, créant 6,2 millions d'annotations en seulement deux jours. Il est largement reconnu que la collecte de données de haute qualité est essentielle pour construire des modèles d'IA efficaces », a déclaré Yang.

Pour mettre le nouvel ensemble de données à l'épreuve, l'équipe de recherche a formé un modèle sur 3D-Grand et l'a comparé à trois modèles de base (3D-LLM, LEO et 3D-VISTA). Le ScanRefer de référence a évalué la précision de mise à la terre – comment chevaucher beaucoup la boîte de délimitation prédite chevauche la frontière de l'objet véritable – tandis qu'une référence nouvellement introduite appelée 3D-Pope a évalué les hallucinations d'objet.

Le modèle formé sur la taille 3D a atteint une précision de mise à la terre de 38% avec seulement un taux d'hallucination de 6,67%, dépassant de loin les modèles génératifs concurrents. Alors que 3D-Grand contribue à la communauté de modélisation 3D-LLM, les tests sur les robots seront la prochaine étape.

« Il sera excitant de voir comment 3D-Grand aide les robots à mieux comprendre l'espace et à prendre différentes perspectives spatiales, améliorant potentiellement la façon dont ils communiquent et collaborent avec les humains », a déclaré Chai.