La technologie de l'IA reconstruit les interactions à objet manuel 3D à partir de la vidéo, même lorsque les éléments sont obscurcissants

Les chercheurs de UNIST ont développé une technologie d'IA capable de reconstruire des représentations tridimensionnelles (3D) d'objets inconnus manipulés avec les deux mains, ainsi que des scènes chirurgicales simulées impliquant des mains entrelacées et des instruments médicaux. Cette progression permet des visualisations de réalité augmentée très précise (AR), améliorant davantage les capacités d'interaction en temps réel.

Dirigée par le professeur Seungryul Baek de la Unist Graduate School of Artificial Intelligence, l'équipe a introduit l'interaction bimanuelle 3D Gaussian Splatting (BIGS), un modèle d'IA innovant qui peut visualiser les interactions complexes entre les mains et les objets en 3D en utilisant une seule entrée de vidéo RVB.

Cette technologie permet la reconstruction en temps réel de la dynamique des objets à main complexe, même lorsque les objets sont inconnus ou partiellement obscurcis. L'étude est publiée sur le arxiv serveur de préimprimée.

Les approches traditionnelles de ce domaine se sont limitées à ne reconnaître qu'une seule main à la fois ou à répondre uniquement aux objets pré-scannés, restreignant leur applicabilité dans des environnements AR et VR réalistes.

En revanche, les Bigs peuvent prédire de manière fiable les formes d'objets et de main complètes, même dans des scénarios où les pièces sont cachées ou occluses, et peuvent le faire sans avoir besoin de capteurs de profondeur ou de plusieurs caméras, en se réalisant uniquement sur une seule caméra RVB.

Le cœur de ce modèle d'IA est basé sur des éclaboussures gaussiennes 3D, une technique qui représente les formes d'objets comme un nuage de points avec des distributions gaussiennes lisses.

Contrairement aux méthodes de nuages de points qui produisent des limites nettes, des éclaboussures gaussiennes permettent une reconstruction naturelle des surfaces de contact et des interactions complexes.

Le modèle relève en outre des défis d'occlusion en alignant plusieurs instances de main sur une structure gaussienne canonique et utilise un modèle de diffusion pré-formé pour l'échantillonnage de distillation de score (SDS), ce qui lui permet de reconstruire avec précision les surfaces invisibles, y compris le dos des objets.

Des expériences approfondies utilisant des ensembles de données internationaux tels que l'Arctique et le HO3DV3 ont démontré que les gros surpassent les technologies existantes pour capturer avec précision les postures manuelles, les formes d'objets, les interactions de contact et la qualité de rendu. Ces capacités tiennent une promesse significative pour les applications dans la réalité virtuelle et augmentée, le contrôle robotique et les simulations chirurgicales à distance.

Cette recherche a été menée avec les contributions du premier auteur Jeongwan, ainsi que Kyeonghwan Gwak, Gunyoung Kang, Junuk Cha, Soohyun Hwang et Hyein Hwang.

Le professeur Baek a fait remarquer: « Cet avancement devrait faciliter la reconstruction d'interaction en temps réel dans divers domaines, notamment la réalité virtuelle, l'AR, le contrôle robotique et la formation chirurgicale à distance. »