Compréhension holistique de la scène panoramique 3D en utilisant des harmoniques sphériques

Compréhension holistique de la scène panoramique 3D en utilisant des harmoniques sphériques

Une technologie avancée de l'intelligence artificielle (IA) a été développée qui peut extraire la structure spatiale tridimensionnelle (3D) et les informations d'objet dans des environnements intérieurs en utilisant une seule photographie panoramique à 360 degrés. Cette percée devrait avoir un impact significatif sur les domaines nécessitant une compréhension spatiale précise, notamment la réalité augmentée (AR), la réalité mixte (MR) et les applications jumelles numériques.

Dirigée par le professeur Kyungdon Joo de la Graduate School of Artificial Intelligence de UniT, l'équipe de recherche a introduit Hush (Holistic Panoramic Scène 3D compréhension en utilisant des harmoniques sphériques) – un modèle d'IA, capable d'extraire simultanément des configurations spatiales et des détails d'objets internes à partir d'images panoramiques avec une précision remarquable.

Dans les technologies AR et MR, l'intégration du contenu numérique avec des espaces du monde réel nécessite des systèmes d'IA pour interpréter et représenter avec précision des informations telles que les positions murales et meubles, ainsi que les distances entre les objets. Traditionnellement, atteindre ce niveau de compréhension a nécessité plusieurs images sous différents angles ou équipements coûteux, comme les capteurs de profondeur.

Le modèle Hush progresse au-delà de ces limites en utilisant une seule image panoramique à 360 degrés pour dériver ces informations. Bien que les images panoramiques puissent capturer une scène plus large dans un seul plan, leur distorsion sphérique rend une analyse précise difficile. Les méthodes conventionnelles tentent d'atténuer cela en segmentant l'image et en appliquant à plusieurs reprises des modèles d'IA standard, mais cela entraîne souvent une perte d'informations ou une inefficacité informatique.

Pour résoudre ces problèmes, l'équipe de recherche a utilisé des harmoniques sphériques (SH) – une technique mathématique qui modélise avec précision la nature sphérique des images panoramiques. Cette méthode décompose la scène en composants de fréquence: les composants à basse fréquence représentent efficacement des zones plates et des plafonds et des planchers, tandis que les composants à haute fréquence capturent des structures détaillées telles que les meubles et les objets, améliorant ainsi la précision.

Jongsung Lee, le premier auteur de l'étude, a expliqué: « Les harmoniques sphériques sont traditionnellement utilisées dans la synthèse de la vue virtuelle pour représenter la couleur et l'éclairage des objets ou des scènes. Reconnaissant leur capacité à analyser les données sur une surface sphérique, nous avons appliqué de manière innovante pour la première fois à la reconstruction spatiale basée sur l'image panoramique pour la première fois. »

Le modèle HUSH a démontré une précision supérieure dans la prédiction en profondeur et d'autres tâches de compréhension spatiale par rapport aux modèles de reconstruction de scène 3D existants. Remarquablement, il peut déduire plusieurs détails spatiaux d'une seule image, offrant à la fois des performances élevées et une efficacité de calcul.

Le professeur Joo a souligné: « Cette technologie a des applications potentielles larges dans des scénarios du monde réel où une compréhension précise des espaces intérieurs est essentielle – telle que les environnements AR et MR, ou la création de supports immersifs qui permettent l'interaction des utilisateurs à partir d'une seule image. »

Cette recherche a été présentée au CVPR 2025 (conférence sur la vision par ordinateur et la reconnaissance des modèles), qui s'est tenue à Nashville, du 11 au 15 juin 2025.