Les points de fuite des artistes de la Renaissance illuminent les véhicules autonomes

Les points de fuite des artistes de la Renaissance illuminent les véhicules autonomes

Une technologie d’intelligence artificielle (IA) a été développée pour permettre aux véhicules autonomes basés sur des caméras de percevoir plus précisément leur environnement. Cette approche innovante utilise le concept géométrique du point de fuite, un dispositif artistique qui transmet la profondeur et la perspective des images.

Le professeur Kyungdon Joo et son équipe de recherche de la Graduate School of Artificial Intelligence de l'UNIST ont annoncé le développement de VPOcc, un nouveau cadre d'IA qui exploite le point de fuite pour atténuer l'écart 2D-3D au niveau des pixels et des fonctionnalités. Cette approche aborde la distorsion de perspective inhérente aux entrées de caméra, permettant une compréhension plus précise de la scène.

Les véhicules autonomes et les robots reconnaissent leur environnement principalement grâce à des caméras et des capteurs LIDAR. Bien que les caméras soient plus abordables, plus légères et capables de capturer des informations riches sur les couleurs et les formes par rapport au LIDAR, elles posent également des problèmes importants en raison de la projection d'un espace tridimensionnel sur des images bidimensionnelles. Les objets plus proches de la caméra semblent plus grands, tandis que les objets éloignés semblent plus petits, ce qui entraîne des erreurs potentielles telles que des détections manquées d'objets éloignés ou une trop grande importance accordée aux régions proches.

Pour relever ce défi, l'équipe de recherche a conçu un système d'IA qui reconstruit les informations de la scène en fonction du point de fuite, un concept établi par les peintres de la Renaissance pour représenter la profondeur et la perspective, où des lignes parallèles semblent converger en un seul point au loin. Tout comme les humains perçoivent la profondeur en reconnaissant les points de fuite sur une toile plate, le modèle d'IA développé utilise ce principe pour restaurer plus précisément la profondeur et les relations spatiales dans les images de la caméra.

Le modèle VPOcc se compose de trois modules clés. Le premier est VPZoomer, qui corrige la distorsion de perspective en déformant les images en fonction du point de fuite. La seconde est une attention croisée guidée par VP (VPCA), qui extrait des informations équilibrées des régions proches et lointaines grâce à une agrégation de fonctionnalités tenant compte de la perspective. Le troisième est une fusion de volume spéciale (SVF), qui fusionne les images originales et corrigées pour compléter les forces et les faiblesses de chacune.

Les résultats expérimentaux ont démontré que VPOcc surpasse les modèles existants sur plusieurs points de référence en termes de compréhension spatiale (mesurée par l'intersection moyenne sur Union, mIoU) et de précision de reconstruction de scène (IoU). Il prédit notamment plus efficacement les objets distants et distingue les entités qui se chevauchent – ​​des capacités cruciales pour la conduite autonome dans des environnements routiers complexes.

Cette recherche a été dirigée par le premier auteur Junsu Kim, chercheur à l'UNIST, avec les contributions de Junhee Lee de l'UNIST et d'une équipe de l'Université Carnegie Mellon aux États-Unis.

Junsu Kim a expliqué : « L'intégration de la perception spatiale humaine dans l'IA permet une compréhension plus efficace de l'espace 3D. Notre objectif était de maximiser le potentiel des capteurs de caméra, plus abordables et plus légers que le LIDAR, en abordant leurs limites inhérentes en matière de perspective.

Le professeur Joo a ajouté : « La technologie développée a de larges applications, non seulement dans la robotique et les systèmes autonomes, mais également dans la cartographie en réalité augmentée (AR) et au-delà. »

L’étude a reçu le Silver Award lors du 31e Samsung Human Tech Paper Award en mars et a été acceptée pour présentation à l’IROS 2025 (Conférence internationale sur les robots et systèmes intelligents). Le document est disponible sur arXiv serveur de préimpression.