Une nouvelle méthode aide l'IA à naviguer dans l'espace 3D à l'aide d'images 2D

Une nouvelle méthode aide l’IA à naviguer dans l’espace 3D à l’aide d’images 2D

Les photos sont en deux dimensions (2D), mais les véhicules autonomes et autres technologies doivent naviguer dans le monde en trois dimensions (3D). Les chercheurs ont développé une nouvelle méthode pour aider l’intelligence artificielle (IA) à extraire des informations 3D à partir d’images 2D, faisant ainsi des caméras des outils plus utiles pour ces technologies émergentes.

« Les techniques existantes pour extraire des informations 3D à partir d’images 2D sont bonnes, mais pas assez bonnes », déclare Tianfu Wu, co-auteur d’un article sur ces travaux et professeur agrégé de génie électrique et informatique à l’Université d’État de Caroline du Nord. « Notre nouvelle méthode, appelée MonoXiver, peut être utilisée conjointement avec les techniques existantes et les rend nettement plus précises. »

Ces travaux sont particulièrement utiles pour des applications telles que les véhicules autonomes. En effet, les caméras sont moins coûteuses que d’autres outils utilisés pour naviguer dans les espaces 3D, tels que le LIDAR, qui s’appuie sur des lasers pour mesurer la distance. Les caméras étant plus abordables que ces autres technologies, les concepteurs de véhicules autonomes peuvent installer plusieurs caméras, créant ainsi une redondance dans le système.

Mais cela n’est utile que si l’IA du véhicule autonome peut extraire des informations de navigation 3D à partir des images 2D prises par une caméra. C’est là qu’intervient MonoXiver.

Les techniques existantes qui extraient des données 3D à partir d’images 2D, telles que la technique MonoCon développée par Wu et ses collaborateurs, utilisent des « cadres de délimitation ». Plus précisément, ces techniques entraînent l’IA à numériser une image 2D et à placer des cadres de délimitation 3D autour des objets de l’image 2D, comme chaque voiture dans une rue.

Ces boîtes sont des cuboïdes comportant huit pointes – pensez aux coins d’une boîte à chaussures. Les cadres de délimitation aident l’IA à estimer les dimensions des objets dans une image et la position de chaque objet par rapport aux autres objets. En d’autres termes, les cadres de délimitation peuvent aider l’IA à déterminer la taille d’une voiture et sa position par rapport aux autres voitures sur la route.

Cependant, les cadres de délimitation des programmes existants sont imparfaits et ne parviennent souvent pas à inclure les parties d’un véhicule ou d’un autre objet qui apparaît dans une image 2D.

La nouvelle méthode MonoXiver utilise chaque cadre de délimitation comme point de départ, ou point d’ancrage, et demande à l’IA d’effectuer une deuxième analyse de la zone entourant chaque cadre de délimitation. Cette deuxième analyse aboutit à ce que le programme produise de nombreuses boîtes englobantes supplémentaires entourant l’ancre.

Pour déterminer laquelle de ces boîtes secondaires a le mieux capturé les parties « manquantes » de l’objet, l’IA effectue deux comparaisons. Une comparaison examine la « géométrie » de chaque boîte secondaire pour voir si elle contient des formes cohérentes avec celles de la boîte d’ancrage. L’autre comparaison examine « l’apparence » de chaque boîte secondaire pour voir si elle contient des couleurs ou d’autres caractéristiques visuelles similaires aux caractéristiques visuelles de ce qui se trouve dans la boîte d’ancrage.

« Une avancée significative ici est que MonoXiver nous permet d’exécuter cette technique d’échantillonnage descendante (création et analyse des cadres de délimitation secondaires) de manière très efficace », explique Wu.

Pour mesurer la précision de la méthode MonoXiver, les chercheurs l’ont testée à l’aide de deux ensembles de données d’images 2D : l’ensemble de données KITTI bien établi et l’ensemble de données Waymo à grande échelle, plus complexe.

« Nous avons utilisé la méthode MonoXiver en conjonction avec MonoCon et deux autres programmes existants conçus pour extraire des données 3D à partir d’images 2D, et MonoXiver a considérablement amélioré les performances des trois programmes », explique Wu. « Nous avons obtenu les meilleures performances en utilisant MonoXiver en conjonction avec MonoCon. »

« Il est également important de noter que cette amélioration s’accompagne d’une surcharge de calcul relativement mineure », explique Wu. « Par exemple, MonoCon, à lui seul, peut fonctionner à 55 images par seconde. Cela ralentit à 40 images par seconde lorsque vous intégrez la méthode MonoXiver, qui est encore suffisamment rapide pour une utilité pratique. »

« Nous sommes enthousiasmés par ce travail et continuerons à l’évaluer et à le peaufiner pour une utilisation dans les véhicules autonomes et d’autres applications », a déclaré Wu.

L’article « Détection d’objets 3D monoculaires avec débruitage de boîte englobante en 3D par Perceiver » est publié sur le arXiv serveur de préimpression.