Le réseau combine des données d'images LiDAR 3D et 2D pour permettre une détection plus robuste des petits objets

La robotique et les véhicules autonomes font partie des domaines à la croissance la plus rapide dans le paysage technologique, rendant potentiellement le travail et les transports plus sûrs et plus efficaces. Étant donné que les robots et les voitures autonomes doivent percevoir leur environnement avec précision, les méthodes de détection d’objets 3D constituent un domaine d’étude actif.

La plupart des méthodes de détection d’objets 3D utilisent des capteurs LiDAR pour créer des nuages de points 3D de leur environnement. En termes simples, les capteurs LiDAR utilisent des faisceaux laser pour scanner et mesurer rapidement les distances des objets et des surfaces autour de la source. Cependant, l’utilisation seule des données LiDAR peut entraîner des erreurs en raison de la grande sensibilité du LiDAR au bruit, en particulier dans des conditions météorologiques défavorables, comme en cas de pluie.

Pour résoudre ce problème, les scientifiques ont développé des méthodes de détection d’objets 3D multimodales qui combinent des données LiDAR 3D avec des images RVB 2D prises par des caméras standards. Même si la fusion d’images 2D et de données LiDAR 3D conduit à des résultats de détection 3D plus précis, elle reste confrontée à ses propres défis, la détection précise de petits objets restant difficile.

Le problème réside principalement dans l’alignement adéquat des informations sémantiques extraites indépendamment des ensembles de données 2D et 3D, ce qui est difficile en raison de problèmes tels qu’un calibrage imprécis ou une occlusion.

Dans ce contexte, une équipe de recherche dirigée par le professeur Hiroyuki Tomiyama de l’Université Ritsumeikan, au Japon, a développé une approche innovante pour rendre la détection multimodale d’objets 3D plus précise et plus robuste. Le schéma proposé, appelé « Dynamic Point-Pixel Feature Alignment Network » (DPPFA−Net), est décrit dans leur article publié dans Journal IEEE de l’Internet des objets.

Le modèle comprend un agencement d’instances multiples de trois nouveaux modules : le module de fusion point-pixel basé sur la mémoire (MPPF), le module de fusion point-pixel déformable (DPPF) et le module d’évaluation d’alignement sémantique (SAE).

Le module MPPF est chargé d’effectuer des interactions explicites entre les fonctionnalités intra-modales (2D avec 2D et 3D avec 3D) et les fonctionnalités intermodales (2D avec 3D). L’utilisation de l’image 2D comme banque de mémoire réduit la difficulté d’apprentissage du réseau et rend le système plus robuste face au bruit dans les nuages de points D. De plus, il favorise l’utilisation de fonctionnalités plus complètes et discriminantes.

En revanche, le module DPPF effectue des interactions uniquement au niveau des pixels situés dans des positions clés, qui sont déterminées via une stratégie d’échantillonnage intelligente. Cela permet la fusion de fonctionnalités en haute résolution avec une faible complexité de calcul. Enfin, le module SAE permet d’assurer l’alignement sémantique entre les deux représentations de données pendant le processus de fusion, ce qui atténue le problème de l’ambiguïté des fonctionnalités.

Les chercheurs ont testé DPPFA−Net en le comparant aux plus performants du KITTI Vision Benchmark, largement utilisé. Notamment, le réseau proposé a atteint des améliorations moyennes de précision pouvant atteindre 7,18 % dans différentes conditions de bruit. Pour tester davantage les capacités de leur modèle, l’équipe a créé un nouvel ensemble de données bruyantes en introduisant un bruit multimodal artificiel sous forme de pluie dans l’ensemble de données KITTI.

Les résultats montrent que le réseau proposé a mieux fonctionné que les modèles existants, non seulement face à de graves occlusions, mais également sous divers niveaux de conditions météorologiques défavorables. « Nos expériences approfondies sur l’ensemble de données KITTI et nos cas bruyants multimodaux difficiles révèlent que DPPFA-Net atteint un nouvel état de l’art », déclare le professeur Tomiyama.

Il existe notamment de nombreuses manières par lesquelles des méthodes précises de détection d’objets 3D pourraient améliorer nos vies. Les voitures autonomes, qui s’appuient sur de telles techniques, ont le potentiel de réduire les accidents et d’améliorer la fluidité et la sécurité du trafic. En outre, les implications dans le domaine de la robotique ne doivent pas être sous-estimées. « Notre étude pourrait faciliter une meilleure compréhension et adaptation des robots à leurs environnements de travail, permettant une perception plus précise des petites cibles », explique le professeur Tomiyama.

« De tels progrès contribueront à améliorer les capacités des robots dans diverses applications. » Une autre utilisation des réseaux de détection d’objets 3D est le pré-étiquetage des données brutes pour les systèmes de perception d’apprentissage en profondeur. Cela réduirait considérablement le coût de l’annotation manuelle, accélérant ainsi les développements dans le domaine.