Une technique de cartographie flexible peut aider les robots de recherche et de sauvetage à naviguer dans des environnements imprévisibles
Un robot à la recherche de travailleurs piégés dans un puits de mine partiellement effondré doit rapidement générer une carte de la scène et identifier son emplacement au sein de cette scène tout en naviguant sur un terrain dangereux.
Les chercheurs ont récemment commencé à créer de puissants modèles d'apprentissage automatique pour effectuer cette tâche complexe en utilisant uniquement les images des caméras embarquées du robot, mais même les meilleurs modèles ne peuvent traiter que quelques images à la fois. Dans une catastrophe réelle où chaque seconde compte, un robot de recherche et de sauvetage devrait parcourir rapidement de vastes zones et traiter des milliers d’images pour accomplir sa mission.
Pour surmonter ce problème, les chercheurs du MIT se sont appuyés sur les idées des modèles récents de vision de l'intelligence artificielle et de la vision par ordinateur classique pour développer un nouveau système capable de traiter un nombre arbitraire d'images. Leur système génère avec précision des cartes 3D de scènes complexes, comme un couloir de bureau bondé, en quelques secondes.
Le système piloté par l'IA crée et aligne progressivement des sous-cartes plus petites de la scène, qu'il assemble pour reconstruire une carte 3D complète tout en estimant la position du robot en temps réel.
Contrairement à de nombreuses autres approches, leur technique ne nécessite pas de caméras étalonnées ni l’intervention d’un expert pour régler la mise en œuvre d’un système complexe. La nature plus simple de leur approche, associée à la rapidité et à la qualité des reconstructions 3D, faciliterait leur mise à l’échelle pour des applications réelles.
En plus d'aider les robots de recherche et de sauvetage à naviguer, cette méthode pourrait être utilisée pour créer des applications de réalité étendue pour des appareils portables tels que des casques VR ou permettre aux robots industriels de trouver et de déplacer rapidement des marchandises à l'intérieur d'un entrepôt.
« Pour que les robots accomplissent des tâches de plus en plus complexes, ils ont besoin de représentations cartographiques beaucoup plus complexes du monde qui les entoure. Mais en même temps, nous ne voulons pas rendre plus difficile la mise en œuvre de ces cartes dans la pratique. Nous avons montré qu'il est possible de générer une reconstruction 3D précise en quelques secondes avec un outil prêt à l'emploi », explique Dominic Maggio, étudiant diplômé du MIT et auteur principal d'un article sur cette méthode.
Maggio est rejoint sur l'article par le postdoc Hyungtae Lim et l'auteur principal Luca Carlone, professeur agrégé au Département d'aéronautique et d'astronautique du MIT (AeroAstro), chercheur principal au Laboratoire des systèmes d'information et de décision (LIDS) et directeur du Laboratoire MIT SPARK. La recherche sera présentée à la Conférence sur les systèmes de traitement de l'information neuronale.
Les résultats sont publiés sur le arXiv serveur de préimpression.
Élaborer une solution
Depuis des années, les chercheurs s’attaquent à un élément essentiel de la navigation robotique appelé localisation et cartographie simultanées (SLAM). Dans SLAM, un robot recrée une carte de son environnement tout en s'orientant dans l'espace.
Les méthodes d'optimisation traditionnelles pour cette tâche ont tendance à échouer dans les scènes difficiles, ou nécessitent un calibrage préalable des caméras embarquées du robot. Pour éviter ces écueils, les chercheurs entraînent des modèles d’apprentissage automatique pour apprendre cette tâche à partir des données.
Bien qu'ils soient plus simples à mettre en œuvre, même les meilleurs modèles ne peuvent traiter qu'environ 60 images de caméra à la fois, ce qui les rend irréalisables pour les applications dans lesquelles un robot doit se déplacer rapidement dans un environnement varié tout en traitant des milliers d'images.

Pour résoudre ce problème, les chercheurs du MIT ont conçu un système qui génère des sous-cartes plus petites de la scène au lieu de la carte entière. Leur méthode « colle » ces sous-cartes ensemble en une seule reconstruction 3D globale. Le modèle ne traite encore que quelques images à la fois, mais le système peut recréer des scènes plus grandes beaucoup plus rapidement en assemblant des sous-cartes plus petites.
« Cela semblait être une solution très simple, mais lorsque je l'ai essayé pour la première fois, j'ai été surpris de constater qu'elle ne fonctionnait pas très bien », explique Maggio.
À la recherche d’une explication, il a fouillé dans des documents de recherche sur la vision par ordinateur des années 1980 et 1990. Grâce à cette analyse, Maggio a réalisé que les erreurs dans la manière dont les modèles d'apprentissage automatique traitent les images rendaient l'alignement des sous-cartes un problème plus complexe.
Les méthodes traditionnelles alignent les sous-cartes en appliquant des rotations et des traductions jusqu'à ce qu'elles s'alignent. Mais ces nouveaux modèles peuvent introduire une certaine ambiguïté dans les sous-cartes, ce qui rend leur alignement plus difficile. Par exemple, une sous-carte 3D d’un côté d’une pièce peut avoir des murs légèrement pliés ou étirés. Faire simplement pivoter et traduire ces sous-cartes déformées pour les aligner ne fonctionne pas.
« Nous devons nous assurer que toutes les sous-cartes sont déformées de manière cohérente afin de pouvoir bien les aligner les unes sur les autres », explique Carlone.
Une approche plus flexible
En empruntant des idées à la vision par ordinateur classique, les chercheurs ont développé une technique mathématique plus flexible qui peut représenter toutes les déformations de ces sous-cartes. En appliquant des transformations mathématiques à chaque sous-carte, cette méthode plus flexible peut les aligner de manière à résoudre l'ambiguïté.
Sur la base des images d'entrée, le système génère une reconstruction 3D de la scène et des estimations des emplacements des caméras, que le robot utiliserait pour se localiser dans l'espace.
« Une fois que Dominic a eu l'intuition de relier ces deux mondes : les approches basées sur l'apprentissage et les méthodes d'optimisation traditionnelles, la mise en œuvre a été assez simple », explique Carlone. « Proposer quelque chose d'aussi simple et efficace présente un potentiel pour de nombreuses applications.
Leur système fonctionnait plus rapidement avec moins d’erreurs de reconstruction que les autres méthodes, sans nécessiter de caméras spéciales ni d’outils supplémentaires pour traiter les données. Les chercheurs ont généré des reconstructions 3D en temps quasi réel de scènes complexes comme l'intérieur de la chapelle du MIT en utilisant uniquement de courtes vidéos capturées sur un téléphone portable.
L'erreur moyenne dans ces reconstructions 3D était inférieure à 5 centimètres.
À l’avenir, les chercheurs souhaitent rendre leur méthode plus fiable pour des scènes particulièrement complexes et travailler à sa mise en œuvre sur de vrais robots dans des environnements difficiles.
« Connaître la géométrie traditionnelle est payant. Si vous comprenez profondément ce qui se passe dans le modèle, vous pouvez obtenir de bien meilleurs résultats et rendre les choses beaucoup plus évolutives », explique Carlone.
