Rendoir les robots avec une perception humaine pour naviguer dans un terrain peu maniable

La richesse des informations fournies par nos sens qui permet à notre cerveau de naviguer dans le monde qui nous entoure est remarquable. Le toucher, l’odeur, l’ouïe et un fort sentiment d’équilibre sont cruciaux pour traverser ce qui nous semble des environnements faciles comme une randonnée relaxante un matin du week-end.

Une compréhension innée des frais généraux de la canopée nous aide à déterminer où mène le chemin. L’inclinaison pointue des branches ou le coussin doux de la mousse nous informe de la stabilité de notre pied. Le tonnerre d’un arbre qui tombe ou des branches dansant dans des vents forts nous permet de connaître les dangers potentiels à proximité.

Les robots, en revanche, s’appuient depuis longtemps sur des informations visuelles telles que les caméras ou le lidar pour se déplacer dans le monde. En dehors d’Hollywood, la navigation multisensorielle est restée longtemps difficile pour les machines. La forêt, avec son beau chaos de sous-bois dense, des bûches tombées et du terrain en constante évolution, est un dédale d’incertitude pour les robots traditionnels.

Maintenant, des chercheurs de l’Université Duke ont développé un nouveau cadre nommé Wildfusion qui fusionne la vision, les vibrations et le toucher pour permettre aux robots de « sentir » des environnements de plein air complexes comme les humains. Le travail est disponible sur le arxiv Préprint Server et a récemment été accepté à la Conférence internationale de l’IEEE sur la robotique et l’automatisation (ICRA 2025), qui se tiendra du 19 au 23 mai 2025 à Atlanta, en Géorgie.

« Wildfusion ouvre un nouveau chapitre dans la navigation robotique et la cartographie 3D », a déclaré Boyuan Chen, professeur adjoint de la famille de Dickinson en génie mécanique et science des matériaux, génie électrique et informatique et informatique à l’Université Duke. « Il aide les robots à opérer plus en toute confiance dans des environnements non structurés et imprévisibles comme les forêts, les zones de catastrophe et le terrain tout-terrain. »

« Les robots typiques reposent fortement sur la vision ou le lidar seul, qui vacille souvent sans chemins clairs ni repères prévisibles », a ajouté Yanbaihui Liu, l’auteur étudiant principal et un doctorat de deuxième année. Étudiant dans le laboratoire de Chen.

« Même les méthodes de cartographie 3D avancées ont du mal à reconstruire une carte continue lorsque les données du capteur sont rares, bruyantes ou incomplètes, ce qui est un problème fréquent dans des environnements extérieurs non structurés. C’est exactement le défi que la infusion sauvage a été conçue pour résoudre. »

La infusion sauvage, construite sur un robot quadrupède, intègre des modalités de détection multiples, y compris une caméra RVB, un lidar, des capteurs inertiels et, notamment, des microphones de contact et des capteurs tactiles. Comme dans les approches traditionnelles, la caméra et le lidar capturent la géométrie, la couleur, la distance et les autres détails visuels de l’environnement. Ce qui rend la sauvagerie spéciale, c’est son utilisation des vibrations acoustiques et du toucher.

Au fur et à mesure que le robot marche, les microphones de contact enregistrent les vibrations uniques générées par chaque étape, capturant des différences subtiles, telles que le croquant des feuilles sèches par rapport à l’éclat doux de la boue.

Pendant ce temps, les capteurs tactiles mesurent la quantité de force appliquée à chaque pied, aidant la stabilité du robot ou la glisseuse en temps réel. Ces sens supplémentaires sont également complétés par le capteur inertiel qui collecte des données d’accélération pour évaluer la quantité de robot qui vacille, le tangage ou le roulement car il traverse le sol inégal.

Chaque type de données sensorielles est ensuite traité par des encodeurs spécialisés et fusionné en une seule représentation riche. Au cœur de la infusion sauvage se trouve un modèle d’apprentissage en profondeur basé sur l’idée de représentations neuronales implicites.

Contrairement aux méthodes traditionnelles qui traitent l’environnement comme une collection de points discrets, cette approche modélise les surfaces complexes et présente en continu, permettant au robot de prendre des décisions plus intelligentes et plus intuitives sur l’endroit où marcher, même lorsque sa vision est bloquée ou ambiguë.

« Pensez-y comme résoudre un puzzle où certaines pièces manquent, mais vous pouvez imaginer intuitivement l’image complète », a expliqué Chen. « L’approche multimodale de Wildfusion permet au robot de » remplir les blancs « lorsque les données du capteur sont clairsemées ou bruyantes, un peu comme ce que font les humains. »

Wildfusion a été testée au parc d’État d’Eno River en Caroline du Nord près du campus de Duke, aidant avec succès un robot à naviguer des forêts denses, des prairies et des sentiers de gravier.

« Regarder le robot naviguer en toute confiance dans le terrain était incroyablement enrichissant », a expliqué Liu. « Ces tests du monde réel ont prouvé que la capacité remarquable de Wildfusion à prédire avec précision la traversée, améliorant considérablement la prise de décision du robot sur des chemins sûrs à travers un terrain difficile. »

Pour l’avenir, l’équipe prévoit d’étendre le système en incorporant des capteurs supplémentaires, tels que des détecteurs thermiques ou d’humidité, afin d’améliorer davantage la capacité d’un robot à comprendre et à s’adapter à des environnements complexes.

Avec sa conception modulaire flexible, Wildfusion fournit de vastes applications potentielles au-delà des sentiers forestiers, notamment une réponse en cas de catastrophe sur des terrains imprévisibles, une inspection des infrastructures éloignées et une exploration autonome.

« L’un des principaux défis de la robotique aujourd’hui est de développer des systèmes qui non seulement fonctionnent bien dans le laboratoire, mais qui fonctionnent de manière fiable dans des paramètres du monde réel », a déclaré Chen. « Cela signifie que les robots qui peuvent s’adapter, prendre des décisions et continuer à bouger même lorsque le monde devient désordonné. »