L’apprentissage par renforcement permet aux robots sous-marins de localiser et de suivre des objets sous l’eau
Une équipe de recherche a montré pour la première fois que l’apprentissage par renforcement – c’est-à-dire un réseau de neurones qui apprend la meilleure action à effectuer à chaque instant en fonction d’une série de récompenses – permet aux véhicules autonomes et aux robots sous-marins de localiser et de suivre attentivement les objets et animaux marins .
Les détails sont rapportés dans un article publié dans Robotique scientifique.
Actuellement, la robotique sous-marine s’impose comme un outil clé pour améliorer la connaissance des océans face aux nombreuses difficultés de leur exploration, avec des véhicules capables de descendre jusqu’à 4 000 mètres de profondeur. De plus, les données in-situ qu’ils fournissent viennent compléter d’autres données, comme celles obtenues à partir des satellites. Cette technologie permet d’étudier des phénomènes à petite échelle, comme le CO2 capture par les organismes marins, ce qui contribue à réguler le changement climatique.
Plus précisément, ce nouveau travail révèle que l’apprentissage par renforcement, largement utilisé dans le domaine du contrôle et de la robotique, ainsi que dans le développement d’outils liés au traitement du langage naturel tels que ChatGPT, permet aux robots sous-marins d’apprendre quelles actions effectuer à un moment donné. pour atteindre un objectif précis. Ces politiques d’action rejoignent, voire améliorent dans certaines circonstances, les méthodes traditionnelles fondées sur le développement analytique.
« Ce type d’apprentissage nous permet d’entraîner un réseau de neurones pour optimiser une tâche précise, ce qui serait très difficile à réaliser autrement. Par exemple, nous avons pu démontrer qu’il est possible d’optimiser la trajectoire d’un véhicule pour localiser et suivre les objets se déplaçant sous l’eau », explique Ivan Masmitjà, l’auteur principal de l’étude, qui a travaillé entre l’Institut de Ciències del Mar (ICM-CSIC) et le Monterey Bay Aquarium Research Institute (MBARI).
Cela « nous permettra d’approfondir l’étude de phénomènes écologiques comme la migration ou le déplacement à petite et grande échelle d’une multitude d’espèces marines à l’aide de robots autonomes. De plus, ces avancées permettront de suivre en temps réel d’autres instruments océanographiques grâce à un réseau de robots, dont certains peuvent être en surface pour surveiller et transmettre par satellite les actions effectuées par d’autres plateformes robotiques sur les fonds marins », précise le chercheur ICM-CSIC Joan Navarro, qui a également participé à l’étude.
Pour mener à bien ce travail, les chercheurs ont utilisé des techniques acoustiques de distance, qui permettent d’estimer la position d’un objet en tenant compte des mesures de distance prises en différents points. Cependant, ce fait rend la précision de la localisation de l’objet fortement dépendante de l’endroit où les mesures de portée acoustique sont prises.
Et c’est là que l’application de l’intelligence artificielle et, plus précisément, l’apprentissage par renforcement, qui permet d’identifier les meilleurs points et, par conséquent, la trajectoire optimale à effectuer par le robot, devient importante.
Les réseaux de neurones ont été entraînés, en partie, à l’aide du cluster d’ordinateurs du Barcelona Supercomputing Center (BSC-CNS), où se trouvent le supercalculateur le plus puissant d’Espagne et l’un des plus puissants d’Europe. « Cela a permis d’ajuster les paramètres de différents algorithmes beaucoup plus rapidement qu’en utilisant des ordinateurs conventionnels », indique le professeur Mario Martin, du département d’informatique de l’UPC et auteur de l’étude.
Une fois formés, les algorithmes ont été testés sur différents véhicules autonomes, dont l’AUV Sparus II développé par VICOROB, dans une série de missions expérimentales développées dans le port de Sant Feliu de Guíxols, dans le Baix Empordà, et dans la baie de Monterey (Californie), en collaboration avec le chercheur principal du Bioinspiration Lab de MBARI, Kakani Katija.
« Notre environnement de simulation intègre l’architecture de contrôle de véhicules réels, ce qui nous a permis d’implémenter efficacement les algorithmes avant de partir en mer », explique Narcís Palomeras, de l’UdG.
Pour de futures recherches, l’équipe étudiera la possibilité d’appliquer les mêmes algorithmes pour résoudre des missions plus compliquées. Par exemple, l’utilisation de plusieurs véhicules pour localiser des objets, détecter des fronts et des thermoclines ou des remontées d’algues coopératives grâce à des techniques d’apprentissage par renforcement multiplateforme.