L'optimisation d'auto-apprentissage du robot aquatique améliore les compétences de manipulation d'objets sous-marins
Ces dernières années, les roboticiens ont introduit des systèmes robotiques capables d’accomplir des missions dans divers environnements, allant du sol aux environnements souterrains, aériens et sous-marins. Si plusieurs de ces robots peuvent saisir et déplacer des objets au sol, la manipulation d'objets par des systèmes robotiques sous l'eau s'est jusqu'à présent révélée plus difficile.
Des chercheurs de l’Université de Columbia ont récemment développé AquaBot, un nouveau robot sous-marin capable d’effectuer de manière autonome des tâches de manipulation d’objets de base sous l’eau. Le robot, présenté dans un article publié sur le arXiv serveur de préimpression, combine du matériel accessible avec un modèle informatique formé sur des données extraites de démonstrations humaines.
« La manipulation robotique sous-marine est confrontée à des défis importants en raison de la dynamique des fluides complexe et des environnements non structurés, ce qui oblige la plupart des systèmes de manipulation à s'appuyer fortement sur la téléopération humaine », ont écrit Ruoshi Liu, Huy Ha et leurs collègues dans leur article. « Nous présentons AquaBot, un système de manipulation entièrement autonome qui combine le clonage de comportements à partir de démonstrations humaines avec une optimisation par auto-apprentissage pour améliorer les performances au-delà de la téléopération humaine. »
Aquabot, le robot conçu par Liu, Ha et leurs collègues, est basé sur le drone sous-marin QYSEA V-EVO. Les chercheurs ont ajouté une pince à mâchoires parallèles QYSEA et deux caméras à ce drone aquatique, car cela lui permettrait de collecter des images pertinentes sous l'eau et d'effectuer des tâches de manipulation d'objets.
Ils ont également créé un code qui permettrait au robot d’apprendre de manière autonome des politiques visuomotrices de bout en bout guidant sa manipulation d’objets sous l’eau. Les modèles informatiques qui planifient et contrôlent les actions du robot ont été formés en deux étapes différentes.
« Dans un premier temps, nous distillons l'adaptabilité humaine dans une politique visuomotrice en boucle fermée », ont écrit les chercheurs. « Pour ce faire, nous enregistrons des démonstrations humaines qui téléopèrent le robot pour effectuer diverses tâches de manipulation, puis utilisons les données pour former une politique visuomotrice. En raccourcissant l'horizon d'action de la politique, nous augmentons effectivement sa réactivité, ce qui est essentiel pour faire face aux imprévus sous-marins. dynamique. »
Dans le cadre de la deuxième étape de formation, Liu, Ha et leurs collègues ont tenté d'accélérer l'apprentissage de nouveaux comportements par le robot. Pour ce faire, ils ont utilisé l’optimisation autoguidée, une approche qui permet aux systèmes d’ajuster de manière autonome leur processus d’apprentissage en utilisant les retours dérivés de leurs prédictions ou décisions passées.
« Dans cette étape, nous exécutons à plusieurs reprises la politique apprise et utilisons le temps d'exécution comme récompense pour accélérer la politique avec un algorithme d'optimisation basé sur un substitut », ont écrit les chercheurs. « Cette étape permet au système d'optimiser davantage les paramètres sous-optimaux (par exemple, la vitesse d'exécution) dans les données de démonstration humaine. »
Les chercheurs ont évalué Aquabot dans une série d’expériences réelles, testant sa capacité à accomplir différentes tâches de manipulation d’objets. Ces tâches consistaient notamment à saisir des roches inédites sous l’eau, à trier les déchets dans différents conteneurs et à récupérer de gros objets déformables conçus pour imiter le corps humain.
Le robot a bien exécuté toutes ces tâches, les accomplissant plus rapidement qu’un opérateur humain ne le ferait. Notamment, son approche d’optimisation autoguidée sous-jacente permet également à la racine d’améliorer continuellement sa politique de base à mesure qu’elle acquiert davantage d’expérience dans les environnements du monde réel.
« Grâce à de nombreuses expériences réelles, nous démontrons la polyvalence d'AquaBot dans diverses tâches de manipulation, notamment la saisie d'objets, le tri des déchets et la récupération », ont écrit Liu, Ha et leurs collègues. « Nos expériences réelles montrent que la politique auto-optimisée d'AquaBot surpasse de 41 % celle d'un opérateur humain en termes de vitesse. AquaBot représente une étape prometteuse vers des systèmes de manipulation sous-marine autonomes et auto-améliorés. »
La conception matérielle et les logiciels utilisés par l’équipe de recherche sont open source et sont accessibles à d’autres informaticiens du monde entier. À l’avenir, le système robotique qu’ils ont développé pourrait être encore amélioré, testé dans d’autres expériences et éventuellement déployé dans des environnements naturels pour accomplir diverses missions. Par exemple, il pourrait être utilisé pour assister des agents humains lors de missions de recherche et de sauvetage et pour collecter des déchets, des minéraux ou d’autres objets sur les fonds marins.