Instaurer la confiance entre les humains et les robots lors de la gestion d'objectifs contradictoires

Une nouvelle étude de l'Université du Michigan sur la façon dont les humains et les robots travaillent ensemble sur des tâches aux objectifs contradictoires est la première à démontrer que la confiance et les performances de l'équipe s'améliorent lorsque le robot s'adapte activement à la stratégie de l'humain.

Des objectifs contradictoires impliquent des compromis tels que la vitesse et la précision. L'alignement sur la stratégie humaine était plus efficace pour instaurer la confiance lorsque le robot n'avait pas de connaissance préalable des préférences de l'humain.

L'étude a été présentée le 12 mars lors de la conférence sur l'interaction homme-robot à Boulder, Colorado. Il est disponible sur le arXiv serveur de préimpression.

L’algorithme développé par les chercheurs peut s’étendre à tout scénario d’interaction homme-robot impliquant des objectifs contradictoires. Par exemple, un robot de rééducation doit équilibrer la tolérance à la douleur d'un patient et ses objectifs de santé à long terme lors de l'attribution du niveau d'exercice approprié.

« Lorsque nous sommes confrontés à des objectifs contradictoires, chacun a une approche différente pour atteindre ses objectifs », a déclaré Xi Jessie Yang, professeur agrégé d'ingénierie industrielle et opérationnelle et dernier auteur de l'article.

Certains patients voudront peut-être récupérer rapidement, en augmentant l’intensité au prix de niveaux de douleur plus élevés, tandis que d’autres souhaitent minimiser la douleur au prix d’un temps de récupération plus lent.

Si le robot ne connaît pas à l'avance la préférence du patient en matière de stratégie de récupération, grâce à cet algorithme, le robot peut apprendre et ajuster les recommandations d'exercices pour équilibrer ces deux objectifs.

Cette recherche fait partie d’un ensemble de travaux plus vastes visant à faire passer les robots d’un simple outil pour une tâche isolée à un partenaire collaboratif en instaurant la confiance.

Des recherches antérieures se sont concentrées sur la conception de robots capables d’afficher des comportements dignes de confiance, comme expliquer le raisonnement pour une action. Récemment, l’accent a été mis sur l’alignement des objectifs des robots sur les objectifs humains, mais les chercheurs n’ont pas testé l’impact de l’alignement des objectifs sur les résultats.

« Notre étude est la première tentative visant à examiner si l'alignement des valeurs, ou la préférence d'un agent pour atteindre des objectifs contradictoires, entre humains et robots, peut bénéficier à la confiance et aux performances de l'équipe homme-robot », a déclaré Yang.

Pour tester cela, les participants à l'étude ont été invités à réaliser un scénario de type jeu vidéo dans lequel une équipe homme-robot doit gérer des objectifs contradictoires consistant à terminer une mission de recherche le plus rapidement possible tout en maintenant le niveau de santé d'un soldat.

Le participant incarne le personnage d'un soldat se déplaçant dans une zone de conflit. Un robot aérien évalue le niveau de danger à l'intérieur d'un bâtiment, puis recommande à l'humain de déployer ou non un robot bouclier lorsqu'il entre. L’utilisation du bouclier maintient un niveau de santé élevé au prix d’un temps de déploiement supplémentaire.

Le participant accepte ou rejette la recommandation du robot, puis fournit des commentaires sur son niveau de confiance dans le système de recommandation allant de zéro à une confiance totale.

Les expérimentateurs ont testé trois stratégies d’interaction avec les robots :

Non-apprenant : le robot suppose que la stratégie de l'humain reflète sa propre stratégie préprogrammée
Apprenti non adaptatif : le robot apprend la stratégie humaine pour l'estimation de la confiance et la modélisation du comportement humain, mais optimise néanmoins sa propre stratégie
Apprentissage adaptatif : le robot apprend la stratégie de l'humain et l'adopte comme la sienne

Ils ont réalisé deux expériences, l'une dans laquelle le robot disposait d'informations préalables bien informées sur les préférences stratégiques de l'humain et l'autre dans laquelle il partait de zéro.

L’apprentissage adaptatif du robot a amélioré l’équipe homme-robot lorsque le robot partait de zéro, mais pas lorsqu’il disposait d’informations préalables, laissant peu de marge pour améliorer sa stratégie.

« Les avantages se manifestent dans de nombreux domaines, notamment une confiance accrue dans le robot, une charge de travail réduite et des performances perçues plus élevées », a déclaré Shreyas Bhat, doctorant en ingénierie industrielle et opérationnelle et premier auteur de l'article.

Dans ce scénario, les préférences de l’humain ne changent pas avec le temps. Cependant, la stratégie peut changer en fonction des circonstances. S'il reste très peu de temps, une évolution vers un comportement à risque accru peut permettre de gagner du temps et de mener à bien la mission.

« Dans la prochaine étape, nous souhaitons supprimer l'hypothèse de l'algorithme selon laquelle les préférences restent les mêmes », a déclaré Bhat.

À mesure que les robots participent de plus en plus à des tâches objectives contradictoires dans des domaines tels que les soins de santé, l’industrie manufacturière, la sécurité nationale, l’éducation et l’assistance à domicile, continuer à évaluer et à améliorer la confiance renforcera les partenariats homme-robot.