Le framework VoicePilot améliore la communication entre les humains et les robots d'assistance physique
Les déficiences motrices touchent actuellement environ 5 millions de personnes aux États-Unis. Les robots d’assistance physique ont non seulement le potentiel d’aider ces personnes dans leurs tâches quotidiennes, mais ils peuvent également accroître considérablement leur indépendance, leur bien-être et leur qualité de vie.
Les grands modèles de langage (LLM) capables à la fois de comprendre et de générer le langage et le code humains sont essentiels à une communication efficace entre l'homme et le robot. Un groupe de chercheurs de l'Institut de robotique de l'Université Carnegie Mellon a reconnu l'importance des LLM et a déterminé que le développement d'interfaces innovantes améliorerait la communication entre les individus et les robots d'assistance, ce qui permettrait d'améliorer les soins prodigués aux personnes atteintes de déficiences motrices.
Le groupe de recherche, composé de professeurs et d'étudiants du laboratoire Robotic Caregiving and Human Interaction (RCHI), du laboratoire Human And Robot Partners (HARP) et du laboratoire Soft Machines (SML), a proposé VoicePilot, un cadre et des lignes directrices de conception pour l'intégration des LLM comme interfaces vocales pour les robots d'assistance physique.
En tant qu'experts de l'interaction homme-robot, l'équipe a veillé à ce que son approche soit centrée sur l'humain, faisant de VoicePilot la première œuvre à impliquer des sujets humains interagissant directement avec le LLM intégré dans un robot d'assistance physique.
L'article de VoicePilot a été accepté pour publication lors du Symposium sur les logiciels et technologies d'interface utilisateur (UIST 2024), qui se tiendra à Pittsburgh en octobre. Il est disponible sur le site arXiv serveur de préimpression.
« Nous pensons que les LLM sont la clé pour développer des interfaces vocales personnalisables et robustes pour les robots d'assistance qui peuvent fournir aux robots la capacité d'interpréter des commandes de haut niveau et des personnalisations nuancées », a déclaré Jessie Yuan, co-auteur et étudiant de premier cycle au Robotic Caregiving and Human Interaction Lab.
Le groupe a implémenté son interface vocale basée sur LLM sur Obi, le robot d'assistance à l'alimentation disponible dans le commerce. Grâce à Obi, l'objectif était de permettre aux utilisateurs de donner des instructions personnalisées, comme ils le feraient à un soignant humain, et de faire en sorte que ces instructions personnalisées soient exécutées avec succès.
Pour tester l’efficacité de VoicePilot, l’équipe a mené une étude humaine auprès de 11 personnes âgées résidant dans un établissement de vie autonome. À l’aide de tâches prédéfinies, d’une séance d’alimentation ouverte et d’une analyse des enregistrements audio recueillis au cours de l’étude, ils ont recueilli des données pour fournir des lignes directrices de conception pour l’intégration des LLM dans les interfaces d’assistance.
L'équipe a utilisé les données collectées pour déterminer cinq lignes directrices principales pour l'intégration des LLM en tant qu'interfaces vocales : l'intégration doit offrir des options de personnalisation, exécuter plusieurs fonctions de manière séquentielle, exécuter des commandes avec des vitesses comparables à celles d'un soignant, exécuter des commandes de manière cohérente et doit avoir la capacité d'interagir socialement avec l'utilisateur.
« Notre cadre et nos lignes directrices proposés aideront les chercheurs, les ingénieurs et les concepteurs, tant dans le milieu universitaire que dans l'industrie, à développer des interfaces vocales basées sur le LLM pour les robots d'assistance », a déclaré Akhil Padmanabha, co-auteur et doctorant au Robotics Institute.