Une nouvelle étude révèle que l’empathie générée par l’IA a ses limites

Une nouvelle étude révèle que l’empathie générée par l’IA a ses limites

Les agents conversationnels (CA) tels qu'Alexa et Siri sont conçus pour répondre aux questions, proposer des suggestions et même faire preuve d'empathie. Cependant, de nouvelles recherches révèlent qu'ils réussissent moins bien que les humains lorsqu'il s'agit d'interpréter et d'explorer l'expérience d'un utilisateur.

Les autorités de certification sont alimentées par de grands modèles de langage (LLM) qui ingèrent des quantités massives de données produites par l'homme et peuvent donc être sujettes aux mêmes biais que les humains dont proviennent les informations.

Des chercheurs de l’Université Cornell, de l’Olin College et de l’Université Stanford ont testé cette théorie en incitant les CA à faire preuve d’empathie lorsqu’ils conversaient avec ou environ 65 identités humaines distinctes.

L’équipe a constaté que les CA portent des jugements de valeur sur certaines identités, comme celle des homosexuels et des musulmans, et peuvent encourager les identités liées à des idéologies néfastes, notamment le nazisme.

« Je pense que l'empathie automatisée pourrait avoir un impact énorme et un énorme potentiel de choses positives, par exemple dans l'éducation ou le secteur des soins de santé », a déclaré l'auteur principal Andrea Cuadra, maintenant chercheur postdoctoral à Stanford.

« Il est extrêmement improbable que cela (l'empathie automatisée) ne se produise pas », a-t-elle déclaré, « il est donc important que, lorsque cela se produit, nous ayons des perspectives critiques afin que nous puissions être plus intentionnels dans l'atténuation des dommages potentiels. »

Cuadra présentera « L'illusion de l'empathie ? Notes sur les manifestations d'émotion dans l'interaction homme-machine » à CHI '24, la conférence de l'Association of Computing Machinery sur les facteurs humains dans les systèmes informatiques, du 11 au 18 mai à Honolulu. Les co-auteurs de la recherche à l’Université Cornell comprenaient Nicola Dell, professeur agrégé ; Deborah Estrin, professeur d'informatique ; et Malte Jung, professeur agrégé de sciences de l'information.

Les chercheurs ont constaté qu’en général, les LLM recevaient des notes élevées pour les réactions émotionnelles, mais des notes faibles pour les interprétations et les explorations. En d’autres termes, les LLM sont capables de répondre à une requête en fonction de leur formation mais sont incapables d’approfondir.

Dell, Estrin et Jung ont déclaré avoir été inspirés par ce travail alors que Cuadra étudiait l'utilisation des CA de première génération par les personnes âgées.

« Elle a été témoin d'utilisations fascinantes de la technologie à des fins transactionnelles telles que des évaluations de santé fragile, ainsi que pour des expériences de réminiscence ouvertes », a déclaré Estrin. « En cours de route, elle a observé des exemples clairs de tension entre « l'empathie » convaincante et perturbante. »