Des chercheurs cherchent à réduire les dommages causés aux utilisateurs multiculturels d'assistants vocaux

Les utilisateurs d’assistants vocaux tels que Siri, Alexa ou Google Assistant connaissent la frustration d’être mal compris par une machine.

Mais pour les personnes qui n'ont pas l'accent américain standard, une telle mauvaise communication peut aller au-delà de la simple irritation pour devenir carrément dangereuse, selon les chercheurs de l'Institut d'interaction homme-machine (HCII) de l'École d'informatique de l'Université Carnegie Mellon.

Dans une nouvelle étude publiée dans le Actes de la conférence CHI sur les facteurs humains dans les systèmes informatiquesKimi Wenzel, doctorante en HCII, et Geoff Kaufman, professeur associé, ont identifié six dommages en aval causés par les erreurs des assistants vocaux et ont élaboré des stratégies pour les réduire. Leurs travaux ont remporté un prix du meilleur article lors de la conférence de l'Association for Computing Machinery sur les facteurs humains dans les systèmes informatiques (CHI 2024).

« Cet article fait partie d’un projet de recherche plus vaste mené dans notre laboratoire visant à documenter et à comprendre l’impact des biais intégrés dans la technologie », a déclaré Kaufman.

Les Américains blancs sont surreprésentés dans la plupart des ensembles de données utilisés pour former les assistants vocaux, et des études ont montré que ces assistants sont beaucoup plus susceptibles de mal interpréter ou de mal comprendre les locuteurs noirs et les personnes ayant des accents ou des dialectes différents de l'américain standard.

Les chercheurs avaient tendance à considérer ce problème comme un problème technique à résoudre, plutôt qu'une défaillance ayant des répercussions sur l'utilisateur, a expliqué Kaufman. Mais une parole mal comprise, que ce soit par une personne ou par une machine, peut être vécue comme une microagression.

« Cela peut avoir des effets sur l’estime de soi ou sur votre sentiment d’appartenance », a déclaré Kaufman.

Dans une expérience contrôlée réalisée l'année dernière, Kaufman et Wenzel ont étudié l'impact des taux d'erreur d'un assistant vocal sur des volontaires blancs et noirs. Les personnes noires qui ont connu des taux d'erreur élevés ont eu des niveaux plus élevés de conscience de soi, des niveaux plus faibles d'estime de soi et une vision moins favorable de la technologie que les personnes noires qui ont connu des taux d'erreur faibles. Les personnes blanches n'ont pas eu cette réaction, quel que soit le taux d'erreur.

« Nous émettons l’hypothèse que, parce que les Noirs sont plus souvent confrontés à des problèmes de communication ou ont plus d’expérience quotidienne du racisme, ces expériences s’accumulent et ils subissent davantage d’effets négatifs », a déclaré Wenzel.

Dans leur dernière étude, Wenzel et Kaufman ont interrogé 16 volontaires qui avaient rencontré des problèmes avec des assistants vocaux. Ils ont identifié six risques potentiels pouvant résulter d’erreurs apparemment anodines des assistants vocaux. Il s’agit notamment de dommages émotionnels, culturels ou identitaires causés par des microagressions.

Ils ont également pris en compte les préjudices relationnels, qui surviennent lorsqu'une erreur conduit à un conflit interpersonnel. Un assistant vocal, par exemple, peut créer une entrée de calendrier avec une heure de réunion erronée ou diriger un appel de manière erronée.

D’autres inconvénients incluent le fait de payer le même prix pour une technologie que d’autres personnes même si elle ne fonctionne pas aussi bien pour vous, ainsi que le fait de devoir fournir un effort supplémentaire (comme modifier un accent) pour que la technologie fonctionne.

Un sixième préjudice est la mise en danger physique.

« Les technologies vocales ne sont pas seulement utilisées comme un simple assistant vocal sur votre smartphone », a déclaré Wenzel. « Elles sont de plus en plus utilisées dans des contextes plus sérieux, par exemple dans la transcription médicale. »

Les technologies vocales sont également utilisées en conjonction avec les systèmes de navigation automatique, « et cela comporte des enjeux très importants », a ajouté Wenzel.

Une personne interrogée dans le cadre de l'étude a raconté sa propre expérience terrifiante avec un système de navigation à commande vocale. « Souvent, j'ai l'impression de prononcer les mots très clairement et très fort, mais le système ne me comprend toujours pas. Je ne sais pas ce qui se passe. Je ne sais pas où je vais. C'est donc une expérience frustrante, très dangereuse et déroutante. »

La solution ultime est d’éliminer les biais dans les technologies vocales, mais créer des ensembles de données représentatifs de l’ensemble des variations humaines est une tâche complexe, a déclaré Wenzel. Elle et Kaufman ont donc discuté avec les participants des choses que les assistants vocaux pourraient dire à leurs utilisateurs pour atténuer ces préjudices.

Une stratégie de réparation de la communication qu'ils ont identifiée était la redirection des reproches : pas de simples excuses, mais une explication décrivant l'erreur qui ne rejette pas la faute sur l'utilisateur.

Wenzel et Kaufmann suggèrent également que les technologies vocales soient plus sensibles aux différences culturelles. La lutte contre les préjudices culturels est dans une certaine mesure limitée par la technologie, mais une action simple mais profonde serait d’augmenter la base de données des noms propres.

« La mauvaise reconnaissance des noms non anglophones constitue un préjudice persistant dans de nombreuses technologies linguistiques », ont noté les chercheurs dans l’article.

De nombreuses recherches en psychologie sociale ont montré que l’affirmation de soi – une déclaration des valeurs ou des croyances d’un individu – peut avoir un effet protecteur lorsque son identité est menacée, a déclaré Kaufman. Lui et Wenzel cherchent des moyens pour que les assistants vocaux puissent inclure des affirmations dans leurs conversations avec les utilisateurs, de préférence d’une manière qui ne soit pas évidente pour l’utilisateur. Wenzel teste actuellement certaines de ces affirmations dans une étude de suivi.

Dans toutes ces interventions conversationnelles, la concision est primordiale. Les gens utilisent souvent les technologies vocales, après tout, dans l’espoir d’être plus efficaces ou de pouvoir travailler en mode mains libres. L’ajout de messages dans la conversation tend à aller à l’encontre de cet objectif.

« C'est un défi de conception auquel nous sommes confrontés : comment pouvons-nous souligner que la faute incombe à la technologie et non à l'utilisateur ? Comment pouvons-nous rendre cela aussi clair que possible en aussi peu de mots que possible ? », a déclaré Wenzel. « Pour l'instant, la technologie dit 'désolé', mais nous pensons que cela devrait être plus que cela. »