L'assistant d'IA d'Amazon se débat avec divers dialectes, découvertes d'étude
Une nouvelle étude Cornell a révélé que l'assistant de shopping AI d'Amazon, Rufus, offre des réponses vagues ou incorrectes aux utilisateurs qui écrivent dans certains dialectes anglais, tels que l'anglais afro-américain (AAE), en particulier lorsque les invites contiennent des fautes de frappe.
Le document introduit un cadre pour évaluer les chatbots pour les dommages qui se produisent lorsque les systèmes d'IA fonctionnent pire pour les utilisateurs qui parlent ou écrivent dans différents dialectes. L'étude a des implications pour le nombre croissant de plateformes en ligne qui incorporent des chatbots basés sur des modèles de grandes langues pour fournir des services aux utilisateurs, ont déclaré les chercheurs.
« Actuellement, les chatbots peuvent fournir des réponses de qualité inférieure aux utilisateurs qui écrivent dans des dialectes. Cependant, cela ne doit pas être le cas », a déclaré l'Emma Harvey, auteur Emma Harvey, un doctorat. Étudiant à Cornell Tech. « Si nous formons des modèles de grande langue pour être robustes aux caractéristiques dialectiques courantes qui existent en dehors de l'anglais américain dite standard, nous pourrions voir un comportement plus équitable. »
La recherche a reçu un prix du meilleur papier lors de la conférence ACM du 23 au 26 juin sur l'équité, la responsabilité et la transparence (FACCT 2025). Les co-auteurs sont René F. Kizilcec, professeur agrégé d'ordinateur et de sciences de l'information au Cornell Ann S. Bowers College of Information Science, et Allison Koenecke, professeur adjoint à Cornell Tech. Le document est publié dans le Actes de la conférence ACM 2025 sur l'équité, la responsabilité et la transparence.
« Les chatbots sont de plus en plus utilisés pour les tâches à enjeux élevés, de l'éducation aux services gouvernementaux », a déclaré Koenecke, qui est également affilié à Cornell Bowers. « Nous voulions étudier si les utilisateurs qui parlent et écrivent différemment – des dialectes et des niveaux de formalité – ont des expériences comparables avec des chatbots formés principalement sur l'anglais américain » standard « . »
Pour tester leur cadre, les chercheurs ont vérifié Amazon Rufus, un chatbot dans l'application d'achat d'Amazon. Ils ont utilisé un outil appelé Multivalue pour convertir les invites en anglais standard en cinq dialectes largement parlés: AAE, anglais chicano, anglais Appalachien, anglais indien et anglais singapourien. Les chercheurs ont également modifié ces invites pour refléter l'utilisation du monde réel en ajoutant des fautes de frappe, en supprimant la ponctuation et en changeant la capitalisation.
L'équipe a constaté que Rufus avait plus souvent donné des réponses de faible qualité qui étaient vagues ou incorrectes lorsqu'elles étaient invitées dans les dialectes plutôt que dans l'anglais américain standard (SAE). L'espace s'est élargi lorsque les invites comprenaient des fautes de frappe.
Par exemple, lorsqu'on lui a demandé à SAE si une veste était lavable à la machine, Rufus a répondu correctement. Mais lorsque les chercheurs ont reformulé la même question dans AAE et sans verbe de liaison – « Cette machine de veste lavable? » – Rufus n'a souvent pas répondu correctement et a plutôt dirigé les utilisateurs vers des produits non liés.
« Une partie de cette sous-performance découle de règles grammaticales spécifiques », a déclaré Koenecke. « Cela a de graves implications pour les chatbots largement utilisés comme Rufus, qui sous-performent probablement pour une grande partie des utilisateurs. »
Dans l'ensemble, les auteurs préconisent l'audit de l'IA conscient du dialecte. Ils exhortent également les développeurs à concevoir des systèmes qui adoptent la diversité linguistique.
« Les chatbots sont de plus en plus ajoutés aux technologies éducatives en tant que tuteurs d'IA qui soutiennent un large éventail d'étudiants », a déclaré Kizilcec, qui dirige l'avenir du laboratoire d'apprentissage et l'Observatoire national de tutorat à Cornell. « Les audits linguistiques devraient devenir une pratique standard pour atténuer le risque d'exacerber les inégalités éducatives. »
