L'IA comprend mal les paroles de certaines personnes que d'autres

L’idée d’un assistant d’intelligence artificielle en lien humain avec qui vous pouvez parler a été vivant dans l’imagination de nombreuses personnes depuis la sortie de « Her », le film de Spike Jonze en 2013 sur un homme qui tombe amoureux d’une IA de Siri nommée Samantha. Au cours du film, le protagoniste est aux prises avec les façons dont Samantha, réelle qu’elle puisse paraître, n’est pas et ne sera jamais humaine.

Douze ans plus tard, ce n’est plus l’affaire de la science-fiction. Des outils d’IA génératifs comme Chatgpt et des assistants numériques comme Siri d’Apple et Alexa d’Amazon aident les gens à obtenir des itinéraires, faire des listes d’épicerie et beaucoup d’autre. Mais tout comme Samantha, les systèmes de reconnaissance vocale automatiques ne peuvent toujours pas faire tout ce qu’un auditeur humain peut.

Vous avez probablement eu l’expérience frustrante d’appeler votre banque ou votre entreprise de services publics et de vous répéter afin que le bot de service client numérique sur l’autre ligne puisse vous comprendre. Peut-être que vous avez dicté une note sur votre téléphone, seulement pour passer du temps à éditer des mots broyés.

Les chercheurs en linguistique et en informatique ont montré que ces systèmes fonctionnent pire pour certaines personnes que pour d’autres. Ils ont tendance à faire plus d’erreurs si vous avez un accent non indigène ou régional, sont noirs, parlez en anglais vernaculaire afro-américain, le commutateur de code, si vous êtes une femme, sont vieux, sont trop jeunes ou ont un obstacle à la parole.

Oreille en étain

Contrairement à vous ou à moi, les systèmes automatiques de reconnaissance vocale ne sont pas ce que les chercheurs appellent des «auditeurs sympathiques». Au lieu d’essayer de vous comprendre en prenant d’autres indices utiles comme l’intonation ou les gestes faciaux, ils abandonnent simplement. Ou ils prennent une supposition probabiliste, un mouvement qui peut parfois entraîner une erreur.

Comme les entreprises et les agences publiques adoptent de plus en plus des outils de reconnaissance vocale automatiques afin de réduire les coûts, les gens n’ont d’autre choix que d’interagir avec elles. Mais plus ces systèmes sont utilisés dans des domaines critiques, allant des premiers intervenants d’urgence et des soins de santé à l’éducation et aux forces de l’ordre, plus il y aura de graves conséquences lorsqu’ils ne reconnaissent pas ce que les gens disent.

Imaginez dans un avenir proche, vous avez été blessé dans un accident de voiture. Vous composez le 911 pour appeler à l’aide, mais au lieu d’être connecté à un répartiteur humain, vous obtenez un bot conçu pour éliminer les appels non urgents. Il vous faut plusieurs tours pour être compris, perdre du temps et augmenter votre niveau d’anxiété au pire moment.

Qu’est-ce qui fait que ce type d’erreur se produit? Certaines des inégalités résultant de ces systèmes sont cuites dans les rames de données linguistiques que les développeurs utilisent pour construire de grands modèles de langage. Les développeurs forment des systèmes d’intelligence artificielle à comprendre et à imiter le langage humain en leur nourrissant de grandes quantités de fichiers de texte et audio contenant un véritable discours humain. Mais à qui le discours les nourrit-ils?

Si un système obtient des taux de précision élevés lors de la parole avec des Américains blancs aisés au milieu de la trentaine, il est raisonnable de deviner qu’il a été formé en utilisant de nombreux enregistrements audio de personnes qui correspondent à ce profil.

Avec une collecte de données rigoureuse à partir d’un éventail diversifié de sources, les développeurs d’IA pourraient réduire ces erreurs. Mais pour construire des systèmes d’IA qui peuvent comprendre les variations infinies de la parole humaine résultant de choses comme le sexe, l’âge, la race, la première langue ou la seconde langue, le statut socioéconomique, la capacité et beaucoup d’autre, nécessite des ressources et du temps importants.

Anglais ‘approprié’

Pour les personnes qui ne parlent pas anglais – ce qui est de dire, la plupart des gens du monde – les défis sont encore plus importants. La plupart des plus grands systèmes d’IA génératifs du monde ont été construits en anglais, et ils fonctionnent bien mieux en anglais que dans toute autre langue. Sur le papier, l’IA a beaucoup de potentiel civique pour la traduction et l’augmentation de l’accès des gens à l’information dans différentes langues, mais pour l’instant, la plupart des langues ont une empreinte numérique plus petite, ce qui leur permet de propulser des modèles de grandes langues.

Même dans les langues bien desservies par des modèles de grande langue, comme l’anglais et l’espagnol, votre expérience varie en fonction du dialecte de la langue que vous parlez.

À l’heure actuelle, la plupart des systèmes de reconnaissance vocale et des chatbots d’IA génératifs reflètent les biais linguistiques des ensembles de données sur lesquels ils sont formés. Ils font écho aux notions prescriptives, parfois préjudiciables, de la «correction» dans la parole.

En fait, l’IA s’est avérée «aplatir» la diversité linguistique. Il existe désormais des startups d’IA qui proposent d’effacer les accents de leurs utilisateurs, en s’appuyant sur l’hypothèse que leur clientèle principale serait des prestataires de services à la clientèle avec des centres d’appels dans des pays étrangers comme l’Inde ou les Philippines. L’offre perpétue l’idée que certains accents sont moins valables que d’autres.

Connexion humaine

L’IA ira vraisemblablement mieux dans le traitement du langage, en tenant compte des variables comme les accents, le changement de code, etc. Aux États-Unis, les services publics sont obligés en vertu de la loi fédérale de garantir un accès équitable aux services, quelle que soit la langue qu’une personne parle. Mais il n’est pas clair si cela seul sera une incitation suffisante pour que l’industrie technologique s’oriente vers l’élimination des inégalités linguistiques.

Beaucoup de gens pourraient préférer parler à une vraie personne lorsqu’ils posent des questions sur un projet de loi ou un problème médical, ou du moins pour avoir la possibilité de se retirer de l’interaction avec les systèmes automatisés lors de la recherche de services clés. Cela ne veut pas dire que la mauvaise communication ne se produit jamais dans la communication interpersonnelle, mais lorsque vous parlez à une vraie personne, ils sont prêts à être un auditeur sympathique.

Avec l’IA, du moins pour l’instant, cela fonctionne ou ce n’est pas le cas. Si le système peut traiter ce que vous dites, vous êtes prêt à partir. S’il ne le peut pas, il est sur vous de vous faire comprendre.