Les systèmes d’IA sont construits sur l’anglais, mais pas le genre que la plupart du monde parle
On estime que 90% des données de formation pour les systèmes d’IA génératives actuels découlent de l’anglais. Cependant, l’anglais est une Lingua Franca internationale avec environ 1,5 milliard de conférenciers dans le monde et d’innombrables variétés.
Alors, sur qui est la technologie d’aujourd’hui basée? La réponse est principalement l’anglais de l’Amérique traditionnelle.
Ce n’est pas un accident. L’anglais américain grand public est enraciné dans l’infrastructure numérique d’Internet, dans les priorités d’entreprise de la Silicon Valley et dans les ensembles de données qui alimentent tout, de la correction automatique au texte synthétique généré par l’IA.
La conséquence? Les modèles d’IA produisent une version monolithique de l’anglais qui efface la variation, exclut les voix minoritaires et régionales et renforce une dynamique de puissance inégale.
L’hégémonie de l’anglais américain grand public
La prolifération de l’anglais américain en ligne est le résultat de facteurs historiques, économiques et technologiques. Les États-Unis ont été une force dominante dans le développement d’Internet, la création de contenu et la montée des géants technologiques tels que Google, Meta, Microsoft et OpenAI.
Sans surprise, les normes linguistiques intégrées dans les produits par ces sociétés sont massivement américaines.
Une étude récente a révélé que les locuteurs de l’anglais sans flux de flux étaient frustrés par «l’homogénéité des accents d’IA» dans les technologies de clonage vocal et de génération de la parole. Un participant a noté les accents américains traditionnels prédominants dans les voix disponibles, déclarant que les technologies avaient été construites « avec d’autres personnes à l’esprit ».
Les variétés d’anglais traditionnelles ont longtemps régné comme la «norme» par rapport à laquelle d’autres variétés sont pesées.
Pour prendre un seul exemple aux États-Unis, la recherche en linguistique de John Baugh a constaté que l’utilisation de différents accents peut déterminer l’accès des gens aux biens et services. Lorsque Baugh a appelé différents propriétaires sur le logement annoncé dans le journal local, l’utilisation d’un accent grand public lui a procuré plusieurs inspections de logement tout en utilisant des accents afro-américains et latinos.
Le prestige de l’anglais grand public sous-tend également les décisions algorithmiques. Les modèles derrière des outils tels que la correction automatique, la voix à texte ou même les assistants d’écriture d’IA sont le plus souvent formés sur les données américaines traditionnelles. Ceci est souvent gratté du Web, où les médias, les forums et les plateformes basés sur les États-Unis dominent.
Cela signifie que les variations de la grammaire, de la syntaxe et du vocabulaire à partir d’autres variétés d’anglais sont systématiquement ignorées, mal interprétées ou carrément «corrigées».
Dont l’anglais est perçu comme l’ajout de valeur?
Les enjeux de ce biais linguistique en faveur de l’anglais grand public deviennent encore plus élevés lorsque les systèmes d’IA sont déployés dans le monde.
Si un tuteur AI ne comprend pas une construction anglaise nigériane, qui en porte le coût? Si une demande d’emploi rédigée en anglais indien est marquée par un scanner de curriculum vitae propulsé par l’IA, quelles sont les conséquences? Si l’histoire orale d’un aîné des Premières nations australiennes est transcrite par le logiciel de reconnaissance vocale et que le système ne capture pas les termes culturellement significatifs, quelles connaissances sont perdues ou déformées?
Ces questions se déroulent en temps réel, les gouvernements, les établissements d’enseignement et les sociétés adoptent des technologies d’IA à grande échelle.
Anglais, pas anglais
L’idée qu’il y a un « bon » ou « correct » anglais est un mythe. L’anglais est parlé sous diverses formes dans toutes les régions, façonnée par les sociétés locales, les cultures, les histoires et les identités.
En tant qu’écrivain et éducateur Noongar Glenys Collard et moi, l’anglais autochtone a « sa propre structure, ses règles et le même potentiel que toute autre variété linguistique » et il en va de même pour les autres formes de l’anglais.
L’anglais indien, par exemple, a des innovations lexicales telles que « prepone » (l’opposé du report). Singapour English (Singlish) intègre les particules et les caractéristiques syntaxiques de Malais, Hokkien et Tamoul.
Ce ne sont pas des formes « cassées » d’anglais. Chaque communauté où l’anglais a été imposé a continué à rendre l’anglais.
L’anglais, et la langue plus généralement, n’est jamais statique. Il s’adapte pour répondre aux besoins d’une société en constante évolution et de ses orateurs.
Pourtant, dans le développement de l’IA, cette diversité linguistique est souvent traitée comme un bruit plutôt que comme un signal. Les variétés non standardisées sont sous-représentées dans les ensembles de données de formation, exclues des schémas d’annotation et figurent rarement dans les références d’évaluation.
Il en résulte un écosystème d’IA qui est en théorie multilingue, mais monolingue dans la pratique.
Vers la justice linguistique dans l’IA
Alors, à quoi cela ressemblerait-il pour construire des systèmes d’IA qui reconnaissent et respectent une gamme de différentes formes d’anglais?
Un changement de mentalité est nécessaire, de la prescription de la langue « correcte » à l’inclusion de nombreuses variétés de langue. Ce dont nous avons besoin, ce sont des systèmes qui s’adaptent à la variation linguistique.
Cela peut impliquer de soutenir les efforts dirigés par la communauté pour documenter et numériser les variétés linguistiques selon leurs propres termes, en gardant à l’esprit que toutes les variétés linguistiques ne devraient pas être numérisées ou documentées.
La collaboration entre les disciplines est également importante. Il faut des linguistes, des technologues, des éducateurs et des dirigeants communautaires qui travaillent ensemble pour garantir le développement de l’IA fondé sur les principes de la justice linguistique.
L’objectif n’est pas de «corriger» le langage mais de créer une technologie qui ne produit que des résultats. L’accent devrait être mis sur la modification de la technologie, pas le haut-parleur.
Embrasser les anglais
L’anglais a été un véhicule puissant d’empire, mais il a également été un outil de résistance, de créativité et de solidarité. Partout dans le monde, les conférenciers ont pris la langue et se sont en cours. Les systèmes compatibles AI doivent être construits pour être aussi inclusifs que possible cette variabilité.
Alors la prochaine fois que votre téléphone vous dira de « corriger » votre orthographe, ou un chatbot IA mal compris votre phrasé, demandez-vous: à qui essaie-t-il de modéliser? Et à qui est l’anglais laissé de côté?