Comment l'IA laisse des haut-parleurs non anglophones derrière

De nouvelles recherches explorent les communautés et les cultures exclues des outils d'IA, conduisant à des opportunités manquées et à une augmentation des risques des préjugés et de la désinformation.

Les chercheurs constatent que les modèles de grandes langues subissent une fracture numérique: les Chatgpts et les Geminis du monde fonctionnent bien pour les 1,52 milliard de personnes qui parlent anglais, mais ils sous-performes pour les 97 millions de locuteurs vietnamiens du monde, et encore pire pour les 1,5 million de personnes qui parlent le nahuatl de la langue uto-aztecan.

Le principal coupable est les données: ces langues non anglophones n'ont pas la quantité et la qualité des données nécessaires pour construire et former des modèles efficaces. Cela signifie que la plupart des principaux LLM sont principalement formés à l'aide de données anglaises (ou d'autres langues à haute ressource) ou de données de langue locale de mauvaise qualité et non à l'écoute du reste des contextes et des cultures du monde.

L'impact? Pas seulement un inconvénient, mais une exclusion systématique. Des cultures et des communautés entières sont exclues de la révolution de l'IA, risquent d'être blessées par la désinformation et les préjugés générés par l'IA et perdent des opportunités économiques et éducatives cruciales que les anglophones acquièrent grâce à une technologie efficace.

Dans cette conversation, le professeur adjoint de la Stanford School of Engineering, Sanmi Koyejo, auteur principal d'un nouveau livre blanc politique sur ce sujet, discute des risques de cette fracture et, surtout, de ce que les développeurs peuvent faire pour le fermer.

Quelles sont les langues à faible ressource et pourquoi est-il si difficile de faire fonctionner les LLM pour eux?

Les langages à faible ressource sont des langues avec des quantités limitées de données lisibles par ordinateur à leur sujet. Cela pourrait signifier peu de locuteurs d'une langue, ou des langues où il y a des locuteurs mais pas beaucoup de données linguistiques numérisées, ou des langues où il peut y avoir des conférenciers et des données numériques, mais pas les ressources nécessaires pour s'engager dans un travail de calcul autour des données. Par exemple, Swahili a 200 millions de conférenciers mais manque de ressources numérisées suffisantes pour que les modèles d'IA puissent apprendre, tandis qu'une langue comme le gallois, avec moins de conférenciers, les avantages de la documentation approfondie et des efforts de préservation numérique.

Toute l'apprentissage automatique dépend fortement des données en tant que ressource. Nous constatons constamment que les modèles se portent très bien lorsque les tâches qu'ils sont invitées à résoudre sont similaires à leurs données de formation, et ils font mal plus les données sont plus éloignées. Étant donné que les langues à faible ressource ont moins de données, les modèles permettent de mal sur ces langues.

Pourquoi cette division numérique est-elle importante?

Les modèles d'IA, les modèles de langue en particulier, ont de plus en plus d'impact sur le monde; Ils donnent aux gens le potentiel d'opportunités économiques, de créer des entreprises ou de résoudre des problèmes d'entreprise ou individuels. Si nous avons une technologie linguistique qui ne fonctionne pas pour les personnes dans la langue qu'ils parlent, ces communautés ne voient pas la technologie stimuler que les autres pourraient avoir.

Par exemple, il y a beaucoup de promesses dans les modèles d'IA et la prestation des soins de santé, ce qui concerne les questions de diagnostic ou les questions de soutien clinique. Il y a des hypothèses selon lesquelles ces modèles auront des avantages significatifs pour la santé de la société, des impacts à long terme sur le bien-être des gens et les impacts économiques potentiels pour les grandes communautés.

Mais toutes ces hypothèses se cassent si les gens ne peuvent pas s'engager dans la technologie parce que la langue n'est pas celle qu'ils comprennent. Dans les régions où les soins de santé universels restent un défi, les outils de diagnostic alimentés par l'IA qui ne fonctionnent que en anglais créent une nouvelle couche d'inégalité des soins de santé.

Nous prévoyons que ces lacunes deviendront plus grandes. Pensez à la citoyenneté mondiale ou à la capacité de s'engager entre les entreprises, dans toutes les cultures. Cela pourrait être un levier pour le développement économique ou pour le plaidoyer pour les droits individuels ou de groupe. Ces choses pourraient être plus difficiles pour les personnes qui n'ont pas accès aux outils d'IA dans leur langage.

Un autre écart croissant est dans l'emploi. Au fur et à mesure que l'IA transforme les lieux de travail à l'échelle mondiale, les travailleurs couramment l'anglais progresseront tandis que d'autres sont confrontés à des obstacles technologiques à l'emploi, élargissant les inégalités économiques.

Quelles approches que les développeurs prennent pour faire de la LLMS mieux performer pour les langues à faible ressource?

Je vois quelques techniques pour combler cet écart. Une façon dont ces techniques diffèrent dans la taille du modèle. Les technologues peuvent former de très grands modèles qui capturent beaucoup de langues en même temps; Ils peuvent former des modèles plus petits liés à des langues très spécifiques; Ou il y a un mélange entre les deux modèles régionaux de taille moyenne qui capturent un groupe de langues sémantiquement similaire.

Nous avons à la fois la théorie technique et la pratique observée qui suggère que vous pouvez améliorer les performances plus rapidement si les modèles peuvent partager des informations dans différentes langues. Par exemple, toutes les langues latines partagent des mots, des phrases et une structure linguistique. La langue particulière peut être très différente, mais il y a en fait beaucoup de choses avec lesquelles on peut faire passer, par exemple, l'espagnol et l'italien. Tout comme les humains bilingues apprennent de nouvelles langues plus rapidement en reconnaissant les modèles, les modèles d'IA peuvent tirer parti des similitudes entre l'espagnol et le portugais pour améliorer les performances dans les deux.

Les gens essaient également d'utiliser la traduction automatique comme moyen de combler le vide. L'inconvénient est la propagation des erreurs – tout ce qui est compliqué est difficile à traduire. En fait, dans un article que nous avons écrit récemment en étudiant les modèles et la langue vietnamienne, nous avons constaté que beaucoup de lignes de base avaient utilisé une traduction automatique, et elles ont souvent échoué parce que les phrases étaient très non naturelles pour le vietnamien. Mot par mot, ils avaient du sens, mais c'était culturellement complètement incorrect. La traduction est évolutive, mais elle ne capture pas la nuance de la façon dont la langue est parlée et écrite. Pour cette raison, je pense que la traduction peut être un bon bootstrap, mais il est peu probable de résoudre le problème.

Une autre façon de résoudre ce problème est d'obtenir plus de données sur ces langues des communautés. C'est en fait un problème difficile. Il y a une longue histoire de personnes parachutiques dans différentes communautés et en prenant des données sans aucun avantage pour la communauté locale. Certaines communautés développent de nouveaux modèles de licences de données où les contributeurs linguistiques maintiennent les droits de leurs données tout en permettant le développement de l'IA, assurant à la fois le progrès technologique et la souveraineté culturelle. D'autres communautés décident de construire leurs propres modèles. Cela peut être un problème de société profondément politique; L'utilisation des données peut souvent se glisser dans l'exploitation lorsque nous ne faisons pas attention.

Quelle est la plus prometteuse de ces solutions?

La réponse honnête est que nous ne savons pas. Mon meilleur sens en ce moment est que la réponse dépend du contexte. Ce que je veux dire, c'est que les objectifs du modèle et quel est le paysage sociétal et politique dans lequel nous construisons? Dans certains cas, cela importera plus que les aspects techniques. Pensez à la préservation des langues, quand il y a si peu de locuteurs qu'une langue peut s'éteindre. Pour ceux-ci, il existe un argument selon lequel un modèle distinct juste pour ce contexte est le plus productif.

Pendant ce temps, une entreprise peut vouloir un modèle à grande échelle pour les économies d'échelle. Cette entreprise peut être préoccupée par la gouvernance des modèles – comment tient-elle tous les modèles à jour? C'est beaucoup plus facile si c'est un gros modèle que vous devez maintenir, plutôt que des centaines de modèles à travers les langues.

À l'heure actuelle, je pense que les décisions sont façonnées par des facteurs autres que la performance. Cependant, je vais souligner que nous avons besoin de plus d'approches d'évaluation spécialisées pour les langues à faible ressource qui vont au-delà des mesures de performance centrées sur l'anglais.

La langue n'est pas le seul défi ici. Les valeurs culturelles sont imprégnées dans les LLM. Est-ce important?

Il fait une tonne. Nous savons que les modèles hors de la boîte ne capturent souvent pas les valeurs culturelles de manière appropriée. Parfois, c'est le phrasé maladroit que j'ai mentionné auparavant. Il y a beaucoup de vieilles traductions automatiques qui proviennent de sources bien structurées comme des rassemblements politiques. Cela a un effet fascinant car c'est une version très spéciale du langage des audiences du Congrès ou quelque chose de similaire, qui est très différent d'un style conversationnel et extrêmement maladroit lorsqu'il est appliqué hors de la boîte. Ils ne capturent pas comment les gens parlent réellement.

Il y a d'autres cas où cet écart culturel peut être plus grand. Il y a eu d'excellentes recherches montrant que de nombreux modèles de langues ramassent des valeurs qui correspondent à la langue sur laquelle ils ont été formés. Mon collègue Tatsu Hashimoto a demandé aux modèles linguistiques de répondre aux enquêtes Pew pour voir les perspectives politiques avec lesquelles ils s'alignent et ont montré que de nombreux modèles ont fini par s'aligner assez fortement sur les perspectives politiques californiennes.

Cela a du sens lorsque nous pensons à qui forment les modèles et ce qu'ils ramassent. Diyi Yang a fait un excellent travail en examinant comment les modèles de langue fonctionnent avec les dialectes de l'anglais, montrant qu'ils peuvent être systématiquement incorrects pour, disons, les dialectes afro-américains de l'anglais.

Les modèles de langage, lorsqu'ils ne sont pas conçus avec soin, courent le risque de s'effondrer la langue riche et la diversité culturelle en une grande goutte, souvent une goutte de culture centrée sur les États-Unis. On peut dire que beaucoup de culture est façonnée par la technologie. La façon dont les gens réfléchissent aux problèmes et à la façon dont ils pensent à la culture seront souvent façonnés par la façon dont ils s'engagent avec la technologie.

De nombreux leaders culturels du monde entier s'inquiètent de l'effacement de leur culture, plus les modèles de langue deviennent un mode de technologie dominant. Cependant, le livre blanc suggère des investissements stratégiques, de la recherche participative et des cadres de propriété de données équitables en tant que recommandations spécifiques pour les parties prenantes à l'avenir.