Pourquoi la sociolinguistique détient la clé de meilleurs LLM et d'un monde plus juste

Les « moteurs » linguistiques qui alimentent l’intelligence artificielle (IA) générative sont en proie à un large éventail de problèmes qui peuvent nuire à la société, notamment à travers la diffusion de désinformations et de contenus discriminatoires, notamment des stéréotypes racistes et sexistes.

Dans l’ensemble, ces échecs des systèmes d’IA populaires tels que ChatGPT sont dus à des lacunes dans les bases de données linguistiques sur lesquelles ils sont formés.

Pour résoudre ces problèmes, des chercheurs de l’Université de Birmingham ont développé un nouveau cadre permettant de mieux comprendre les grands modèles linguistiques (LLM) en intégrant les principes de la sociolinguistique : l’étude des variations et des changements linguistiques.

Publier leurs recherches dans Frontières de l’IA, les experts soutiennent qu’en représentant avec précision différentes « variétés de langage », les performances des systèmes d’IA pourraient être considérablement améliorées, en relevant les défis critiques de l’IA, notamment les préjugés sociaux, la désinformation, l’adaptation au domaine et l’alignement sur les valeurs sociétales.

Les chercheurs soulignent l’importance d’utiliser des principes sociolinguistiques pour former les LLM à mieux représenter les divers dialectes, registres et périodes qui composent toute langue, ouvrant ainsi de nouvelles voies pour développer des systèmes d’IA plus précis et plus fiables, ainsi que plus éthiques et plus fiables. socialement conscient.

L’auteur principal, le professeur Jack Grieve, a déclaré : « Lorsqu’on y est invité, les IA génératives telles que ChatGPT peuvent être plus susceptibles de produire des représentations négatives sur certaines ethnies et certains genres, mais notre recherche propose des solutions sur la manière dont les LLM peuvent être formés de manière plus fondée sur des principes pour atténuer les préjugés sociaux. .

« Ces types de problèmes peuvent généralement être attribués aux données sur lesquelles le LLM a été formé. Si le corpus de formation contient des expressions relativement fréquentes d’idées préjudiciables ou inexactes sur certains groupes sociaux, les LLM reproduiront inévitablement ces préjugés, ce qui entraînera des comportements potentiellement racistes ou inexacts. contenu sexiste. »

L’étude suggère qu’affiner les LLM sur des ensembles de données conçus pour représenter la langue cible dans toute sa diversité – comme l’ont décrit en détail des décennies de recherche en sociolinguistique – peut généralement améliorer la valeur sociétale de ces systèmes d’IA.

Les chercheurs pensent également qu’en équilibrant les données de formation provenant de différents groupes sociaux et contextes, il est possible de résoudre les problèmes liés à la quantité de données requises pour former ces systèmes.

« Nous proposons qu’il soit bien plus important d’augmenter la diversité sociolinguistique des données de formation que d’en élargir simplement l’échelle », a ajouté le professeur Grieve. « Pour toutes ces raisons, nous pensons donc qu’il existe un besoin clair et urgent d’un aperçu sociolinguistique dans la conception et l’évaluation du LLM.

« Comprendre la structure de la société et la manière dont cette structure se reflète dans les modèles d’utilisation des langues est essentiel pour maximiser les avantages des LLM pour les sociétés dans lesquelles ils sont de plus en plus intégrés. Plus généralement, intégrer les connaissances des sciences humaines et sociales. est crucial pour développer des systèmes d’IA qui servent mieux l’humanité. »