Les modèles linguistiques de l’IA montrent un biais à l’encontre des dialectes régionaux allemands

Les grands modèles linguistiques tels que GPT-5 et Llama évaluent systématiquement les locuteurs de dialectes allemands de manière moins favorable que ceux utilisant l'allemand standard. C'est ce que montre une étude collaborative récente entre l'Université Johannes Gutenberg de Mayence (JGU) et les universités de Hambourg et de Washington, dans laquelle le professeur Katharina von der Wense et Minh Duc Bui de JGU ont joué un rôle de premier plan.

Les résultats, présentés lors de la conférence de cette année sur les méthodes empiriques dans le traitement du langage naturel (EMNLP), montrent que tous les systèmes d'IA testés reproduisent des stéréotypes sociaux.

« Les dialectes sont une partie essentielle de l'identité culturelle », a souligné Minh Duc Bui, doctorant au sein du groupe de traitement du langage naturel (NLP) de von der Wense à l'Institut d'informatique de JGU. « Nos analyses suggèrent que les modèles linguistiques associent les dialectes à des traits négatifs, perpétuant ainsi des préjugés sociaux problématiques. »

À l’aide de bases de données linguistiques contenant des variantes orthographiques et phonétiques des dialectes allemands, l’équipe a d’abord traduit sept variétés régionales en allemand standard. Cet ensemble de données parallèles leur a permis de comparer systématiquement la manière dont les modèles linguistiques évaluaient un contenu identique, une fois écrit en allemand standard, une fois sous forme dialectale.

Les biais augmentent lorsque les dialectes sont explicitement mentionnés

Les chercheurs ont testé dix grands modèles de langage, allant des systèmes open source tels que Gemma et Qwen au modèle commercial GPT-5. Chaque modèle était présenté avec des textes écrits soit en allemand standard, soit dans l'un des sept dialectes : bas allemand, bavarois, frison septentrional, saterfrison, riverain (qui comprend le Kölsch), l'alémanique et les dialectes rhénan-franconien, dont le palatin et le hessien.

Il a d'abord été demandé aux systèmes d'attribuer des attributs personnels à des locuteurs fictifs, par exemple « instruits » ou « sans instruction ». Ils devaient ensuite choisir entre deux individus fictifs, par exemple lors d'une décision d'embauche, d'une invitation à un atelier ou du choix d'un lieu de vie.

Les résultats : Dans presque tous les tests, les modèles ont attaché des stéréotypes aux locuteurs de dialectes. Alors que les locuteurs de l'allemand standard étaient plus souvent décrits comme « instruits », « professionnels » ou « dignes de confiance », les locuteurs du dialecte étaient étiquetés « ruraux », « traditionnels » ou « sans instruction ». Même le trait apparemment positif « amical » – que la recherche sociolinguistique associe traditionnellement aux locuteurs de dialectes – était plus souvent attribué par les systèmes d’IA aux utilisateurs de l’allemand standard.

Modèles plus grands, biais plus fort

Les tests basés sur la décision ont montré des tendances similaires : les textes en dialecte étaient systématiquement défavorisés, étant liés au travail agricole, aux ateliers de gestion de la colère ou aux lieux de vie ruraux.

« Ces associations reflètent les hypothèses sociétales intégrées dans les données de formation de nombreux modèles linguistiques », a expliqué le professeur von der Wense, qui mène des recherches en linguistique informatique au JGU. « C'est troublant, car les systèmes d'IA sont de plus en plus utilisés dans des contextes d'éducation ou de recrutement, où la langue sert souvent d'indicateur de compétence ou de crédibilité. »

Le biais est devenu particulièrement prononcé lorsqu’il a été explicitement indiqué aux modèles qu’un texte était écrit en dialecte. Étonnamment, les modèles plus grands au sein de la même famille présentaient des biais encore plus forts.

« Donc, plus grand ne signifie pas nécessairement plus juste », a déclaré Bui. « En fait, les modèles plus grands semblent apprendre les stéréotypes sociaux avec encore plus de précision. »

Modèles similaires en anglais

Même en comparaison avec des textes allemands standard artificiellement « bruyants », le préjugé contre les versions dialectales persistait, montrant que la discrimination ne peut pas simplement s'expliquer par une orthographe ou une grammaire inhabituelle.

Les dialectes allemands servent ainsi d’étude de cas pour une question globale plus large. « Nos résultats révèlent comment les modèles linguistiques gèrent les variations régionales et sociales entre les langues », a déclaré Bui. « Des préjugés comparables ont également été documentés pour d'autres langues, par exemple pour l'anglais afro-américain. »

Les recherches futures exploreront comment les systèmes d’IA diffèrent dans leur traitement des différents dialectes et comment les modèles linguistiques peuvent être conçus et entraînés pour représenter plus équitablement la diversité linguistique.

« Les dialectes constituent un élément essentiel de l'identité sociale », a souligné von der Wense. « Veiller à ce que les machines non seulement reconnaissent mais respectent cette diversité est une question d'équité technique et de responsabilité sociale. »

L'équipe de recherche de Mayence travaille actuellement sur une étude de suivi examinant comment les grands modèles linguistiques réagissent aux dialectes spécifiques à la région de Mayence.