«Tu plaisantes, mec? L'IA ne reçoit pas de sarcasme dans des variétés d'anglais non américaines

En 2018, mon collègue australien m'a demandé: « Hé, comment vas-tu? » Ma réponse – « Je prends un bus » – a rencontré un sourire narquois. J'avais récemment déménagé en Australie. Malgré l'étude de l'anglais pendant plus de 20 ans, il m'a fallu un certain temps pour me familiariser avec la variété australienne de la langue.

Il s'avère que de grands modèles de langue alimentés par l'intelligence artificielle (IA) telle que le chatppt éprouve un problème similaire.

Dans de nouvelles recherches, publiées dans les «résultats de l'Association for Computational Linguistics 2025», Mes collègues et moi introduisons un nouvel outil pour évaluer la capacité de différents modèles de grande langue à détecter le sentiment et le sarcasme dans trois variétés d'anglais: l'anglais australien, l'anglais indien et l'anglais britannique.

Les résultats montrent qu'il reste encore un long chemin à parcourir jusqu'à ce que les avantages promis de l'IA soient appréciés par tous, peu importe le type ou la variété de langage qu'ils parlent.

Anglais limité

Les modèles de grands langues sont souvent signalés pour obtenir des performances superlatives sur plusieurs ensembles de tâches standardisés appelés repères.

La majorité des tests de référence sont écrits en anglais américain standard. Cela implique que, bien que les modèles de grande langue soient vendus de manière agressive par des fournisseurs commerciaux, ils ont été principalement testés – et formés – seulement sur ce seul type d'anglais.

Cela a des conséquences majeures.

Par exemple, dans une récente enquête, mes collègues et moi avons trouvé que les modèles de grande langue sont plus susceptibles de classer un texte aussi haineux s'il est écrit dans la variété afro-américaine de l'anglais. Ils «par défaut» souvent à l'anglais américain standard – même si l'entrée est dans d'autres variétés d'anglais, comme l'anglais irlandais et l'anglais indien.

Pour construire sur cette recherche, nous avons construit Besstie.

Qu'est-ce que Besstie?

Besstie est le premier référence en son genre pour le sentiment et la classification du sarcasme de trois variétés d'anglais: l'anglais australien, l'anglais indien et l'anglais britannique.

Pour nos besoins, le « sentiment » est la caractéristique de l'émotion: positive (le « Pas mal! » Aussie) ou négatif (« Je déteste le film »). Le sarcasme est défini comme une forme d'ironie verbale destinée à exprimer un mépris ou un ridicule (« j'aime être ignoré »).

Pour construire Besstie, nous avons collecté deux types de données: les avis de places sur Google Maps et Reddit Posts. Nous avons soigneusement organisé les sujets et utilisé des prédicteurs de variétés linguistiques – des modèles AI spécialisés dans la détection de la variété linguistique d'un texte. Nous avons sélectionné des textes qui devaient être supérieurs à 95% de probabilité d'une variété linguistique spécifique.

Les deux étapes (filtrage de localisation et prédiction de variété linguistique) ont assuré que les données représentent la variété nationale, comme l'anglais australien.

Nous avons ensuite utilisé Besstie pour évaluer neuf modèles de langage de grande envergure puissants et librement utilisables, notamment Roberta, Mbert, Mistral, Gemma et Qwen.

Réclamations gonflées

Dans l'ensemble, nous avons trouvé que les modèles de grande langue que nous avons testés fonctionnaient mieux pour l'anglais australien et l'anglais britannique (qui sont des variétés d'anglais indigènes) que la variété non native de l'anglais indien.

Nous avons également constaté que les modèles de langue importants sont meilleurs pour détecter le sentiment que chez le sarcasme.

Le sarcasme est particulièrement difficile, non seulement en tant que phénomène linguistique mais aussi comme un défi pour l'IA. Par exemple, nous avons constaté que les modèles pouvaient détecter le sarcasme en anglais australien seulement 62% du temps. Ce nombre était plus faible pour l'anglais indien et l'anglais britannique – environ 57%.

Ces performances sont inférieures à celles revendiquées par les sociétés technologiques qui développent des modèles linguistiques importants. Par exemple, Glue est un classement qui suit la performance des modèles d'IA à la classification des sentiments sur le texte anglais américain.

La valeur la plus élevée est de 97,5% pour le modèle Turing Ulr V6 et 96,7% pour Roberta (de notre suite de modèles) – à la fois plus élevé pour l'anglais américain que nos observations pour l'anglais australien, indien et britannique.

Le contexte national est important

Alors que de plus en plus de personnes dans le monde utilisent des modèles de grandes langues, les chercheurs et les praticiens se réveillent au fait que ces outils doivent être évalués pour un contexte national spécifique.

Par exemple, plus tôt cette année, l'Université d'Australie occidentale ainsi que Google ont lancé un projet pour améliorer l'efficacité des modèles de grande langue pour l'anglais autochtone.

Notre référence aidera à évaluer les futures techniques de modèle de grande langue pour leur capacité à détecter le sentiment et le sarcasme. Nous travaillons également actuellement sur un projet de modèles de grandes langues dans les services d'urgence des hôpitaux pour aider les patients ayant des compétences variables de l'anglais.