Les modèles d'IA ont du mal dans des langues autres que l'anglais

Pour obtenir la réponse la plus précise d’un modèle de langage avancé, il est essentiel d’utiliser le bon langage. Une internaute anglophone demandant conseil sur les jambes gonflées pendant la grossesse pourra être prévenue du risque de prééclampsieune complication courante responsable de plus de 70 000 décès maternels chaque année.

En revanche, une femme posant la même question Swahili peut recevoir des assurances trompeuses. Cet exemple met en évidence un problème courant : même lorsqu'un modèle réussit les tests de sécurité en anglais, il peut générer des informations dangereuses dans d'autres langues.

Un écart de précision important

Une étude préliminaire publiée en octobre 2025 a révélé que la précision des modèles dans des langues autres que l'anglais est inférieure d'environ 12 à 29 points de pourcentage. Dans le pire des cas, les systèmes capables de répondre correctement à 75 % des questions en anglais chutent à 22,6 %.

Le phénomène est particulièrement préoccupant car l’usage de l’IA se développe rapidement dans les pays non anglophones, où ces outils pourraient avoir un impact plus important.

L’IA en santé mondiale : opportunités et risques

En janvier 2026, la Fondation Gates et OpenAI ont annoncé un investissement de 50 millions de dollars pour introduire des outils d’IA dans un millier de cliniques africaines, avec des fonctions de triage et des conseils médicaux dans les langues locales.

Toutefois, si les modèles ne comblent pas le fossé linguistique, ils risquent de ne pas convenir aux contextes mêmes où ils sont le plus nécessaires.

Les benchmarks et les premières améliorations

Les chercheurs Tuka Alhanai et Mohammad Ghassemi ont développé une référence pour évaluer les capacités des modèles dans des langues autres que l'anglais. Les tests, menés sur 11 langues africaines, montrent que même les modèles les plus avancés ont des performances inférieures de 12 à 20 points de pourcentage à celles de l'anglais.

De nouveaux systèmes, tels que Gemini 2.0 Flash et Claude 3.7 Sonnet, montrent des progrès, mais l'écart reste évident.

Langues «loin» de l'anglais, pires résultats

Les performances se détériorent à mesure qu’une langue s’éloigne de l’anglais. Des langues comme l'espagnol et le français sont plus faciles à maîtriser, tandis que des langues comme le yoruba, l'igbo ou le turkmène sont les moins performantes.

Cela est également dû à la rareté des données disponibles pour la formation.

Le poids des données et des tokens

La prédominance de l’anglais dans les données de formation influence également le fonctionnement interne des modèles. Les textes sont segmentés en jetons, mais dans les langues non anglaises, cette segmentation est moins efficace.

Par exemple, une phrase peut nécessiter 36 jetons en anglais, mais jusqu'à 132 en yoruba, ce qui augmente le coût et la complexité.

Traductions internes et marges d’erreur

Même les modèles multilingues fonctionnent souvent en traduisant mentalement les questions en anglais, en élaborant la réponse, puis en la traduisant. Ce processus introduit d’autres possibilités d’erreur.

Dans certaines langues asiatiques, comme le mandarin, le japonais et le coréen, les modèles peuvent répondre correctement à moins d’un quart des questions factuelles.

Quand mélanger les langues empire les choses

Une approche intuitive pourrait consister à mélanger l’anglais et la langue locale dans les demandes. Cependant, des études montrent que le mélange de code cela dégrade encore davantage les performances, créant une confusion dans les modèles et augmentant les erreurs de traduction.

Des problèmes similaires apparaissent également avec des variantes de l’anglais, telles que l’anglais afro-américain ou l’anglais singapourien.

Solutions possibles

L'ajout, même de petites quantités de données de haute qualité dans des langues autres que l'anglais, peut améliorer considérablement les performances. De plus, l’utilisation de langues apparentées dans la formation produit des bénéfices indirects.

Une autre stratégie consiste à repenser la tokenisation, en la rendant plus adaptée à différentes langues, afin d’améliorer l’efficacité et la précision.

Une brèche encore ouverte

Malgré les progrès, le problème reste entier. Comme le soulignent les chercheurs, les populations qui bénéficieraient le plus de ces technologies sont souvent les moins à même de les utiliser efficacement.

Combler le fossé linguistique n’est pas seulement un défi technique, mais une nécessité pour garantir l’équité dans l’accès à l’intelligence artificielle.