Une étude montre que les langues parlées par un plus grand nombre de personnes ont tendance à être plus difficiles à apprendre pour les machines

Une étude montre que les langues parlées par un plus grand nombre de personnes ont tendance à être plus difficiles à apprendre pour les machines

Il y a quelques mois à peine, beaucoup de gens auraient trouvé inimaginable à quel point les « modèles de langage » basés sur l’intelligence artificielle pouvaient imiter la parole humaine. Ce que ChatGPT écrit est souvent impossible à distinguer du texte généré par l’homme.

Une équipe de recherche de l’Institut Leibniz pour la langue allemande (IDS) à Mannheim, en Allemagne, a utilisé des textes dans 1 293 langues différentes pour étudier la rapidité avec laquelle différents modèles de langage informatique apprennent à « écrire ». Résultat surprenant : les langues parlées par un grand nombre de personnes ont tendance à être plus difficiles à apprendre pour les algorithmes que les langues ayant une communauté linguistique plus petite. L’étude est publiée dans la revue Rapports scientifiques.

Les modèles de langage sont des algorithmes informatiques capables de traiter et de générer le langage humain. Un modèle de langage peut reconnaître des modèles et des régularités dans de grandes quantités de données textuelles et apprend ainsi progressivement à prédire le texte futur. Un modèle de langage particulier est le modèle dit « Transformer », sur lequel le service de chatbot bien connu, ChatGPT, a été construit.

À mesure que l’algorithme est alimenté par du texte généré par l’homme, il développe une compréhension des probabilités avec lesquelles les composants de mots, les mots et les expressions apparaissent dans des contextes particuliers. Ces connaissances acquises sont ensuite utilisées pour faire des prédictions, c’est-à-dire pour générer de nouveaux textes dans des situations nouvelles.

Par exemple, lorsqu’un modèle analyse la phrase « Dans la nuit noire, j’ai entendu un lointain… », il peut prédire que des mots comme « hurlement » ou « bruit » seraient des suites appropriées. Cette prédiction est basée sur une certaine « compréhension » des relations sémantiques et des probabilités des combinaisons de mots dans la langue.

Dans une nouvelle étude, une équipe de linguistes de l’IDS a étudié la rapidité avec laquelle les modèles de langage informatique apprennent à prédire en les formant sur du matériel textuel dans 1 293 langues. L’équipe a utilisé des modèles de langage plus anciens et moins complexes ainsi que des variantes modernes telles que le modèle Transformer mentionné ci-dessus. Ils ont examiné combien de temps il fallait à différents algorithmes pour développer une compréhension des modèles dans les différentes langues.

L’étude a révélé que la quantité de texte qu’un algorithme doit traiter pour apprendre une langue, c’est-à-dire pour faire des prédictions sur ce qui va suivre, varie d’une langue à l’autre. Il s’avère que les algorithmes linguistiques ont tendance à avoir plus de mal à apprendre des langues comptant de nombreux locuteurs natifs que des langues représentées par un plus petit nombre de locuteurs.

Cependant, ce n’est pas aussi simple qu’il y paraît. Pour valider la relation entre les difficultés d’apprentissage et la taille de la population de locuteurs, il est essentiel de contrôler plusieurs facteurs.

Le défi est que les langues qui sont étroitement liées (par exemple l’allemand et le suédois) sont beaucoup plus similaires que les langues qui sont éloignées (par exemple l’allemand et le thaï). Cependant, ce n’est pas seulement le degré de parenté entre les langues qui doit être contrôlé, mais également d’autres effets tels que la proximité géographique entre deux langues ou la qualité des textes utilisés pour la formation.

« Dans notre étude, nous avons utilisé diverses méthodes allant des statistiques appliquées à l’apprentissage automatique pour contrôler le plus étroitement possible les facteurs de confusion potentiels », explique Sascha Wolfer, l’un des deux auteurs de l’étude.

Cependant, quels que soient la méthode et le type de texte saisi utilisés, une corrélation statistique stable a été trouvée entre la capacité d’apprentissage automatique et la taille de la population de locuteurs.

« Le résultat nous a vraiment surpris ; sur la base de l’état actuel de la recherche, nous nous attendrions au contraire : que les langues avec une plus grande population de locuteurs ont tendance à être plus faciles à apprendre par une machine », déclare Alexander Koplenig, auteur principal de l’étude. .

Les raisons de cette relation ne peuvent jusqu’à présent que faire l’objet de spéculations. Par exemple, une étude antérieure menée par la même équipe de recherche a démontré que les langues plus grandes ont tendance à être globalement plus complexes. Alors peut-être que l’effort d’apprentissage accru « s’avère payant » pour les apprenants de langues humaines : car une fois que vous avez appris une langue complexe, vous disposez d’options linguistiques plus variées, ce qui peut vous permettre d’exprimer le même contenu sous une forme plus courte.

Mais des recherches supplémentaires sont nécessaires pour tester ces explications (ou d’autres). « Nous n’en sommes encore qu’au début », souligne Koplenig. « La prochaine étape consiste à découvrir si et dans quelle mesure nos résultats d’apprentissage automatique peuvent être transférés à l’acquisition du langage humain. »