Les informaticiens présentent une nouvelle méthode pour réduire la taille des modèles de langage multilingues
Les modèles linguistiques multilingues, ou MLM, sont des modèles d’apprentissage automatique qui peuvent prédire, générer et extraire du texte dans plusieurs langues. Ils sont utiles pour la communication multilingue, la traduction et bien plus encore, mais ont tendance à fonctionner mieux lorsqu’ils se concentrent uniquement sur quelques langues.
À mesure que les modèles linguistiques grandissent, leurs performances s’améliorent, à condition qu’ils ne fonctionnent que dans une seule langue. Malgré l’augmentation de la taille d’un modèle, l’ajout de langages supplémentaires peut nuire à ses performances en raison d’une « interférence linguistique », dans laquelle les paramètres (ou variables) d’un modèle qui contrôlent son comportement dans un langage ont un impact négatif sur ses performances dans un autre.
Cependant, une équipe d’informaticiens de Johns Hopkins a développé une nouvelle approche pour optimiser les MLM pour plusieurs langues. Appelée Language-Specific Matrix Synthesis, leur méthode réduit le nombre de paramètres nécessaires au fonctionnement d’un modèle dans chaque nouveau langage.
Les chercheurs présentent leurs travaux cette semaine lors de la conférence 2023 sur les méthodes empiriques dans le traitement du langage naturel à Singapour.
« Notre objectif était d’obtenir des performances comparables tout en utilisant moins de paramètres », explique Haoran Xu, membre de l’équipe, doctorant au département d’informatique de la Whiting School of Engineering, conseillé par les co-auteurs Philipp Koehn, professeur d’informatique affilié à le Centre de traitement du langage et de la parole, et Kenton Murray, chercheur scientifique au Centre d’excellence en technologie du langage humain et membre du CLSP.
Contrairement à l’approche traditionnelle consistant à concevoir des réseaux neuronaux denses séparés (des systèmes informatiques qui imitent vaguement le fonctionnement du cerveau humain) pour chaque langue supplémentaire dans un MLM, l’équipe a choisi d’utiliser des matrices de bas rang, qui organisent les informations en les compressant. réduire le nombre de paramètres nécessaires pour s’adapter à une nouvelle langue.
Cela a permis à l’équipe d’ajouter de nouvelles langues sans avoir besoin d’autant de paramètres, évitant ainsi ce que Xu appelle une « explosion de paramètres » à grande échelle.
« Imaginez une classe avec 100 enfants, chacun représentant une langue différente », explique Xu.
« Donner à chaque enfant un ensemble complet de peintures pour s’exprimer ou effectuer des tâches dans son langage nécessiterait d’énormes quantités de pigments ou de paramètres de modèle. Au lieu de cela, si vous leur faites partager uniquement le rouge, le jaune et le bleu, les enfants peuvent toujours créer » Le spectre complet des couleurs tout en utilisant beaucoup moins de pigments et beaucoup moins de paramètres. Et comme un seul enfant peut peindre à la fois, les 100 enfants peuvent partager cette seule palette de trois couleurs, réduisant considérablement les besoins en paramètres. «
L’équipe a prouvé lors de tests avec un modèle capable de comprendre jusqu’à 95 langues différentes que leur méthode permettait d’obtenir des performances supérieures dans des contextes multilingues, tout en utilisant moins de paramètres. Surtout, cela permet une réduction significative de la taille d’un modèle de langage sans compromettre ses performances.
En raison de la réduction des exigences matérielles nécessaires au déploiement d’un modèle de langage plus petit, une seule application d’IA portable utilisant la méthode de synthèse matricielle spécifique au langage pourrait bientôt être capable de gérer des centaines de langues au lieu de quelques-unes seulement, prédit l’équipe.
« Nos résultats indiquent la faisabilité du déploiement de modèles d’IA véritablement multilingues dans des appareils de toutes tailles », ajoute Xu.
Les chercheurs affirment que leur objectif est d’appliquer leur méthode à des MLM lourds et de développer des systèmes d’IA robustes capables de comprendre plusieurs langues tout en fonctionnant aussi efficacement qu’en anglais.