Un étudiant crée un outil d’IA pour revitaliser une langue autochtone en voie de disparition

Un étudiant crée un outil d’IA pour revitaliser une langue autochtone en voie de disparition

Jared Coleman, qui a récemment obtenu son doctorat. en informatique, et son superviseur, Bhaskar Krishnamahari, sont liés par un amour commun pour les langues, à la fois humaines et informatiques.

Krishnamahari a grandi en Inde, parlant le tamoul, l'hindi et l'anglais, et a commencé à apprendre le français et le chinois mandarin à l'université. Coleman, qui a grandi anglophone, aimait l'espagnol au lycée et a appris le portugais auprès de sa femme et de ses amis à l'université.

Pendant la pandémie, Coleman a commencé à suivre des cours en ligne dans une langue moins connue : l’Owens Valley Paiute. Coleman est membre de la tribu Big Pine Paiute de la vallée d'Owens. Son père, David, a grandi dans la réserve de la tribu à Big Pine, en Californie, et le paiute est sa langue ancestrale.

ChatGPT et d'autres grands modèles linguistiques (LLM) affichent des performances de niveau humain sur de nombreuses tâches en langage naturel en anglais, car un cinquième de la population mondiale parle anglais. Il en va de même pour d’autres langues largement utilisées. Mais Paiute est considéré comme une « langue sans ressources », ce qui signifie qu’il n’existe pas de phrases Paiute traduites en anglais accessibles au public sur lesquelles former un modèle d’apprentissage automatique.

Dans un nouvel article, « LLM-Assisted Rule-Based Machine Translation for Low/No-Resource Languages », paru sur le serveur de pré-impression arXiv, Coleman et Krishnamahari proposent une approche de traduction automatique appelée LLM-RBMT (Rule-Based Machine Translation) pour aider les gens à apprendre des langues sans ressources. Les co-auteurs de l'article sont Khalil Iskarous, professeur agrégé de linguistique à l'USC Dornsife, et Ruben Rosales, chercheur indépendant.

Leur approche consiste en des outils de traduction basés sur des règles plus « à l'ancienne » et en un LLM plus avancé, basé sur le langage naturel. Dans la méthode des chercheurs, le LLM ne se traduit pas vers ou depuis Owens Valley Paiute. Au lieu de cela, cela aide à guider les traducteurs basés sur des règles, qui s'appuient sur des règles grammaticales et de vocabulaire pour traduire entre les langues.

« Essentiellement, le LLM agit comme un intermédiaire sophistiqué, utilisant sa compréhension avancée du langage pour garantir que le système basé sur des règles produit des traductions précises », a déclaré Coleman.

L'outil de traduction simplifie les phrases complexes et utilise des espaces réservés (dans ce cas, des mots anglais) pour les mots inconnus. Même si ce processus perd un peu de sens, il produit néanmoins des traductions compréhensibles et grammaticalement correctes.

Cette méthode, a déclaré Coleman, reflète la façon dont les apprenants en langues parlent naturellement en mélangeant des mots connus et inconnus, ce qui en fait un outil pratique pour une utilisation dans le monde réel.

« L'outil est suffisamment intelligent, avec quelques indices, pour pouvoir effectuer lui-même une grande partie de la traduction », ajoute Krishnamahari.

Satisfaction personnelle

Coleman a également construit et gère une suite d'outils numériques liés à la revitalisation de la langue, nommés Kubishi ou « cerveau » en paiute, comprenant un dictionnaire en ligne et un système de création de phrases et de traduction activé par cette recherche.

Dans l'ensemble, l'article, qui sera présenté lors de l'atelier AmericasNLP de la NAACL, a révélé que les remarquables compétences linguistiques générales de LLM en font un outil prometteur pour aider à revitaliser les langues en danger critique d'extinction.

Pour sa part, Coleman remercie les membres de sa tribu, passés et présents, d'avoir ouvert la voie. « De nombreux membres de ma tribu travaillent depuis longtemps sur différents efforts de revitalisation des langues, notamment des cours, des dictionnaires et des enregistrements », a déclaré Coleman. « Donc, aussi enthousiasmé que moi par cette recherche, je sais qu'il s'agit d'une pièce d'un puzzle beaucoup plus vaste. »

En effet, l'article indique de nombreuses orientations pour des travaux futurs, notamment l'ajout de structures de phrases plus complexes pour tester les limites de la méthodologie décrite dans son article. Au-delà de cela, il s'agit d'une réussite à la fois personnelle et académique pour Coleman, qui rejoindra l'Université Loyola Marymount à titre de professeur adjoint en informatique cet automne.

« Mon père n'a pas grandi en parlant cette langue. Comme dans de nombreuses familles, elle a été supprimée par les internats où il était interdit de parler cette langue », a déclaré Coleman.

« J'ai de la chance que mes arrière-grands-parents aient rencontré des linguistes pour documenter la langue et créer des enregistrements afin que je puisse entendre leurs voix et leurs mots. Et maintenant, écouter mon arrière-grand-père et savoir ce qu'il dit, il y a quelque chose de très personnellement satisfaisant à ce sujet. «