Un informaticien aide à préserver une langue en voie de disparition pour les générations futures

Un informaticien aide à préserver une langue en voie de disparition pour les générations futures

Manuel de Gyalrong. Crédit : Université de Sheffield

Une langue chinoise menacée d’extinction est maintenue en vie pour les générations futures grâce à l’aide de la recherche du Département d’informatique.

Grâce au traitement du langage naturel (PNL), des processus informatiques conçus pour comprendre la parole et le texte comme le peuvent les humains, la langue gyalrong et la riche histoire culturelle qu’elle porte sont préservées.

On estime que le gyalrong, qui est parlé par une population très limitée dans la province chinoise du Sichuan, remonte à plus de 1 000 ans, mais compte maintenant moins de 33 000 locuteurs.

La plupart des locuteurs natifs sont âgés et avec de nombreux jeunes quittant les villages où il est parlé pour chercher du travail dans les zones urbaines, de moins en moins de personnes ont la possibilité d’apprendre la langue auprès des aînés.

On estime que le déclin de la langue – qui a peu de traces écrites et est considérée comme très difficile à apprendre – deviendra irréversible au cours des prochaines décennies.

Xutan Peng, un Ph.D. étudiant au département d’informatique de l’université, utilise ses recherches pour accélérer la production d’un manuel pour enseigner la langue en voie de disparition aux écoliers locaux.

« Beaucoup de gens disent que la langue est l’ADN d’une culture », a déclaré Xutan.

« Si la langue meurt, la mémoire de cette riche culture risque d’être perdue à jamais. Des choses telles que les vieilles histoires transmises à leurs enfants et petits-enfants par les anciens ne seront plus, et il sera impossible pour les générations futures d’apprendre la culture et traditions. »

Sa technique prend des textes Gyalrong et les résume en mandarin en utilisant un processus automatisé. En tant que tel, le travail de documentation linguistique qui pourrait prendre des mois ou des années à un linguiste en s’immergeant dans la culture peut être effectué beaucoup plus rapidement.

« Une façon de l’imaginer est qu’il y a deux bibliothèques, côte à côte, avec la même architecture et la même disposition, mais l’une fournissant exclusivement des textes en mandarin, et l’autre Gyalrong », a déclaré Xutan.

« Si deux livres similaires, couvrant un sujet similaire, se trouvent à l’emplacement correspondant dans les deux bibliothèques et que vous déplacez les deux bâtiments au même endroit, vous pouvez aligner les deux pour identifier des modèles.

« Donc, tant que nous sommes capables de maîtriser certains mots fréquemment utilisés, nous pouvons utiliser cette technique pour faire des suppositions éclairées pour reconstituer le puzzle. »

Vous pouvez en savoir plus sur le processus, connu sous le nom de cross-lingual word embedding (CLWE), dans les articles « Raffinement de l’intégration de mots interlinguaux par ℓ1 d’optimisation de la norme » et « Comprendre la linéarité des mappages d’incorporation de mots interlinguaux » La technique utilisée pour documenter Gyalrong s’inspire également des recherches de l’article précédent de Xutan, « Résumer le texte historique dans les langues modernes. »

Les résultats du travail de Xutan portent déjà leurs fruits, avec un petit groupe d’écoliers chinois, dont les familles peuvent parler au moins un peu de gyalrong, apprenant et fournissant des commentaires sur un manuel. On espère que cette première version sera suivie d’autres volumes à mesure que davantage de données seront recueillies.

Son succès a même attiré l’attention des réalisateurs de documentaires, qui ont présenté l’histoire sur China Central Television.

« C’est un projet unique et très satisfaisant sur lequel travailler », a ajouté Xutan.

« Et bien que sa portée soit limitée, nous avons un réel impact sur la société. Cela laisse également présager un avenir très prometteur pour ce type de technique en aidant à préserver les langues en danger. »

Xutan prévoit d’explorer comment la technique pourrait être adaptée pour aider à documenter d’autres langues en danger.

Le Dr Mark Stevenson, maître de conférences dans le groupe de recherche sur le traitement du langage naturel, a déclaré : « Les langues en danger, comme le gyalrong, font face à un risque réel d’extinction. Ce projet montre comment la PNL, y compris les travaux menés au sein du groupe de recherche PNL de Sheffield, peut aider préservez-les pour les générations futures. »

Fourni par l’Université de Sheffield