Le nouveau jeu de données et les modèles augmentent les performances de la langue portugaise pour correspondre à l'anglais

Le nouveau jeu de données et les modèles augmentent les performances de la langue portugaise pour correspondre à l'anglais

Les modèles de grandes langues, tels que Chatgpt, fonctionnent beaucoup moins bien en portugais qu'en anglais malgré le fait que les deux langues soient parlées dans le monde entier. Cet écart a maintenant été conclu avec « Gigaverbo ». L'équipe dirigée par le Dr Nicholas Kluge Corêa du Center for Science and Thought à l'Université de Bonn présente actuellement le projet dans la revue Motifs. Les chercheurs ont été parmi les premiers à utiliser le nouveau supercalculateur « Marvin » à l'Université de Bonn. Nicholas Kluge Corêa et son collègue Aniket Sen sont tous deux membres du domaine de recherche transdisciplinaire « Futures durables » à l'Université de Bonn.

Gigaverbo est le nom de l'ensemble de données développé par les chercheurs. Le projet « Tucano: Advancing Neural Text Generation for Portugais » vise à combler l'écart de ressources dans le traitement portugais sur le langage naturel (PNL) en fournissant des ensembles de données de haute qualité et des modèles de langage de pointe spécialement conçus pour la langue portugaise.

Le développement et la libération du Gigaverbo Corpus, comprenant 200 milliards de jetons dédupliqués, ainsi que la famille de modèles Tucano, visent à favoriser les progrès de la génération de texte neuronal d'une manière ouverte et reproductible, favorisant un accès équitable.

Les chercheurs ont collecté plusieurs corpus portugais à partir de différentes sources pour assurer une diversité et une qualité linguistiques élevées. Ces corpus ont ensuite été dédupliqués et filtrés pour former l'ensemble de données Gigaverbo. En utilisant cet ensemble de données, ils ont formé plusieurs modèles de décodeur sur le supercalculateur Marvin, qui a suivi des cycles d'évaluation et d'optimisation rigoureux.

Le projet traite de deux lacunes majeures: premièrement, la rareté des ressources open source complètes pour le portugais, une langue souvent éclipsée par des langues riches en ressources comme l'anglais. Deuxièmement, la carence en développement LLM open source, qui entrave la reproductibilité scientifique de ces modèles.

Les chercheurs travaillent actuellement à augmenter leurs développements en portugais en améliorant leur ensemble de données et en formant des modèles plus grands. Ils développent également actuellement des ressources pour d'autres langues à faible ressource, comme le bengali et l'hindi, tout cela grâce à Marvin et à l'Université de Bonn.