Meta veut faire un saut linguistique avec l’intelligence artificielle
Meta, la société anciennement connue sous le nom de Facebook, c’est proposé créer une plateforme de traduction linguistique basé sur l’intelligence artificielle. La nouveauté essentielle n’est pas cela, mais le support de pas mal de langages qui jusqu’à présent n’étaient pas couverts par d’autres outils de ce type.
200 langues. Le système développé par Meta, appelé NLLB-200, (de « No Language Left Behind », c’est-à-dire « Aucune langue ne sera oubliée ») est particulièrement ambitieux pour son support dans 40 000 adresses différentes grâce à la combinaison de ces 200 langues différentes pris en charge. Google Translate les soutiens 133, par exemple.
« langues à faibles ressources ». Cette offre comprendra des langues qui sont beaucoup moins courantes chez les traducteurs et qui ont moins d’un million de paires de phrases traduites disponibles pour entraîner le système. Parmi elles se trouvent diverses langues parlées en Afrique ou en Inde qui ne sont pas prises en charge par les outils de traduction commerciaux.
Intelligence artificielle + validation humaine. Le système Meta AI, décrit dans une étude scientifiqueexplique comment NLLB a combiné un système de validation de traduction humaine (FLORES-200) avec un mécanisme de création de phrases de formation et diverses techniques de modélisation pour améliorer la traduction.
Comment parvenir à une traduction digne de ce nom ? Les systèmes de traduction automatique font souvent des erreurs notables. Pour éviter les problèmes, Meta a créé un ensemble de données de test avec 3 001 paires de phrases dans chaque langue couverte par le modèle, chacune ayant été traduite de l’anglais vers la langue cible non pas par la machine, mais par des traducteurs humains professionnels qui non seulement étaient-ils, mais ils parlaient nativement cette langue cible.
Les résultats promettent. À partir de là, ils ont comparé la traduction automatique avec des références humaines en utilisant une référence populaire dans ce domaine, la soi-disant BLEU (BiLingual Evaluation Understudy). Ce test offre une note aux traductions et fait ressortir que le modèle Meta améliore de 44% les résultats des meilleurs systèmes de traduction automatique qui existaient jusqu’à présent.
Mais attention à la traduction automatique. Le résultat est prometteur, mais comme indiqué un expert de Microsoft dans ce domaine, ne sont pas définitives. Dans les traductions avec des langues manquant de ressources, les erreurs de traduction peuvent être difficiles à détecter (par exemple, affirmer avec confiance quelque chose comme vrai même si ce n’est pas le cas) et il sera donc important de prendre ces traductions avec une certaine perspective. Il est également important d’intégrer des listes de toxicité pour détecter et éviter les grossièretés et les contenus potentiellement offensants.
Un projet Open Source. Une autre caractéristique remarquable de ce système est que le code sera ouvert et des outils de recherche seront publiés, ce qui pourrait voir encore plus de langues ajoutées à ce moteur de traduction.
Plus de connaissances pour tous. L’application pratique de ce système de traduction est évidente : que de plus en plus de personnes aient accès à du contenu sur Internet qui était dans des langues qu’elles ne parlent pas. Wikipedia est un bon exemple, et en fait Meta s’est associé à la Wikimedia Foundation pour essayer de soutenir les systèmes de traduction de l’encyclopédie en ligne.