AI Babel Fish devient réalité, permettant des traductions parole-parole directes

Un modèle d’IA capable de traduire la parole et le texte, y compris les traductions directes de la parole à la parole, dans 101 langues maximum est décrit dans Nature. Le modèle, nommé SEAMLESSM4T, comble les lacunes en matière de couverture linguistique et surpasse les systèmes existants. Ce travail pourrait ouvrir la voie à des traductions universelles rapides, avec des ressources rendues publiques (pour un usage non commercial) pour faciliter la poursuite des recherches sur les technologies inclusives de traduction vocale.

Les lecteurs de science-fiction connaissent peut-être le poisson Babel du Guide du voyageur galactique, un petit poisson qui pourrait être inséré dans une oreille et traduire simultanément d’une langue parlée à une autre. Un tel outil serait utile pour faciliter la communication dans un paysage mondial interconnecté, mais la plupart des systèmes de traduction par apprentissage automatique existants sont orientés texte ou impliquent plusieurs étapes : reconnaissance vocale, traduction en texte et conversion du texte en parole.

En outre, la couverture linguistique des modèles parole-parole existants est inférieure à celle des modèles texte-texte et tend à être orientée vers la traduction d’une langue source vers l’anglais, plutôt que de l’anglais vers une autre langue.

Pour remédier à ces limitations, l’équipe Seamless Communication de Meta a développé un modèle unique qui prend en charge plusieurs modes de traduction entre 101 langues maximum. SEAMLESSM4T peut faciliter la traduction parole-parole (reconnaître 101 langues et traduire dans 36 langues), la traduction parole-texte (101 à 96 langues), la traduction texte-parole (96 à 36 langues), la traduction texte-parole. traduction de texte (96 langues) et reconnaissance vocale automatique (96 langues).

Pour la traduction vocale instantanée, SEAMLESSM4T traduit le texte avec une précision jusqu’à 23 % supérieure à celle des systèmes existants. Le modèle AI peut filtrer le bruit de fond et s’adapter aux variations des haut-parleurs. Bien qu’une optimisation supplémentaire soit nécessaire, SEAMLESSM4T peut représenter une étape vers l’amélioration de la communication au-delà des barrières linguistiques, concluent les auteurs.