La recherche pourrait apporter la reconnaissance automatique de la parole à 2 000 langues
Seule une fraction des 7 000 à 8 000 langues parlées dans le monde bénéficie des technologies linguistiques modernes telles que la transcription voix-texte, le sous-titrage automatique, la traduction instantanée et la reconnaissance vocale. Les chercheurs de l’Université Carnegie Mellon veulent augmenter le nombre de langues avec des outils de reconnaissance automatique de la parole à leur disposition d’environ 200 à potentiellement 2 000.
« Beaucoup de gens dans ce monde parlent différentes langues, mais les outils technologiques linguistiques ne sont pas développés pour chacun d’entre eux », a déclaré Xinjian Li, titulaire d’un doctorat. étudiant à l’Institut des Technologies du Langage (LTI) de l’Ecole d’Informatique. « Développer une technologie et un bon modèle linguistique pour tous est l’un des objectifs de cette recherche. »
Li fait partie d’une équipe de recherche visant à simplifier les besoins en données dont les langages ont besoin pour créer un modèle de reconnaissance vocale. L’équipe – qui comprend également les membres du corps professoral de LTI Shinji Watanabe, Florian Metze, David Mortensen et Alan Black – a présenté son travail le plus récent, « ASR2K : reconnaissance vocale pour environ 2 000 langues sans audio », à Interspeech 2022 en Corée du Sud.
La plupart des modèles de reconnaissance vocale nécessitent deux ensembles de données : texte et audio. Les données textuelles existent pour des milliers de langues. Les données audio ne le font pas. L’équipe espère éliminer le besoin de données audio en se concentrant sur les éléments linguistiques communs à de nombreuses langues.
Historiquement, les technologies de reconnaissance vocale se concentrent sur le phonème d’une langue. Ces sons distincts qui distinguent un mot d’un autre – comme le « d » qui différencie « dog » de « log » et « cog » – sont propres à chaque langue. Mais les langues ont aussi des téléphones, qui décrivent comment un mot sonne physiquement. Plusieurs téléphones peuvent correspondre à un seul phonème. Ainsi, même si des langues distinctes peuvent avoir des phonèmes différents, leurs téléphones sous-jacents peuvent être les mêmes.
L’équipe LTI développe un modèle de reconnaissance vocale qui s’éloigne des phonèmes et s’appuie plutôt sur des informations sur la façon dont les téléphones sont partagés entre les langues, réduisant ainsi l’effort de création de modèles distincts pour chaque langue. Plus précisément, il associe le modèle à un arbre phylogénétique – un diagramme qui cartographie les relations entre les langues – pour aider aux règles de prononciation. Grâce à leur modèle et à la structure arborescente, l’équipe peut approximer le modèle de parole pour des milliers de langues sans données audio.
« Nous essayons de supprimer cette exigence de données audio, ce qui nous aide à passer de 100 ou 200 langues à 2 000 », a déclaré Li. « Il s’agit de la première recherche à cibler un si grand nombre de langues, et nous sommes la première équipe visant à étendre les outils linguistiques à cette portée. »
Encore à un stade précoce, la recherche a amélioré les outils d’approximation linguistique existants d’un modeste 5 %, mais l’équipe espère qu’elle servira d’inspiration non seulement pour leurs travaux futurs, mais aussi pour ceux d’autres chercheurs.
Pour Li, le travail signifie plus que rendre les technologies linguistiques accessibles à tous. Il s’agit de préservation culturelle.
« Chaque langue est un facteur très important dans sa culture. Chaque langue a sa propre histoire, et si vous n’essayez pas de préserver les langues, ces histoires pourraient être perdues », a déclaré Li. « Le développement de ce type de système de reconnaissance vocale et de cet outil est une étape pour tenter de préserver ces langues. »