Un modèle capable de reconnaître la parole dans différentes langues à partir des mouvements des lèvres d’un locuteur

Un modèle capable de reconnaître la parole dans différentes langues à partir des mouvements des lèvres d'un locuteur

ac, modèle ASR de base (a), modèle VSR de base (b) et modèle proposé (c) avec tâches auxiliaires basées sur la prédiction. Le taux de trame des caractéristiques visuelles extraites et des caractéristiques audio est de 25. (d), L’architecture de l’encodeur ASR de a. e, L’architecture du codeur VSR de b. Crédit : Ma, Petridis & Pantic.

Ces dernières années, les techniques d’apprentissage en profondeur ont obtenu des résultats remarquables dans de nombreuses tâches de traitement du langage et de l’image. Cela inclut la reconnaissance visuelle de la parole (VSR), qui consiste à identifier le contenu de la parole uniquement en analysant les mouvements des lèvres d’un locuteur.

Alors que certains algorithmes d’apprentissage en profondeur ont obtenu des résultats très prometteurs sur les tâches VSR, ils ont été principalement formés pour détecter la parole en anglais, car la plupart des ensembles de données de formation existants n’incluent que la parole en anglais. Cela limite leur base d’utilisateurs potentiels aux personnes qui vivent ou travaillent dans des contextes anglophones.

Des chercheurs de l’Imperial College de Londres ont récemment développé un nouveau modèle qui peut s’attaquer aux tâches VSR dans plusieurs langues. Ce modèle, présenté dans un article publié dans Intelligence des machines naturelless’est avérée plus performante que certains modèles précédemment proposés formés sur des ensembles de données beaucoup plus volumineux.

« La reconnaissance visuelle de la parole (VSR) était l’un des principaux sujets de ma thèse de doctorat », a déclaré Pingchuan Ma, Ph.D. diplômé de l’Imperial College qui a mené l’étude, a déclaré à TechXplore. « Au cours de mes études, j’ai travaillé sur plusieurs sujets, par exemple en explorant comment combiner des informations visuelles avec de l’audio pour la reconnaissance vocale audiovisuelle et comment reconnaître la parole visuelle indépendamment de la pose de la tête des participants. J’ai réalisé que la grande majorité de la littérature existante ne traitait que du discours anglais. »

L’objectif principal de l’étude récente de Ma et ses collègues était de former un modèle d’apprentissage en profondeur pour reconnaître la parole dans des langues autres que l’anglais à partir des mouvements des lèvres des locuteurs, puis de comparer ses performances à celles d’autres modèles formés pour reconnaître la parole anglaise. Le modèle créé par les chercheurs est similaire à ceux introduits par d’autres équipes dans le passé, mais certains de ses hyper-paramètres ont été optimisés, le jeu de données a été augmenté (c’est-à-dire augmenté en taille en ajoutant des versions synthétiques et légèrement modifiées des données) et des fonctions de perte supplémentaires ont été utilisées.

« Nous avons montré que nous pouvions utiliser les mêmes modèles pour entraîner des modèles VSR dans d’autres langages », a expliqué Ma. « Notre modèle prend des images brutes en entrée, sans extraire aucune fonctionnalité, puis apprend automatiquement quelles fonctionnalités utiles extraire de ces images pour effectuer des tâches VSR. La principale nouveauté de ce travail est que nous formons un modèle pour effectuer VSR et ajoutons également quelques méthodes d’augmentation de données supplémentaires et fonctions de perte. »

Lors des premières évaluations, le modèle créé par Ma et ses collègues a remarquablement bien fonctionné, surpassant les autres modèles VSR entraînés sur des ensembles de données beaucoup plus volumineux, même s’il nécessitait moins de données d’entraînement originales. Comme prévu, cependant, il n’a pas été aussi performant que les modèles de reconnaissance vocale en anglais, principalement en raison des ensembles de données plus petits disponibles pour la formation.

« Nous avons obtenu des résultats de pointe dans plusieurs langues en concevant soigneusement le modèle, plutôt qu’en utilisant simplement des ensembles de données plus volumineux ou des modèles plus volumineux, ce qui est la tendance actuelle dans la littérature », a déclaré Ma. « En d’autres termes, nous avons montré que la façon dont un modèle est conçu est tout aussi importante pour ses performances que l’augmentation de sa taille ou l’utilisation de plus de données d’entraînement. Cela peut potentiellement conduire à un changement dans la façon dont les chercheurs tentent d’améliorer les modèles VSR. »

Ma et ses collègues ont montré que l’on peut obtenir des performances de pointe dans les tâches VSR en concevant soigneusement des modèles d’apprentissage en profondeur, au lieu d’utiliser des versions plus grandes du même modèle ou de collecter des données de formation supplémentaires, ce qui est à la fois coûteux et chronophage. À l’avenir, leurs travaux pourraient inspirer d’autres équipes de recherche à développer des modèles VSR alternatifs capables de reconnaître efficacement la parole à partir des mouvements des lèvres dans des langues autres que l’anglais.

« L’un des principaux domaines de recherche qui m’intéresse est de savoir comment nous pouvons combiner les modèles VSR avec la reconnaissance vocale existante (audio uniquement) », a ajouté Ma. « Je suis particulièrement intéressé par la façon dont ces modèles peuvent être pondérés dynamiquement, c’est-à-dire comment le modèle peut apprendre sur quel modèle s’appuyer en fonction du bruit. En d’autres termes, dans un environnement bruyant, un modèle audiovisuel devrait s’appuyer davantage sur le flux visuel, mais lorsque la région de la bouche est occluse, elle devrait s’appuyer davantage sur le flux audio. Les modèles existants sont essentiellement figés une fois formés et ils ne peuvent pas s’adapter aux changements de l’environnement.