Un modèle qui peut créer un discours synthétique qui correspond aux mouvements des lèvres d'un locuteur

L’organigramme global de la méthode proposée par l’équipe. Crédit : Sheng, Ai et Ling

Les modèles d’apprentissage automatique peuvent aider à résoudre plusieurs problèmes du monde réel plus rapidement et plus efficacement. L’un de ces problèmes consiste à synthétiser la parole pour les personnages animés et les locuteurs humains en fonction des mouvements de leurs lèvres.

Pour s’attaquer à cette tâche, connue sous le nom de synthèse lip-to-speech (Lip2Speech), les modèles d’apprentissage automatique apprennent essentiellement à prédire quels mots prononcés résulteraient de séquences spécifiques de mouvements du visage et des lèvres. L’automatisation de la synthèse Lip2Speech pourrait être utile dans de nombreux cas d’utilisation, par exemple pour aider les patients qui ne peuvent pas produire de sons vocaux à communiquer avec les autres, ajouter du son à des films muets, restaurer la parole dans des vidéos bruyantes ou endommagées, et même pour déterminer ce que les criminels potentiels disent en voix -moins de séquences CCTV.

Alors que certains apprentissages automatiques pour les applications Lip2Speech ont obtenu des résultats prometteurs, la plupart de ces modèles fonctionnent mal en temps réel et ne sont pas entraînés à l’aide d’approches d’apprentissage dites à tir zéro. L’apprentissage zéro coup signifie essentiellement qu’un modèle pré-entraîné peut effectivement faire des prédictions liées à des classes de données qu’il n’a pas rencontrées pendant l’entraînement.

Des chercheurs de l’Université des sciences et technologies de Chine ont récemment développé un nouveau modèle de synthèse Lip2Speech capable de produire une parole synthétisée personnalisée dans des conditions de tir zéro. Cette approche, présentée dans un article publié sur le arXiv serveur de pré-impression, est basé sur un auto-encodeur variationnel, un modèle génératif reposant en partie sur des réseaux de neurones qui encodent et décodent les données.

Pour s’attaquer efficacement aux tâches Lip2Speech dans des conditions nulles, les modèles d’apprentissage automatique doivent généralement extraire des informations supplémentaires sur les locuteurs à partir d’enregistrements vidéo fiables de ceux-ci en train de parler. Cependant, si seules des vidéos silencieuses ou inintelligibles de leur visage parlant sont disponibles, ces informations ne sont pas accessibles. Le modèle créé par cette équipe de chercheurs pourrait contourner ce problème, en générant un discours qui correspond à l’apparence et à l’identité d’un locuteur donné sans nécessiter d’enregistrements du discours réel du locuteur.

« Nous proposons une méthode de synthèse Lip2Speech personnalisée à zéro coup, dans laquelle les images faciales contrôlent l’identité des locuteurs », ont écrit Zheng-Yan Sheng, Yang Ai et Zhen-Hua Ling dans leur article. « Un auto-encodeur variationnel est adopté pour démêler l’identité du locuteur et les représentations du contenu linguistique, ce qui permet aux incorporations de locuteurs de contrôler les caractéristiques vocales de la parole synthétique pour les locuteurs invisibles. De plus, nous proposons un apprentissage de représentation intermodal associé pour promouvoir la capacité de haut-parleurs intégrés (FSE) sur la commande vocale. »

Sheng, Ai et Ling ont évalué leur modèle dans une série de tests et ont constaté qu’il fonctionnait remarquablement bien, produisant un discours synthétisé qui correspondait à la fois aux mouvements des lèvres d’un locuteur et à son âge, son sexe et son apparence générale. À l’avenir, le nouveau modèle pourrait être utilisé pour créer des outils pour un large éventail d’applications, y compris des applications d’assistance pour les personnes ayant des troubles de la parole, des outils de montage vidéo et des logiciels pour faciliter les enquêtes policières.

« Des expériences approfondies vérifient l’efficacité de la méthode proposée dont les énoncés synthétiques sont plus naturels et correspondent à la personnalité de la vidéo d’entrée que les méthodes comparées », ont déclaré Sheng, Ai et Ling. « À notre connaissance, cet article fait la première tentative de synthèse Lip2Speech personnalisée à zéro coup avec une image de visage plutôt qu’un son de référence pour contrôler les caractéristiques de la voix. »