Un nouveau modèle pour produire une parole synthétisée plus naturelle

Les progrès technologiques récents permettent le développement d’outils informatiques qui pourraient améliorer considérablement la qualité de vie des personnes handicapées ou déficientes sensorielles. Il s'agit notamment des modèles de conversion dits électromyographie-parole (ETS), conçus pour convertir les signaux électriques produits par les muscles squelettiques en parole.

Des chercheurs de l'Université de Brême et de SUPSI ont récemment introduit Diff-ETS, un modèle de conversion ETS qui pourrait produire une parole synthétisée plus naturelle. Ce modèle, présenté dans un article publié sur le serveur de préimpression arXivpourrait être utilisé pour développer de nouveaux systèmes permettant aux personnes incapables de parler, comme les patients ayant subi une laryngectomie (une opération chirurgicale visant à retirer une partie de la boîte vocale humaine), de communiquer avec d'autres.

La plupart des techniques de conversion ETS précédemment introduites comportent deux composants clés : un encodeur EMG et un vocodeur. L'encodeur d'électromyographie (EMG) peut convertir les signaux EMG en caractéristiques vocales acoustiques, tandis que le vocodeur utilise ces caractéristiques vocales pour synthétiser des signaux vocaux.

« En raison d'une quantité insuffisante de données disponibles et de signaux bruyants, la parole synthétisée présente souvent un faible niveau de naturel », ont écrit Zhao Ren, Kevin Scheck et leurs collègues dans leur article. « Dans ce travail, nous proposons Diff-ETS, un modèle ETS qui utilise un modèle probabiliste de diffusion basé sur des scores pour améliorer le caractère naturel de la parole synthétisée. Le modèle de diffusion est appliqué pour améliorer la qualité des caractéristiques acoustiques prédites par un encodeur EMG. «

Contrairement à de nombreux autres modèles de conversion ETS développés dans le passé, composés d'un encodeur et d'un vocodeur, le modèle des chercheurs comporte trois composants, à savoir un encodeur EMG, un modèle probabiliste de diffusion et un vocodeur. Le modèle probabiliste de diffusion, le deuxième de ces composants, est donc un nouvel ajout, qui pourrait aboutir à une parole synthétisée plus naturelle.

Ren, Scheck et leurs collègues ont formé l'encodeur EMG pour prédire un spectrogramme dit log Mel (c'est-à-dire une représentation visuelle de signaux audio) et des cibles phonémiques à partir de signaux EMG. Le modèle probabiliste de diffusion, en revanche, a été entraîné pour améliorer les spectrogrammes log Mel, tandis que le vocodeur pré-entraîné peut traduire ce spectrogramme en parole synthétisée.

Les chercheurs ont évalué le modèle Diff-ETS dans une série de tests, en le comparant à une technique ETS de base. Leurs résultats étaient très prometteurs, car le discours synthétisé était plus naturel et plus humain que celui produit par la méthode de base.

« Dans nos expériences, nous avons évalué le réglage fin du modèle de diffusion sur les prédictions d'un encodeur EMG pré-entraîné et la formation des deux modèles de bout en bout », ont écrit Ren, Scheck et leurs collègues dans leur article. « Nous avons comparé Diff-ETS avec un modèle ETS de base sans diffusion en utilisant des mesures objectives et un test d'écoute. Les résultats ont indiqué que le Diff-ETS proposé améliorait considérablement le naturel de la parole par rapport à la ligne de base. »

À l’avenir, le modèle de conversion ETS développé par cette équipe de chercheurs pourrait être utilisé pour développer de meilleures technologies pour la génération artificielle de parole audible. Ces systèmes pourraient permettre aux personnes incapables de parler d’exprimer leurs pensées à voix haute, facilitant ainsi leur interaction avec les autres.

« Dans les efforts futurs, il sera possible de réduire le nombre de paramètres du modèle en utilisant diverses méthodes, par exemple la compression du modèle et la distillation des connaissances, générant ainsi des échantillons de parole en temps réel », ont écrit les chercheurs. « De plus, un modèle de diffusion peut être formé avec l'encodeur et le vocodeur pour améliorer encore la qualité de la parole. »