Le VALL-E de Microsoft peut reproduire fidèlement une voix après avoir écouté un enregistrement de trois secondes

Le VALL-E de Microsoft peut reproduire fidèlement une voix après avoir écouté un enregistrement de trois secondes

La vue d’ensemble de VALL-E. Contrairement au pipeline précédent (par exemple, phonème → mel-spectrogramme → forme d’onde), le pipeline de VALL-E est phonème → code discret → forme d’onde. VALL-E génère les codes de codec audio discrets basés sur des invites de phonème et de code acoustique, correspondant au contenu cible et à la voix de l’orateur. VALL-E permet directement diverses applications de synthèse vocale, telles que le TTS à prise zéro, l’édition de la parole et la création de contenu combinées avec d’autres modèles d’IA génératifs comme GPT-3 [Brown et al., 2020]. Crédit: arXiv (2023). DOI : 10.48550/arxiv.2301.02111

Une équipe de chercheurs de Microsoft a présenté un nouveau système d’IA capable d’imiter la voix d’une personne après un entraînement avec un enregistrement de seulement trois secondes. L’équipe explique le développement de la nouvelle application dans un article publié sur le arXiv serveur de préimpression. Ils ont aussi posté une page Web démontrant les capacités de l’application.

Les applications d’intelligence artificielle nécessitent une formation sur des quantités massives de données. Mais dans cette nouvelle entreprise, l’équipe de Microsoft a montré que cela ne devait pas toujours être le cas.

La nouvelle application a été conçue à l’aide de la technologie de compression audio EnCodec de Meta et était à l’origine conçue comme un moyen d’améliorer la qualité des conversations téléphoniques. Des travaux ultérieurs ont montré qu’il est capable de bien plus – non seulement il peut imiter une voix, mais il peut également simuler le ton et même l’acoustique de l’environnement dans lequel l’enregistrement original a été réalisé.

Bien sûr, Microsoft n’a pas supprimé le besoin d’un ensemble de données massif ; au lieu de cela, les chercheurs ont déplacé là où il était utilisé. L’application a appris à « écouter » une chaîne de mots, puis à reproduire son son à l’aide de l’ensemble de données Libri-light de Meta, qui compte plus de 60 000 heures d’enregistrements réalisés par 7 000 personnes parlant anglais.

Les exemples fournis par Microsoft démontrent que le système fonctionne beaucoup mieux pour certaines voix que pour d’autres, et qu’il a des problèmes avec les accents. Mais comme l’application en est encore à ses débuts, il est probable que sa fonctionnalité s’améliorera avec le temps.

Microsoft n’a pas rendu public le code source de VALL-E et ne le fera probablement pas, notant qu’il pourrait être utilisé de manière moins responsable – des enregistrements de canulars de politiciens, par exemple. Lorsqu’ils sont combinés avec une vidéo deepfake, les résultats pourraient amener les « fausses nouvelles » vers de nouveaux sommets. L’exemple de Microsoft a montré ce qui est possible ; ainsi, il semblerait probable que des systèmes similaires par d’autres apparaîtront bientôt.