Le système d'IA peut convertir la piste vocale en vidéo d'une personne parlant à l'aide d'une image fixe

Une petite équipe de chercheurs en intelligence artificielle de l'Institute for Intelligent Computing du groupe Alibaba présente, via des vidéos qu'ils ont créées, une nouvelle application d'IA capable d'accepter une seule photographie du visage d'une personne et une bande sonore de quelqu'un parlant ou chantant et de les utiliser pour créez une version animée de la personne qui parle ou chante la piste vocale. Le groupe a publié un article décrivant son travail sur le arXiv serveur de préimpression.

Des chercheurs antérieurs ont démontré des applications d’IA capables de traiter une photographie d’un visage et de l’utiliser pour créer une version semi-animée. Dans ce nouvel effort, l’équipe d’Alibaba est allée encore plus loin en ajoutant du son. Et peut-être, et c’est tout aussi important, ils l’ont fait sans utiliser de modèles 3D ni même de repères faciaux. Au lieu de cela, l’équipe a utilisé une modélisation de diffusion basée sur la formation d’une IA sur de grands ensembles de données de fichiers audio ou vidéo. Dans ce cas, l’équipe a utilisé environ 250 heures de ces données pour créer son application, qu’elle appelle Emote Portrait Alive (EMO).

En convertissant directement la forme d'onde audio en images vidéo, les chercheurs ont créé une application qui capture les gestes subtils du visage humain, les bizarreries de la parole et d'autres caractéristiques identifiant une image animée d'un visage comme étant de type humain. Les vidéos recréent fidèlement les formes probables de bouche utilisées pour former des mots et des phrases, ainsi que les expressions qui leur sont généralement associées.

L'équipe a publié plusieurs vidéos démontrant les performances étonnamment précises qu'elles ont générées, affirmant qu'elles surpassent les autres applications en termes de réalisme et d'expressivité. Ils notent également que la durée finale de la vidéo est déterminée par la longueur de la piste audio originale. Dans les vidéos, l'image originale est affichée aux côtés de cette personne parlant ou chantant avec la voix de la personne enregistrée sur la piste audio originale.

L'équipe conclut en reconnaissant que l'utilisation d'une telle application devra être restreinte ou surveillée pour empêcher une utilisation contraire à l'éthique d'une telle technologie.