L'application d'IA de Microsoft VASA-1 fait parler et chanter les photographies avec des expressions faciales crédibles

Une équipe de chercheurs en IA de Microsoft Research Asia a développé une application d'IA qui convertit une image fixe d'une personne et une piste audio en une animation qui représente avec précision l'individu parlant ou chantant la piste audio avec des expressions faciales appropriées.

L'équipe a publié un article décrivant comment elle a créé l'application sur le arXiv serveur de préimpression ; des exemples vidéo sont disponibles sur la page du projet de recherche.

L'équipe de recherche a cherché à animer des images fixes parlant et chantant en utilisant n'importe quelle piste audio d'accompagnement fournie, tout en affichant des expressions faciales crédibles. Ils ont clairement réussi avec le développement de VASA-1, un système d'IA qui transforme des images statiques, qu'elles soient capturées par une caméra, dessinées ou peintes, en ce qu'ils décrivent comme des animations « superbement synchronisées ».

Le groupe a prouvé l’efficacité de son système en publiant de courts extraits vidéo des résultats de ses tests. Dans l'un d'entre eux, une version dessinée de Mona Lisa interprète une chanson de rap ; dans une autre, une photographie d'une femme a été transformée en un spectacle de chant, et dans une autre encore, le dessin d'un homme prononce un discours.

Dans chacune des animations, les expressions faciales changent avec les mots de manière à mettre en valeur ce qui est dit. Les chercheurs notent également que malgré le caractère réaliste des vidéos, une inspection plus approfondie peut révéler des défauts et des preuves qu'elles ont été générées artificiellement.

L’équipe de recherche a obtenu ses résultats en entraînant son application sur des milliers d’images présentant une grande variété d’expressions faciales. Ils notent également que le système produit actuellement des images de 512 x 512 pixels fonctionnant à 45 images par seconde. De plus, il a fallu en moyenne deux minutes pour produire les vidéos à l’aide d’un GPU Nvidia RTX 4090 de qualité ordinateur de bureau.

L'équipe de recherche suggère que VASA-1 pourrait être utilisé pour générer des avatars extrêmement réalistes pour des jeux ou des simulations. Dans le même temps, ils reconnaissent le potentiel d’abus et ne mettent donc pas le système à la disposition d’un usage général.