Un expert en génération vidéo IA discute des progrès rapides de la technologie et de ses limites actuelles
Ce cycle présidentiel a déjà vu plusieurs exemples très médiatisés de personnes utilisant des deepfakes pour tenter d’influencer les électeurs. Les deepfakes sont des images, des enregistrements audio ou des vidéos générés ou modifiés à l'aide de modèles d'intelligence artificielle (IA) pour représenter des personnes réelles ou fictives. Parmi les exemples récents de deepfake, citons l’audio manipulé de Joe Biden exhortant les électeurs à rester chez eux pendant les primaires et les images fabriquées de Taylor Swift soutenant Donald Trump.
Il semble que l’intelligence artificielle générative soit un outil de plus en plus important dans la boîte à outils de la désinformation. Les électeurs devraient-ils craindre d’être bombardés de fausses vidéos de politiciens créées avec l’IA générative ? Un expert en vision par ordinateur et en apprentissage profond de l’Université de Rochester affirme que même si la technologie progresse rapidement, la génération de vidéos deepfake reste plus difficile à exploiter pour les mauvais acteurs en raison de sa nature complexe.
Alors que les produits d'OpenAI, notamment ChatGPT pour la génération de texte et DALL-E 3 pour la génération d'images, gagnent en popularité, la société n'a pas encore publié d'équivalent pour la génération de vidéos. Selon Chenliang Xu, professeur agrégé d'informatique à l'Université de Rochester, la société a publié des avant-premières de son logiciel de génération vidéo Sora, mais n'a pas encore lancé le produit, qui est encore en cours de test et de perfectionnement.
« La génération de vidéos à l'aide de l'IA reste un sujet de recherche en cours et un problème difficile, car c'est ce que nous appelons du contenu multimodal », explique Xu. « Générer des vidéos animées avec l'audio correspondant est un problème difficile en soi, et les aligner est encore plus difficile. »
Xu dit que son groupe de recherche a été parmi les premiers à utiliser des réseaux de neurones artificiels pour générer une vidéo multimodale en 2017. Ils ont commencé par des tâches telles que fournir l'image d'un violoniste et l'audio d'un violon pour générer une vidéo animée d'un violoniste. À partir de là, ils sont passés à des problèmes tels que générer des mouvements de lèvres, puis à créer des visages parlants complets avec des gestes de tête à partir d'une seule image.
« Désormais, nous pouvons générer des têtes entièrement pilotables en temps réel et même les transformer en différents styles spécifiés par les descriptions linguistiques », explique Xu.
Les défis liés à la technologie de détection des deepfakes
L'équipe de Xu a également développé une technologie de détection des deepfakes. Il considère qu'il s'agit d'un domaine qui nécessite des recherches plus approfondies, notant qu'il est plus facile de créer une technologie pour générer des deepfakes que de les détecter en raison des données de formation nécessaires pour construire des modèles généralisés de détection des deepfakes.
« Si vous souhaitez créer une technologie capable de détecter les deepfakes, vous devez créer une base de données qui identifie les fausses images et les vraies images », explique Xu. « Cet étiquetage nécessite une couche supplémentaire d'implication humaine, ce que la génération n'a pas. »
Une autre préoccupation, ajoute-t-il, est de créer un détecteur généralisable à différents types de générateurs de deepfake. « Vous pouvez créer un modèle qui fonctionne bien avec les techniques que vous connaissez, mais si quelqu'un utilise un modèle différent, votre algorithme de détection aura du mal à le capturer », dit-il.
Les cibles les plus faciles pour les deepfakes vidéo
Avoir accès à de bonnes données de formation est crucial pour créer des modèles d’IA génératifs efficaces. En conséquence, Xu affirme que les politiciens et les célébrités seront les cibles les plus précoces et les plus faciles lorsque les générateurs vidéo deviendront largement disponibles.
« Les hommes politiques et les célébrités sont plus faciles à générer que les gens normaux, car il existe simplement plus de données à leur sujet », explique Xu. « Comme il existe déjà de nombreuses vidéos d'eux, ces modèles peuvent les utiliser pour apprendre les expressions qu'ils affichent dans différentes situations, ainsi que leurs voix, leurs cheveux, leurs mouvements et leurs émotions. »
Mais il s'attend à ce qu'au moins dans un premier temps, les données d'entraînement sur lesquelles sont construits les « deepfakes de célébrités » en particulier puissent les rendre plus facilement visibles.
« Si vous utilisez uniquement des photographies de haute qualité pour entraîner un modèle, vous obtiendrez des résultats similaires », explique Xu. « Cela peut donner lieu à un style trop fluide que vous pouvez choisir comme un indice pour dire qu'il s'agit d'un deepfake. »
D'autres indices peuvent inclure le degré de naturel de la réaction d'une personne, sa capacité à bouger la tête et même le nombre de dents affichées. Mais les générateurs d'images ont surmonté des indices similaires, comme la création de mains avec six doigts, et Xu affirme qu'un nombre suffisant de données d'entraînement peut atténuer ces limitations.
Il appelle la communauté des chercheurs à investir davantage d’efforts dans le développement de stratégies de détection des deepfakes et à lutter contre les préoccupations éthiques entourant le développement de ces technologies.
« Les modèles génératifs sont un outil qui, entre les mains de bonnes personnes, peut faire de bonnes choses, mais entre les mains de mauvaises personnes, il peut faire de mauvaises choses », explique Xu. « La technologie elle-même n'est ni bonne ni mauvaise, mais nous devons discuter de la manière d'éviter que ces outils puissants ne tombent entre de mauvaises mains et soient utilisés de manière malveillante. »