La recherche introduit une nouvelle approche pour détecter les deepfakes

Sur la piste des deepfakes, des chercheurs identifient les « empreintes digitales » d'une vidéo générée par l'IA

En février, OpenAI a publié des vidéos créées par son programme d'intelligence artificielle générative Sora. Le contenu étonnamment réaliste, produit via de simples invites textuelles, constitue la dernière avancée majeure pour les entreprises démontrant les capacités de la technologie de l’IA. Il a également soulevé des inquiétudes quant au potentiel de l’IA générative à permettre la création de contenus trompeurs et trompeurs à grande échelle.

Selon une nouvelle étude de l’Université Drexel, les méthodes actuelles de détection des médias numériques manipulés ne seront pas efficaces contre les vidéos générées par l’IA ; mais une approche d’apprentissage automatique pourrait être la clé pour démasquer ces créations synthétiques.

Dans un article accepté pour présentation à la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes en juin, des chercheurs du laboratoire multimédia et de sécurité de l'information du Collège d'ingénierie de Drexel ont expliqué que même si la technologie existante de détection d'images synthétiques n'a pas réussi jusqu'à présent à détecter les vidéos générées par l'IA, ils J'ai eu du succès avec un algorithme d'apprentissage automatique qui peut être entraîné pour extraire et reconnaître les « empreintes digitales » numériques de nombreux générateurs vidéo différents, tels que Stable Video Diffusion, Video-Crafter et Cog-Video.

De plus, ils ont montré que cet algorithme peut apprendre à détecter de nouveaux générateurs d’IA après avoir étudié quelques exemples de leurs vidéos.

« Il est plus que déconcertant que cette technologie vidéo puisse être publiée avant qu'il existe un bon système pour détecter les contrefaçons créées par de mauvais acteurs », a déclaré Matthew Stamm, Ph.D., professeur agrégé au Drexel's College of Engineering et directeur du MISL.

« Les entreprises responsables feront de leur mieux pour intégrer des identifiants et des filigranes, mais une fois que la technologie sera accessible au public, les personnes souhaitant l'utiliser à des fins de tromperie trouveront un moyen. C'est pourquoi nous nous efforçons de garder une longueur d'avance sur eux en développant la technologie pour identifier les vidéos synthétiques à partir de modèles et de traits endémiques aux médias.

Détectives Deepfakes

Le laboratoire de Stamm participe activement aux efforts visant à signaler les images et vidéos manipulées numériquement depuis plus d'une décennie, mais le groupe a été particulièrement occupé l'année dernière, car la technologie d'édition est utilisée pour diffuser de la désinformation politique.

Jusqu'à récemment, ces manipulations étaient le produit de programmes de retouche photo et vidéo qui ajoutaient, supprimaient ou décalaient des pixels ; ou ralentir, accélérer ou couper des images vidéo. Chacune de ces modifications laisse un fil d'Ariane numérique unique et le laboratoire de Stamm a développé une suite d'outils calibrés pour les trouver et les suivre.

Les outils du laboratoire utilisent un programme d'apprentissage automatique sophistiqué appelé réseau neuronal contraint. Cet algorithme peut apprendre, de la même manière que le cerveau humain, ce qui est « normal » et ce qui est « inhabituel » au niveau sub-pixel des images et des vidéos, plutôt que de rechercher dès le départ des identifiants spécifiques prédéterminés de manipulation. Cela rend le programme apte à la fois à identifier les deepfakes à partir de sources connues, ainsi qu'à repérer ceux créés par un programme jusqu'alors inconnu.

Le réseau neuronal est généralement formé sur des centaines ou des milliers d'exemples pour avoir une très bonne idée de la différence entre un média non édité et quelque chose qui a été manipulé – cela peut aller de la variation entre des pixels adjacents à l'ordre d'espacement des images dans un vidéo, à la taille et à la compression des fichiers eux-mêmes.

Un nouveau défi

« Lorsque vous créez une image, le traitement physique et algorithmique de votre appareil photo introduit des relations entre différentes valeurs de pixels qui sont très différentes des valeurs de pixels si vous générez une image avec Photoshop ou l'IA », a déclaré Stamm.

« Mais récemment, nous avons vu des générateurs de texte-vidéo, comme Sora, capables de créer des vidéos assez impressionnantes. Et celles-ci posent un tout nouveau défi car elles n'ont pas été produites par un appareil photo ni retouchées. »

L'année dernière, une publicité de campagne circulant en soutien au gouverneur de Floride, Ron DeSantis, semblait montrer l'ancien président Donald Trump embrassant et embrassant Antony Fauci, le premier à utiliser la technologie de l'IA générative. Cela signifie que la vidéo n’a pas été éditée ou assemblée à partir d’autres, mais qu’elle a plutôt été créée dans son intégralité par un programme d’IA.

Et s’il n’y a pas d’édition, note Stamm, alors les indices standards n’existent pas, ce qui pose un problème unique de détection.

« Jusqu'à présent, les programmes de détection médico-légale étaient efficaces contre les vidéos éditées en les traitant simplement comme une série d'images et en appliquant le même processus de détection », a déclaré Stamm.

« Mais avec la vidéo générée par l'IA, il n'y a aucune preuve de manipulation d'image image par image, donc pour qu'un programme de détection soit efficace, il devra être capable d'identifier de nouvelles traces laissées par la manière dont les programmes d'IA générative construisent leur vidéos. »

Dans l’étude, l’équipe a testé 11 détecteurs d’images synthétiques accessibles au public. Chacun de ces programmes s'est avéré très efficace (avec une précision d'au moins 90 %) pour identifier les images manipulées. Mais leurs performances ont chuté de 20 à 30 % face à des vidéos exigeantes créées par des générateurs d'IA accessibles au public, Luma, VideoCrafter-v1, CogVideo et Stable Diffusion Video.

« Ces résultats montrent clairement que les détecteurs d'images synthétiques éprouvent des difficultés considérables à détecter les vidéos synthétiques », ont-ils écrit. « Cette découverte est cohérente dans plusieurs architectures de détecteurs différentes, ainsi que lorsque les détecteurs sont pré-entraînés par d'autres ou recyclés à l'aide de notre ensemble de données. »

Une approche de confiance

L'équipe a émis l'hypothèse que les détecteurs basés sur un réseau neuronal convolutif, comme son algorithme MISLnet, pourraient réussir contre la vidéo synthétique, car le programme est conçu pour modifier constamment son apprentissage à mesure qu'il rencontre de nouveaux exemples. Ce faisant, il est possible de reconnaître de nouvelles traces médico-légales au fur et à mesure de leur évolution. Au cours des dernières années, l'équipe a démontré l'acuité de MISLnet à repérer les images qui avaient été manipulées à l'aide de nouveaux programmes de montage, notamment des outils d'IA. Le tester par rapport à une vidéo synthétique était donc une étape naturelle.

« Nous avons utilisé les algorithmes de CNN pour détecter les images manipulées et les deepfakes vidéo et audio avec un succès fiable », a déclaré Tai D. Nguyen, doctorant au MISL et co-auteur de l'article. « En raison de leur capacité à s'adapter à de petites quantités de nouvelles informations, nous avons pensé qu'ils pourraient également constituer une solution efficace pour identifier les vidéos synthétiques générées par l'IA. »

Pour le test, le groupe a formé huit détecteurs CNN, dont MISLnet, avec le même ensemble de données de test utilisé pour former les détecteurs d'images, qui comprennent de vraies vidéos et des vidéos générées par l'IA produites par les quatre programmes accessibles au public. Ensuite, ils ont testé le programme sur un ensemble de vidéos comprenant un certain nombre créées par des programmes d'IA générative qui ne sont pas encore accessibles au public : Sora, Pika et VideoCrafter-v2.

En analysant une petite partie (un patch) d'une seule image de chaque vidéo, les détecteurs CNN ont pu apprendre à quoi ressemble une vidéo synthétique à un niveau granulaire et appliquer ces connaissances au nouvel ensemble de vidéos. Chaque programme était efficace à plus de 93 % pour identifier les vidéos synthétiques, MISLnet étant le plus performant, à 98,3 %.

Les programmes étaient légèrement plus efficaces lors de l'analyse de la vidéo entière, en extrayant un échantillonnage aléatoire de quelques dizaines de patchs de différentes images de la vidéo et en les utilisant comme mini-ensemble de formation pour apprendre les caractéristiques de la nouvelle vidéo. En utilisant un ensemble de 80 correctifs, les programmes étaient précis entre 95 et 98 %.

Avec un peu de formation supplémentaire, les programmes étaient également précis à plus de 90 % dans l'identification du programme utilisé pour créer les vidéos, ce qui, selon l'équipe, est dû à l'approche unique et exclusive utilisée par chaque programme pour produire une vidéo.

« Les vidéos sont générées à l'aide d'une grande variété de stratégies et d'architectures de générateurs », ont écrit les chercheurs. « Étant donné que chaque technique donne des traces significatives, il est beaucoup plus facile pour les réseaux de distinguer avec précision chaque générateur. »

Une étude rapide

Alors que les programmes ont eu du mal à détecter un générateur complètement nouveau sans avoir été exposé au préalable à au moins une petite quantité de vidéo de celui-ci, avec un peu de réglage fin, MISLnet a pu rapidement apprendre à procéder à une identification avec une précision de 98 %. Cette stratégie, appelée « apprentissage en quelques étapes », constitue une capacité importante, car de nouvelles technologies d'IA sont créées chaque jour. Les programmes de détection doivent donc être suffisamment agiles pour s'adapter avec un minimum de formation.

« Nous avons déjà vu des vidéos générées par l'IA être utilisées pour créer de la désinformation », a déclaré Stamm. « À mesure que ces programmes deviennent plus omniprésents et plus faciles à utiliser, nous pouvons raisonnablement nous attendre à être inondés de vidéos synthétiques. Même si les programmes de détection ne devraient pas être la seule ligne de défense contre la désinformation (les efforts de maîtrise de l'information sont essentiels), ils ont la capacité technologique de vérifier l'authenticité des médias numériques est certainement une étape importante.