Le système d'IA identifie les fausses vidéos au-delà des échanges de visage et une parole modifiée

À une époque où les vidéos manipulées peuvent répandre la désinformation, l'intimidation des personnes et inciter les dommages, les chercheurs de l'UC Riverside ont créé un nouveau système puissant pour exposer ces contrefaçons.

Amit Roy-Chowdhury, professeur de génie électrique et informatique, et le candidat au doctorat Rohit Kundu, tous deux du Marlan et du Rosemary Bourns College of Engineering, se sont associés à des scientifiques de Google pour développer un modèle d'intelligence artificielle qui détecte la tamponner vidéo – Even, les manipulations va bien au-delà de la face et la parole modifiée. Le document est publié sur le arxiv serveur de préimprimée.

Roy-Chowdhury est également codirecteur du UC Riverside Artificial Intelligence Research and Education (REING), un nouveau centre de recherche interdisciplinaire de l'UCR.

Leur nouveau système, appelé Universal Network pour identifier les vidéos falsifiées et synthétiques (UNITE), détecte les contrefaçons en examinant non seulement les visages mais les cadres vidéo complets, y compris les arrière-plans et les modèles de mouvement. Cette analyse en fait l'un des premiers outils capable d'identifier des vidéos synthétiques ou trafiqués qui ne dépendent pas du contenu facial.

« Deepfakes ont évolué », a déclaré Kundu. « Ils ne sont plus seulement des échanges de visage. Les gens créent maintenant des vidéos entièrement fausses – des visages aux arrière-plans – en utilisant des modèles génératifs puissants. Notre système est conçu pour attraper tout cela. »

Le développement d'Unite est venu alors que la génération de texte à vidéo et d'image à vidéo est devenue largement disponible en ligne. Ces plateformes d'IA permettent à pratiquement quiconque de fabriquer des vidéos très convaincantes, posant de sérieux risques pour les individus, les institutions et la démocratie elle-même.

« Il est effrayant à quel point ces outils sont devenus accessibles », a déclaré Kundu. « Quiconque ayant des compétences modérés peut contourner les filtres de sécurité et générer des vidéos réalistes de personnalités publiques disant des choses qu'ils n'ont jamais dites. »

Kundu a expliqué que des détecteurs Deepfake antérieurs se concentraient presque entièrement sur les indices faciaux.

« S'il n'y a pas de visage dans le cadre, de nombreux détecteurs ne fonctionnent tout simplement pas », a-t-il déclaré. « Mais la désinformation peut prendre de nombreuses formes. La modification des antécédents d'une scène peut déformer la vérité tout aussi facilement. »

Pour y remédier, Unite utilise un modèle d'apprentissage en profondeur basé sur un transformateur pour analyser les clips vidéo. Il détecte des incohérences spatiales et temporelles subtiles – les bandes souvent manquées par les systèmes précédents. Le modèle s'appuie sur un cadre d'IA fondamental connu sous le nom de Siglip, qui extrait les caractéristiques non liées à une personne ou un objet spécifique.

Une nouvelle méthode de formation, surnommée «perte d'attention», invite le système à surveiller plusieurs régions visuelles de chaque cadre, l'empêchant de se concentrer uniquement sur les visages.

Le résultat est un détecteur universel capable de signaler une gamme de contrefaçons – des échanges faciaux simples aux vidéos complexes et entièrement synthétiques générées sans aucune séquence réelle.

« C'est un modèle qui gère tous ces scénarios », a déclaré Kundu. « C'est ce qui le rend universel. »

Les chercheurs ont présenté leurs résultats lors de la Conférence de la Vision par ordinateur et de la reconnaissance des modèles (CVPR) de 2025 à Nashville, Tenn. Intitulé «Vers un détecteur vidéo synthétique universel: des manipulations du visage ou de l'arrière-plan à un contenu entièrement généré par l'IA», leur article, dirigé par Kundu, décrit l'architecture et la méthodologie de la formation de l'Unite.

Les co-auteurs incluent les chercheurs de Google Hao Xiong, Vishal Mohanty et Athula Balachandra.

La collaboration avec Google, où Kundu a interné, a donné accès à de vastes ensembles de données et aux ressources informatiques nécessaires pour former le modèle sur un large éventail de contenu synthétique, y compris des vidéos générées à partir de texte ou d'images fixes – des formats qui ne font souvent pas de détection des détecteurs existants.

Bien que toujours en développement, Unite pourrait bientôt jouer un rôle vital dans la défense contre la désinformation vidéo. Les utilisateurs potentiels incluent les plateformes de médias sociaux, les vérificateurs de faits et les salles de rédaction travaillant pour empêcher les vidéos manipulées de devenir virales.

« Les gens méritent de savoir si ce qu'ils voient est réel », a déclaré Kundu. « Et à mesure que l'IA s'améliore pour simuler la réalité, nous devons mieux révéler la vérité. »