Les filigranes n'offrent aucune défense contre DeepFakes, suggère l'étude

De nouvelles recherches de l'Institut de cybersécurité et de confidentialité de l'Université de Waterloo démontrent que tout filigrane d'image de l'intelligence artificielle (IA) peut être supprimé, sans que l'attaquant n'ait besoin de connaître la conception du filigrane, ou même si une image est filigranée pour commencer.

Au fur et à mesure que les images et les vidéos générées par l'AI sont devenues plus réalistes, les citoyens et les législateurs sont de plus en plus préoccupés par l'impact potentiel des «profonds» à travers la politique, le système juridique et la vie quotidienne.

« Les gens veulent un moyen de vérifier ce qui est réel et ce qui n'est pas parce que les dommages seront énormes si nous ne pouvons pas », a déclaré Andre Kassis, un doctorat. candidat en informatique et auteur principal de la recherche. « Des campagnes de frottis politique à la pornographie non consensuelle, cette technologie pourrait avoir des conséquences terribles et larges. »

Les sociétés d'IA, dont OpenAI, META et Google, ont offert des « filigranes » codés invisibles comme une solution, suggérant que ces signatures secrètes peuvent leur permettre de créer des outils accessibles au public qui distinguent de manière cohérente et précise entre le contenu généré par l'IA et de vraies photos ou vidéos, sans révéler la nature des casernes.

L'équipe de Waterloo, cependant, a créé un outil, Uncarker, qui détruit avec succès les filigranes sans avoir besoin de connaître les détails de la façon dont ils ont été encodés. Underser est le premier outil pratique et universel qui peut éliminer le filigrane dans des contextes réels. Ce qui distingue la marque, c'est qu'il ne nécessite aucune connaissance de l'algorithme de watermarking, pas d'accès aux paramètres internes et aucune interaction avec le détecteur. Il fonctionne universellement, dépouillant à la fois des filigranes traditionnels et sémantiques sans aucune personnalisation.

« Alors que les schémas de filigrane sont généralement gardés secrètes par les sociétés de l'IA, ils doivent satisfaire deux propriétés essentielles: ils doivent être invisibles pour les utilisateurs humains pour préserver la qualité de l'image, et ils doivent être robustes, c'est-à-dire résistants à la manipulation d'une image comme la culture ou la réduction de la résolution », a déclaré le Dr Urs Hengartner, professeur adjoint de la David R. Cheriton School of Computer Science à l'Université de Waterloo.

« Ces exigences limitent considérablement les conceptions possibles des filigranes. Notre aperçu clé est que pour répondre aux deux critères, les filigranes doivent fonctionner dans le domaine spectral de l'image, ce qui signifie qu'ils manipulent subtilement la façon dont les intensités des pixels varient à l'autre. »

En utilisant une attaque statistique, Uncarker recherche des endroits dans l'image où la fréquence des pixels est inhabituelle, puis déforme cette fréquence, ce qui rend l'image méconnaissable pour l'outil de reconnaissance du filigrane mais indétectablement différent de l'œil nu. Dans les tests, la méthode a fonctionné plus de 50% du temps sur différents modèles d'IA – y compris le synthétique de Google et la signature stable de Meta – sans connaissance existante des origines des images ou des méthodes de filigrane.

« Si nous pouvons comprendre cela, les acteurs malveillants peuvent aussi », a déclaré Kassis. « Le filigrane est promu comme cette solution parfaite, mais nous avons montré que cette technologie est cassable. Deepfakes sont toujours une énorme menace. Nous vivons à une époque où vous ne pouvez plus faire confiance à ce que vous voyez. »

La recherche, « Unmarker: une attaque universelle contre le filigrane de l'image défensive », apparaît dans les actes de la 46th IEEE Symposium sur la sécurité et la confidentialité.