Utiliser l'IA pour se protéger contre la manipulation d'images par l'IA

Dans cet exemple, un adversaire cherche à modifier une image trouvée en ligne. L’adversaire décrit via une invite textuelle les changements souhaités, puis utilise un modèle de diffusion pour générer une image réaliste qui correspond à l’invite. En immunisant l’image d’origine avant qu’un adversaire ne puisse y accéder, le système PhotoGuard perturbe la capacité d’effectuer avec succès de telles modifications. Crédit : Institut de technologie du Massachusetts

Alors que nous entrons dans une nouvelle ère où les technologies alimentées par l’intelligence artificielle peuvent créer et manipuler des images avec une précision qui brouille la frontière entre la réalité et la fabrication, le spectre de l’abus plane.

Récemment, des modèles génératifs avancés tels que DALL-E et Midjourney, réputés pour leur précision impressionnante et leurs interfaces conviviales, ont rendu la production d’images hyperréalistes relativement facile. Les barrières à l’entrée étant abaissées, même les utilisateurs inexpérimentés peuvent générer et manipuler des images de haute qualité à partir de simples descriptions textuelles, allant d’altérations d’image innocentes à des modifications malveillantes.

Des techniques telles que le filigrane constituent une solution prometteuse, mais une mauvaise utilisation nécessite une mesure préventive (par opposition à une mesure post hoc uniquement).

Dans le but de créer une telle nouvelle mesure, des chercheurs du laboratoire d’informatique et d’intelligence artificielle du MIT (CSAIL) ont développé « PhotoGuard », une technique qui utilise des perturbations – de minuscules altérations des valeurs de pixels invisibles à l’œil humain mais détectables par des modèles informatiques – qui perturber efficacement la capacité du modèle à manipuler l’image.

PhotoGuard utilise deux méthodes « d’attaque » différentes pour générer ces perturbations. L’attaque « encodeur » plus simple cible la représentation latente de l’image dans le modèle d’IA, ce qui amène le modèle à percevoir l’image comme une entité aléatoire. La « diffusion » plus sophistiquée définit une image cible et optimise les perturbations pour que l’image finale ressemble le plus possible à la cible.

« Envisagez la possibilité d’une propagation frauduleuse de faux événements catastrophiques, comme une explosion à un point de repère important. Cette tromperie peut manipuler les tendances du marché et l’opinion publique, mais les risques ne se limitent pas à la sphère publique. Les images personnelles peuvent être modifiées de manière inappropriée et utilisées pour chantage, entraînant des implications financières importantes lorsqu’il est exécuté à grande échelle », déclare Hadi Salman, étudiant diplômé du MIT en génie électrique et informatique (EECS), affilié au MIT CSAIL et auteur principal d’un nouvel article sur PhotoGuard disponible sur le arXiv serveur de préimpression.

« Dans des scénarios plus extrêmes, ces modèles pourraient simuler des voix et des images pour mettre en scène de faux crimes, infligeant une détresse psychologique et des pertes financières. La nature rapide de ces actions aggrave le problème. Même lorsque la tromperie est finalement découverte, les dommages, qu’ils soient de réputation, émotionnels , ou financier – s’est souvent déjà produit. C’est une réalité pour les victimes à tous les niveaux, des individus victimes d’intimidation à l’école à la manipulation à l’échelle de la société.

PhotoGuard en pratique

Les modèles d’IA voient une image différemment de la façon dont les humains le font. Il voit une image comme un ensemble complexe de points de données mathématiques qui décrivent la couleur et la position de chaque pixel – c’est la représentation latente de l’image. L’attaque de l’encodeur introduit des ajustements mineurs dans cette représentation mathématique, amenant le modèle d’IA à percevoir l’image comme une entité aléatoire.

En conséquence, toute tentative de manipulation de l’image à l’aide du modèle devient presque impossible. Les changements introduits sont si infimes qu’ils sont invisibles à l’œil humain, préservant ainsi l’intégrité visuelle de l’image tout en assurant sa protection.

La deuxième attaque de « diffusion », résolument plus complexe, cible stratégiquement l’ensemble du modèle de diffusion de bout en bout. Cela implique de déterminer une image cible souhaitée, puis de lancer un processus d’optimisation dans le but d’aligner étroitement l’image générée avec cette cible présélectionnée.

Lors de la mise en œuvre, l’équipe a créé des perturbations dans l’espace d’entrée de l’image d’origine. Ces perturbations sont ensuite utilisées lors de l’étape d’inférence et appliquées aux images, offrant une défense robuste contre les manipulations non autorisées.

« Les progrès de l’IA auxquels nous assistons sont vraiment époustouflants, mais ils permettent des utilisations bénéfiques et malveillantes de l’IA », déclare Aleksander Madry, professeur au MIT d’EECS et chercheur principal au CSAIL, qui est également l’un des auteurs de l’article. « Il est donc urgent que nous travaillions à identifier et à atténuer ce dernier. Je considère PhotoGuard comme notre petite contribution à cet effort important. »

L’attaque par diffusion est plus gourmande en calcul que son frère plus simple et nécessite une mémoire GPU importante. L’équipe affirme que l’approximation du processus de diffusion avec moins d’étapes atténue le problème, rendant ainsi la technique plus pratique.

Pour mieux illustrer l’attaque, considérons un projet artistique, par exemple. L’image d’origine est un dessin et l’image cible est un autre dessin complètement différent. L’attaque par diffusion revient à apporter de minuscules modifications invisibles au premier dessin de sorte que, pour un modèle d’IA, il commence à ressembler au deuxième dessin. Cependant, à l’œil humain, le dessin original reste inchangé.

Ce faisant, tout modèle d’IA tentant de modifier l’image d’origine apportera désormais par inadvertance des modifications comme s’il s’agissait de l’image cible, protégeant ainsi l’image d’origine d’une manipulation intentionnelle. Le résultat est une image qui reste visuellement inchangée pour les observateurs humains, mais protège contre les modifications non autorisées par les modèles d’IA.

En ce qui concerne un exemple réel avec PhotoGuard, considérons une image à plusieurs visages. Vous pouvez masquer tous les visages que vous ne souhaitez pas modifier, puis demander « deux hommes assistant à un mariage ». Lors de la soumission, le système ajustera l’image en conséquence, créant une représentation plausible de deux hommes participant à une cérémonie de mariage.

Maintenant, envisagez de protéger l’image contre toute modification ; l’ajout de perturbations à l’image avant le téléchargement peut l’immuniser contre les modifications. Dans ce cas, la sortie finale manquera de réalisme par rapport à l’image originale non immunisée.

Tout le monde sur le pont

Les principaux alliés dans la lutte contre la manipulation d’images sont les créateurs des modèles d’édition d’images, explique l’équipe. Pour que PhotoGuard soit efficace, une réponse intégrée de toutes les parties prenantes est nécessaire. « Les décideurs politiques devraient envisager de mettre en œuvre des réglementations qui obligent les entreprises à protéger les données des utilisateurs contre de telles manipulations. Les développeurs de ces modèles d’IA pourraient concevoir des API qui ajoutent automatiquement des perturbations aux images des utilisateurs, offrant une couche supplémentaire de protection contre les modifications non autorisées », déclare Salman.

Malgré la promesse de PhotoGuard, ce n’est pas une panacée. Une fois qu’une image est en ligne, des personnes malveillantes pourraient tenter de rétroconcevoir les mesures de protection en appliquant du bruit, en recadrant ou en faisant pivoter l’image. Cependant, de nombreux travaux antérieurs tirés de la littérature sur les exemples contradictoires peuvent être utilisés ici pour mettre en œuvre des perturbations robustes qui résistent aux manipulations d’images courantes.

« Une approche collaborative impliquant des développeurs de modèles, des plateformes de médias sociaux et des décideurs présente une défense solide contre la manipulation d’images non autorisée. Travailler sur ce problème urgent est d’une importance primordiale aujourd’hui », déclare Salman.

« Et bien que je sois heureux de contribuer à cette solution, beaucoup de travail est nécessaire pour rendre cette protection pratique. Les entreprises qui développent ces modèles doivent investir dans l’ingénierie d’immunisations robustes contre les menaces possibles posées par ces outils d’IA. Alors que nous entrons dans ce nouveau l’ère des modèles génératifs, luttons pour le potentiel et la protection à parts égales. »

« La perspective d’utiliser des attaques contre l’apprentissage automatique pour nous protéger des utilisations abusives de cette technologie est très convaincante », déclare Florian Tramèr, professeur assistant à l’ETH Zürich. « Le document a une bonne idée du fait que les développeurs de modèles d’IA génératifs sont fortement incités à fournir de telles protections vaccinales à leurs utilisateurs, ce qui pourrait même devenir une obligation légale à l’avenir.

« Cependant, concevoir des protections d’image qui résistent efficacement aux tentatives de contournement est un problème difficile : une fois que la société d’IA générative s’est engagée dans un mécanisme d’immunisation et que les gens commencent à l’appliquer à leurs images en ligne, nous devons nous assurer que cette protection fonctionnera contre des adversaires motivés qui pourraient même utiliser de meilleurs modèles d’IA générative développés dans un avenir proche. La conception de protections aussi robustes est un problème ouvert et difficile, et cet article démontre de manière convaincante que les entreprises d’IA générative devraient travailler à le résoudre.