Il ne suffit plus de compter les doigts pour savoir si une image est réalisée avec l’IA. Maintenant il faut apprendre le dessin technique

Détecter les images générées par l’intelligence artificielle est devenu un jeu du chat et de la souris. Et le pire, c’est que ça va empirer. Pendant un certain temps, nous avons tous commencé à prêter attention aux mains et au nombre de doigts que l’IA représentait dans les images de personnes à travers les mécanismes de diffusion des modèles. Il y a quelques années, il était évident de voir une image créée par l’IA. Aujourd’hui, avec la précision des modèles d’images et de vidéos, la tâche devient beaucoup plus complexe.

La bonne nouvelle est qu’il existe encore des moyens de détecter si une image a été générée par l’IA, même si, vu le rythme auquel les modèles avancent, cela pourrait bientôt changer à nouveau. Leur détection est moins intuitive qu’avant, mais faites simplement attention à la géométrie, aux ombres et à la perspective. En gros, du dessin technique.

Qui est derrière cette idée. Hany Farid, spécialiste de l’Université de Californie à Berkeley et l’un des plus grands experts mondiaux en criminalistique de l’image, a consacré plus de deux décennies à déterminer si une photo ou une vidéo a été manipulée.

Santiago Lyon, ancien directeur de la photographie d’Associated Press et qui travaille aujourd’hui dans le domaine de la sécurité numérique chez Adobe, décrit Farid dans un article de Science comme « une sorte de doyen de la criminalistique numérique », précisément parce qu’il s’y consacre depuis si longtemps. Farid a contribué à la création de cette discipline il y a plus de 20 ans et affirme que l’IA est le plus grand défi auquel il ait été confronté.

militaires

Farid illustre sa méthode avec cette image. Si l’on trace une ligne vers l’horizon entre les carreaux et les plinthes, on voit que les lignes ne convergent pas en un seul point, ce qui nous indique que l’image est générée par l’IA.

Il est difficile de savoir ce qui est vrai et ce qui ne l’est pas. Nous perdons la capacité de faire confiance à ce que nous voyons. La combinaison d’une IA générative, capable de créer des images presque impossibles à distinguer de la réalité, et d’une réglementation tiède sur les réseaux sociaux fait que les canulars finissent par s’amplifier, rendant de plus en plus difficile de savoir si ce que nous voyons est réel ou non. Et dans de nombreux cas, nous ne nous en soucions même pas.

Farid parle directement d’une « guerre mondiale pour la vérité », avec des conséquences sur les personnes, les institutions et les démocraties. Dans une conférence TED, il a déclaré qu’il pensait que le pourcentage de fausses images sur Internet était proche de 50 %.

Surprise historique dans la Silicon Valley : Anthropic vient de dépasser OpenAI en tant que startup d'IA la plus valorisée au monde

Il n’est plus utile de se concentrer sur les pixels. L’une des premières techniques développées par Farid était basée sur le « bruit » laissé par de vraies caméras. Une photo authentique naît de la lumière frappant un capteur électronique ; Une image IA, quant à elle, émerge d’un processus statistique qui convertit le bruit aléatoire en une image cohérente avec le texte demandé. Cette origine très différente a laissé des traces détectables au niveau des pixels. Le problème est que les générateurs ont appris à imiter même ces imperfections, le bruit des capteurs et les artefacts des lentilles.

Comme l’explique le rapport Science, bon nombre des méthodes pionnières de Farid basées sur les relations statistiques entre les pixels « ne fonctionnent plus bien, voire pas du tout », car les images IA sont créées à partir de zéro plutôt que modifiées sur une photo précédente.

Dessin technique. L’IA, dit Farid, « ne connaît pas la physique, ne connaît pas la géométrie et commet toutes sortes d’atrocités ». Et c’est là qu’intervient le dessin technique. Selon Farid, ce sont les trois fronts qu’il faut examiner :

Points de fuite. Dans le monde réel, les lignes parallèles (voies ferrées, carrelages, côtés d’un mur) convergent vers un seul point à mesure qu’elles s’éloignent. C’est un principe que les artistes connaissent depuis des siècles, mais que l’IA ignore car elle ne comprend pas l’espace tridimensionnel. Si ces lignes ne se rejoignent pas en un seul point, la scène est physiquement impossible.
Nuances. Le Soleil est si loin que ses rayons atteignent la Terre pratiquement parallèlement. Cela signifie que les lignes reliant chaque objet à l’ombre qu’il projette doivent également se croiser en un point cohérent avec la position de la lumière. Dans de nombreuses images générées par l’IA, ces lignes sont même loin de se croiser.
Points forts. Le même principe s’applique aux miroirs, car les lignes reliant un point d’un objet à son reflet doivent converger vers un point de fuite. Dans le cas contraire, l’image est trahie.

La même chose se produit dans cette image. Si nous traçons une ligne qui passe à la fois par les sommets de chaque cube et par les sommets de son ombre projetée, nous voyons qu’ils ne convergent pas non plus en un seul point.

Accumulation d’indices. Aucune technique n’est infaillible à elle seule, et Farid insiste sur le fait que la méthode consiste à accumuler des indices, comme dans une enquête. Dans sa conférence TED, il a illustré cela avec une image réalisée avec l’IA de plusieurs soldats regardant vers l’avant. Il y détecta le motif suspect dans le bruit, l’absence de point de fuite cohérent sur les murs et les ombres qui ne se croisaient pas. Trois anomalies qui donnaient à penser que l’image n’était pas réelle.

La raison sous-jacente pour laquelle cette approche résiste mieux au fil du temps est que les sociétés d’IA ne cherchent pas à tromper les experts légistes comme Farid, mais plutôt l’utilisateur moyen, puisque nous sommes à une barre beaucoup plus basse. Comme il le dit, « le système visuel pardonne toutes sortes d’absurdités dans les photos parce qu’il s’en fiche ».

Dans cette image, si l’on trace une ligne depuis un point de la figure jusqu’au même point réfléchi dans le miroir, on voit que les lignes ne convergent pas non plus en un seul point.

Doutes et limites. Tout le monde sur le terrain ne partage pas le même optimisme. Certains chercheurs réaffirment que chaque technique de détection a une « durée de vie utile » très courte, parfois quelques mois, car l’IA s’améliore très vite. En fait, les fameuses erreurs sur les mains à six doigts ont disparu en un éclair. Farid, cependant, est sceptique quant à la capacité de l’IA à maîtriser un jour la physique complexe du monde réel, comme une explosion, car la simuler est diablement difficile et les entreprises ne sont guère incitées à aller aussi loin.

Il reconnaît néanmoins recevoir chaque jour une douzaine de courriels de journalistes du monde entier demandant des vérifications, alors qu’il y a quelques années, il y avait une ou deux demandes par mois.

Solutions. Farid affirme que les outils médico-légaux qu’il développe avec son équipe sont mis à la disposition des journalistes, des institutions et des tribunaux, ce qui protège indirectement tout le monde. Il existe également une norme internationale relative aux « informations d’identification du contenu » qui vise à authentifier l’origine des images au moment de leur création. Cela ne résoudra pas tous les problèmes, mais cela fera partie de la solution. Il a également averti dans son discours que les réseaux sociaux ne sont pas un lieu d’information, car ils sont « trop remplis de mensonges » et de « conneries d’IA » pour être fiables.

Image de couverture | Chaindrop et Sora

À Simseo | Les lunettes intelligentes pour la police ressemblaient à de la science-fiction. Certains agents chinois ont déjà commencé à les utiliser