Le plus grand expert mondial en matière d’identification des deepfakes a un gros problème. Je ne parviens plus à les identifier

Il s’appelle Hany Farid et il est considéré comme l’un des plus grands experts en matière de fausses vidéos (deefakes) au monde. Cet expert en criminalistique numérique était capable de découvrir des vidéos manipulées par les gouvernements, par exemple, mais il a désormais décidé de quitter la Silicon Valley pour une raison simple : il n’est plus capable de différencier les vraies de celles générées avec des outils d’IA. Et cela ne nous surprend pas.

Deepfakes impossibles à distinguer de la réalité. Au cours des deux dernières décennies, Farid, 60 ans, s’est spécialisé dans l’identification de fausses vidéos. Ce professeur de l’Université de Californie à Berkeley a avoué que les progrès de l’IA générative ont rendu les méthodes de détection traditionnelles inutiles. Leurs conclusions confirment le sentiment que nous avions depuis longtemps avec ce type de contenu : l’IA a tellement progressé que le problème ne vient plus seulement des deepfakes : c’est qu’on se méfie même des vraies photos.

La réputation de Farid le précède. Son père a travaillé pendant 50 ans comme chimiste chez Eastman Kodak, et Farid a grandi en visitant souvent la chambre noire, regardant les photos devenir des photos au fur et à mesure qu’elles traversaient les différents liquides. Il a fini par concevoir un système de « prise d’empreintes numériques » permettant de détecter les cas de pédopornographie cachés sur Internet. En fait, sa technologie a permis de signaler chaque année 30 millions de cas d’abus potentiels, ainsi que des centaines d’arrestations et plusieurs sauvetages.

Je me rends. Face à l’avalanche de deepfakes parfaits générés avec l’IA, Farid a décidé de quitter son emploi pour se réfugier dans une ferme du Vermont. Sa reddition est la dernière démonstration d’une dure réalité : on ne peut plus se fier à ce que l’on voit sur les réseaux. Il se consacre désormais au travail du bois et s’éloigne des réseaux et de la technologie.

Le missile qui a tout changé. Le tournant qui démontre cette crise de cette tâche de criminalistique numérique s’est produit après la diffusion virale d’une vidéo montrant l’impact présumé d’un missile américain sur une école en Iran. Farid a passé une journée entière à décomposer la séquence image par image : analyser la géométrie des ombres, le taux de retard sonore de l’explosion selon les lois de la physique, ou encore la longueur en pixels du projectile.

Impossible de décider si c’est faux ou pas. Il n’a rien trouvé qui puisse prouver que la vidéo était fausse, et la même chose est arrivée à d’autres spécialistes. Personne n’a pu émettre un verdict clair quant à l’authenticité, ce qui a clairement montré que la génération de vidéos IA est actuellement si avancée que le contenu réel est impossible à distinguer d’un deepfake généré avec ces modèles de dernière génération.

La vérification est trop compliquée. Il y a ici un autre problème : générer une fausse vidéo, toxique ou non, avec des voix clonées et parfaitement synchronisées avec l’interlocuteur est simple, rapide et bon marché. Mener une enquête médico-légale pour tenter de détecter si la vidéo est réelle ou non nécessite des heures d’analyse informatique et directe par des spécialistes. Étant donné que les deepfakes parviennent à devenir viraux en seulement 20 minutes s’ils réussissent, les méthodes permettant de contenir cette propagation sont inutiles pour une raison simple : elles arrivent en retard.

Le mordant. Le chercheur lui-même a été victime de cette réalité : des cybercriminels ont cloné son numéro de téléphone et utilisé l’IA pour générer sa voix et ainsi usurper son identité. Avec ce clone, ils ont appelé un contact proche impliqué dans une affaire judiciaire et ont réussi à lui soutirer des informations confidentielles. Farid et sa femme, chercheuse en vision à Berkeley, ont dû créer un mot de passe secret au début de chaque appel familial pour certifier que chaque interlocuteur était bien celui qu’ils prétendaient être. La situation génère une paranoïa et une méfiance inquiétantes.

« Je deviens aveugle. » Dans le rapport du New York Times, Farid a expliqué que ses études montrent que la plupart des gens ne peuvent plus différencier une vraie photo d’une photo créée numériquement. « J’ai l’impression de devenir aveugle », a-t-il indiqué, montrant son inquiétude face à une IA qui parvient à obscurcir la vérité et à déformer la réalité.

Les filigranes comme solution. Face à cette avalanche d’images et de vidéos générées par l’IA et impossibles à distinguer de la réalité, l’un des moyens potentiels d’atténuer le problème continue de gagner en force. Il s’agit bien entendu des filigranes, qui sont totalement invisibles et font partie des métadonnées de ces fichiers.

Deux initiatives prometteuses. Il existe plusieurs initiatives à cet égard, la plus notable étant celle de la coalition C2PA, qui comprend, par exemple, Google et OpenAI. Les outils d’IA devraient ajouter ces filigranes identifiant ces contenus (« Cette vidéo a été générée avec cette application d’IA, cette image a été générée ou éditée avec cette autre »), mais pour le moment, ce type d’option n’est pas appliqué par défaut. Un autre projet important en ce sens est SynthID, la technologie de Google pour « marquer » ces contenus comme créés avec l’IA.

Images | Image (CC0)

À Simseo | Qu’est-il arrivé à Technicolor : évolution et mort de l’entreprise qui a changé le cinéma et dépassée par son ambition