Distinguer les sons réels des deepfakes
Les vidéos deepfake générées par l’intelligence artificielle deviennent de plus en plus difficiles à identifier comme fausses, un défi qui pourrait considérablement fausser les résultats de la prochaine élection présidentielle.
Laurie Heller, professeur de psychologie à l'Université Carnegie Mellon, a collaboré avec Hafsa Ouajdi, Oussama Hadder, Modan Tailleur et Mathieu Lagrange de l'École Centrale de Nantes pour analyser les erreurs commises par le premier détecteur de réseau neuronal profond que l'équipe de recherche a développé pour classer automatiquement les sons environnementaux comme réels ou générés par l'IA.
L'équipe de recherche a publié ses résultats dans l'article « Détection de Deepfake Environmental Audio », qu'elle a présenté le 27 août lors de la 32e Conférence européenne sur le traitement du signal (EUSIPCO 2024) à Lyon, en France.
Les sons environnementaux sont définis comme le bruit de fond d'un enregistrement, c'est-à-dire tout son à l'exception de la parole et de la musique. Ces sons peuvent inclure des éléments tels qu'une voiture qui passe ou une porte qui se ferme dans une autre pièce.
Le détecteur développé par l’équipe de recherche se limite actuellement à identifier sept catégories de sons environnementaux. En testant le détecteur de sons environnementaux, l’équipe de l’École Centrale de Nantes a constaté qu’il était incroyablement précis, avec une centaine d’erreurs sur environ 6 000 sons.
L'analyse a révélé deux types d'erreurs que le détecteur pouvait commettre. Le détecteur pouvait soit étiqueter un son généré par l'IA comme réel, soit un son réel comme généré par l'IA. L'étude de Heller visait à déterminer si un humain pouvait trouver des indices audibles que le détecteur avait manqués, l'amenant à juger certains des sons réels manqués comme réels, ou certains des sons générés par l'IA manqués comme faux.
L'étude de Heller a porté sur 20 participants humains, qui ont écouté les mêmes séries de sons que le détecteur avait identifiés de manière incorrecte. Comme le détecteur, les participants ont été chargés d'identifier les sons qu'ils entendaient qui étaient réels et ceux qui étaient générés par l'IA.
Les sons environnementaux réels utilisés dans l’étude proviennent de bases de données accessibles au public. Les sons environnementaux générés par l’IA ont été sélectionnés par les gagnants d’un concours dans lequel les candidats ont soumis des sons développés à l’aide de l’IA, les sons gagnants étant les plus précis ou les plus réels.
Pour les sons factices que le détecteur considérait comme réels, les résultats de l'étude sur les humains n'étaient pas concluants. Les humains étaient précis dans environ 50 % des cas, ce qui indique qu'ils n'étaient pas sensibles au caractère factice des sons qui trompaient le détecteur. Les participants n'étaient peut-être pas en mesure de classer définitivement les sons qu'ils entendaient, les résultats reflétant des choix aléatoires plutôt que des réponses fiables.
Cependant, pour les sons réels que le détecteur a jugés faux, les réponses des humains étaient correctes dans environ 71 % des cas et étaient plus précises que celles du détecteur. Cette statistique révèle que les réponses n'étaient pas le fruit du hasard, mais plutôt la classification définitive et correcte des sons réels par le participant.
Heller conclut que ces résultats impliquent qu’il pourrait y avoir une sorte de signal dans ces sons environnementaux réels que les humains sont capables de détecter, mais que le détecteur ne parvient pas à reconnaître. Si les chercheurs parviennent à identifier ce signal hypothétique, les détecteurs de sons IA pourraient être améliorés pour augmenter leur précision.
Le détecteur de sons environnementaux et les résultats de Heller pourraient conduire au développement d’outils de détection d’IA plus complexes. Les détecteurs de sons IA antérieurs étaient conçus pour identifier uniquement la parole, mais avec le détecteur de sons environnementaux, les chercheurs pourraient éventuellement atteindre un point où les détecteurs peuvent analyser des enregistrements plus complexes de la parole et des sons environnementaux.
Des recherches supplémentaires visant à améliorer les outils de détection de l’IA sont essentielles pour suivre le rythme des technologies deepfake pilotées par l’IA, dont les capacités progressent rapidement.
« Nous sommes arrivés à un point où le public va sous-estimer cette capacité, et la situation s’améliore rapidement », a déclaré Heller. « Le pire scénario serait de se retrouver dans une société où l’IA est si avancée que les humains ne seraient plus capables de distinguer le réel de l’artificiel. Nous voulons être prêts avant que cela n’arrive. »
Heller a également mentionné l’importance de mettre en œuvre des politiques capables de réguler les composants multimédias pilotés par l’IA.
« Tout ce qui est généré à l’aide de l’IA devrait être signalé par un drapeau », a-t-elle suggéré.