Une nouvelle recherche lutte contre la menace croissante des deepfakes audio
Chaque jour qui passe, il semble de plus en plus difficile de faire confiance à ce que vous voyez et entendez sur Internet. Les deepfakes et les sons falsifiés sont devenus plus faciles à créer en appuyant simplement sur un bouton. De nouvelles recherches menées par trois étudiants et anciens élèves de l’École d’information permettront de déterminer facilement l’authenticité d’un clip audio.
Romit Barua, Gautham Koorma et Sarah Barrington (tous MIMS ’23) ont d’abord présenté leurs recherches sur le clonage vocal dans le cadre de leur projet final pour le programme de maîtrise en gestion de l’information et systèmes. Barrington est maintenant titulaire d’un doctorat. étudiant à l’école I.
En collaboration avec le professeur Hany Farid, l’équipe a étudié différentes techniques permettant de différencier une voix réelle d’une voix clonée conçue pour usurper l’identité d’une personne spécifique.
« Lorsque cette équipe m’a contacté pour la première fois au début du printemps 2022, je leur ai dit de ne pas s’inquiéter des deepfake audio, car le clonage de la voix n’était tout simplement pas très bon et il faudrait un certain temps avant que nous devions nous en préoccuper. J’avais tort, et un Quelques mois plus tard, le clonage vocal basé sur l’IA s’est révélé incroyablement efficace, révélant la rapidité avec laquelle cette technologie évolue », a déclaré le professeur Farid. « L’équipe a réalisé un travail important en présentant une série d’idées pour détecter la nouvelle menace du deepfake audio. »
Pour commencer, l’équipe a d’abord analysé des échantillons audio de voix réelles et fausses en examinant les caractéristiques ou modèles de perception pouvant être identifiés visuellement. À travers cet objectif, ils se sont concentrés sur l’observation des ondes audio et ont remarqué que les vraies voix humaines avaient souvent plus de pauses et variaient en volume tout au long du clip. En effet, les gens ont tendance à utiliser des mots de remplissage et peuvent s’éloigner du microphone pendant l’enregistrement.
En analysant ces caractéristiques, l’équipe a pu identifier les pauses et l’amplitude (cohérence et variation de la voix) comme facteurs clés à rechercher pour tenter de déterminer l’authenticité d’une voix. Cependant, ils ont également constaté que cette méthode, bien que facile à comprendre, pouvait donner des résultats moins précis.
L’équipe a ensuite adopté une approche plus détaillée, en examinant les caractéristiques spectrales générales à l’aide d’un logiciel d’analyse des ondes audio « prêt à l’emploi ». Le programme extrait plus de 6 000 caractéristiques, notamment des statistiques récapitulatives (moyenne, écart type, etc.), des coefficients de régression, etc., avant de réduire ce nombre aux 20 plus importantes. En analysant ces fonctionnalités extraites et en les comparant à d’autres clips audio, Barrington, Barua et Koorma ont utilisé ces fonctionnalités pour créer une méthode plus précise.
Cependant, leurs résultats les plus précis ont été obtenus avec leurs fonctionnalités apprises, ce qui implique la formation d’un modèle d’apprentissage en profondeur. Pour ce faire, l’équipe transmet l’audio brut au modèle, à partir duquel elle traite et extrait des représentations multidimensionnelles, appelées intégrations. Une fois généré, le modèle utilise ces intégrations pour distinguer l’audio réel et synthétique.
Cette méthode a systématiquement surpassé les deux techniques précédentes en termes de précision et n’a enregistré qu’une erreur de 0 % dans les paramètres de laboratoire. Malgré le taux de précision élevé, l’équipe a noté que cette méthode pourrait être difficile à comprendre sans un contexte approprié.
L’équipe estime que cette recherche pourrait répondre aux préoccupations croissantes concernant l’utilisation du clonage vocal et des deepfakes à des fins néfastes. « Le clonage vocal est l’un des premiers cas où nous assistons à des deepfakes ayant une utilité réelle, qu’il s’agisse de contourner la vérification biométrique d’une banque ou d’appeler un membre de la famille pour lui demander de l’argent », a expliqué Barrington.
« Ce ne sont plus seulement les dirigeants mondiaux et les célébrités qui sont à risque, mais aussi les gens ordinaires. Ce travail représente une étape importante dans le développement et l’évaluation de systèmes de détection d’une manière robuste et évolutive pour le grand public. »
Après avoir publié cette recherche en ligne sur le arXiv serveur de préimpression, Barrington, Barua et Koorma ont été invités à présenter leurs résultats lors de diverses conférences, notamment le Sommet du prix Nobel et la conférence IEEE WIFS (Workshop in Information Forensics and Security) à Nuremberg, en Allemagne.
« WIFS a fourni un excellent forum pour dialoguer avec les chercheurs en criminalistique numérique, approfondissant nos connaissances des techniques médico-légales de pointe grâce à des présentations détaillées et des discussions enrichissantes entre pairs », a déclaré Koorma.
« [It also] nous a donné une excellente opportunité de voir les recherches des leaders dans notre domaine et de trouver un terrain d’entente pour une future collaboration dans le domaine de la détection des deepfakes », a ajouté Barua.
Alors que la société est aux prises avec les implications des deepfakes qui affectent non seulement les dirigeants et célébrités du monde mais aussi les individus ordinaires, cette recherche propose une approche robuste et évolutive pour protéger le grand public.
L’exploration des caractéristiques perceptuelles, l’analyse spectrale et l’exploitation de modèles avancés d’apprentissage profond ont donné des résultats prometteurs, et le travail de l’équipe constitue une étape cruciale vers le rétablissement de la confiance dans le contenu audio en ligne et l’atténuation des risques posés par les avancées technologiques.