Nouvelle technique d’IA pour détecter les deepfakes audio

Des chercheurs de l'agence scientifique nationale australienne CSIRO, de la Federation University Australia et de l'Université RMIT ont développé une méthode pour améliorer la détection des deepfakes audio.

La nouvelle technique, Rehearsal with Auxiliary-Informed Sampling (RAIS), est conçue pour la détection des deepfakes audio, une menace croissante dans les risques de cybercriminalité tels que le contournement des systèmes d'authentification biométrique vocale, l'usurpation d'identité et la désinformation. Il détermine si un clip audio est réel ou généré artificiellement (un « deepfake ») et maintient les performances au fil du temps à mesure que les types d'attaques évoluent. La technologie est publiée sur le arXiv serveur de préimpression.

En Italie, plus tôt cette année, une voix clonée par l'IA de son ministre de la Défense a demandé une « rançon » d'un million d'euros à d'éminents dirigeants d'entreprises, convainquant certains de payer. Ce n’est qu’un exemple parmi tant d’autres, soulignant la nécessité de détecteurs de deepfake audio.

À mesure que la technologie audio deepfake progresse rapidement, les nouvelles « techniques de contrefaçon » ne ressemblent souvent en rien aux anciennes.

« Nous voulons que ces systèmes de détection apprennent les nouveaux deepfakes sans avoir à entraîner à nouveau le modèle à partir de zéro. Si vous ajustez simplement les nouveaux échantillons, le modèle oubliera les anciens deepfakes qu'il connaissait auparavant », a déclaré le co-auteur, le Dr Kristen Moore de Data61 du CSIRO.

« RAIS résout ce problème en sélectionnant et en stockant automatiquement un ensemble restreint mais diversifié d'exemples passés, y compris des caractéristiques audio cachées que les humains ne remarqueront peut-être même pas, pour aider l'IA à apprendre les nouveaux styles de deepfake sans oublier les anciens », a expliqué le Dr Moore.

RAIS utilise un processus de sélection intelligent alimenté par un réseau qui génère des « étiquettes auxiliaires » pour chaque échantillon audio. Ces étiquettes aident à identifier un ensemble diversifié et représentatif d’échantillons audio à conserver et à répéter. En incorporant des étiquettes supplémentaires au-delà des simples balises « fausses » ou « réelles », RAIS garantit un mélange plus riche de données d'entraînement, améliorant ainsi sa capacité à se souvenir et à s'adapter au fil du temps.

Surpassant les autres méthodes, RAIS atteint le taux d'erreur moyen le plus bas de 1,95 % sur une séquence de cinq expériences. Le code, disponible sur GitHub, reste efficace avec une petite mémoire tampon et est conçu pour maintenir la précision à mesure que les attaques deviennent plus sophistiquées.

« Les deepfakes audio évoluent rapidement et les méthodes de détection traditionnelles ne peuvent pas suivre le rythme », a déclaré Falih Gozi Febrinanto, titulaire d'un récent doctorat. diplômé de la Federation University Australia. « RAIS aide le modèle à conserver ce qu'il a appris et à s'adapter aux nouvelles attaques. Globalement, il réduit le risque d'oubli et améliore sa capacité à détecter les deepfakes. »

« Notre approche améliore non seulement les performances de détection, mais rend également l'apprentissage continu pratique pour les applications du monde réel. En capturant toute la diversité des signaux audio, RAIS établit une nouvelle norme en matière d'efficacité et de fiabilité », a déclaré le Dr Moore.