Les humains sont incapables de détecter plus d'un quart des échantillons de parole deepfake, selon des recherches

Les humains sont incapables de détecter plus d’un quart des échantillons de parole deepfake, selon des recherches

Crédit : domaine public Unsplash/CC0

De nouvelles recherches de l’UCL ont révélé que les humains n’étaient capables de détecter la parole générée artificiellement que 73% du temps, avec la même précision en anglais et en mandarin.

L’étude, publiée dans PLOS ONEest le premier à évaluer la capacité humaine à détecter la parole générée artificiellement dans une langue autre que l’anglais.

Les deepfakes sont des médias synthétiques destinés à ressembler à la voix ou à l’apparence d’une personne réelle. Ils entrent dans la catégorie de l’intelligence artificielle générative (IA), un type d’apprentissage automatique (ML) qui forme un algorithme pour apprendre les modèles et les caractéristiques d’un ensemble de données, comme la vidéo ou l’audio d’une personne réelle, afin qu’il puisse reproduire son ou image originale.

Alors que les premiers algorithmes de parole deepfake ont peut-être nécessité des milliers d’échantillons de la voix d’une personne pour pouvoir générer un son original, les derniers algorithmes pré-formés peuvent recréer la voix d’une personne en utilisant seulement un clip de trois secondes de sa voix. Les algorithmes open source sont disponibles gratuitement et même si une certaine expertise serait bénéfique, il serait possible pour un individu de les former en quelques jours.

La société technologique Apple a récemment annoncé un logiciel pour iPhone et iPad qui permet à un utilisateur de créer une copie de sa voix en utilisant 15 minutes d’enregistrements.

Des chercheurs de l’UCL ont utilisé un algorithme de synthèse vocale (TTS) formé sur deux ensembles de données accessibles au public, l’un en anglais et l’autre en mandarin, pour générer 50 échantillons de parole deepfake dans chaque langue. Ces échantillons étaient différents de ceux utilisés pour entraîner l’algorithme afin d’éviter la possibilité qu’il reproduise l’entrée d’origine.

Ces échantillons générés artificiellement et des échantillons authentiques ont été joués à 529 participants pour voir s’ils pouvaient détecter la vraie chose à partir d’un faux discours. Les participants n’ont pu identifier le faux discours que 73% du temps, ce qui ne s’est amélioré que légèrement après avoir reçu une formation pour reconnaître les aspects du deepfake speech.

Kimberly Mai (UCL Computer Science), première auteure de l’étude, a déclaré : « Nos résultats confirment que les humains sont incapables de détecter de manière fiable le discours deepfake, qu’ils aient ou non reçu une formation pour les aider à repérer le contenu artificiel. Il convient également de noter que le les échantillons que nous avons utilisés dans cette étude ont été créés avec des algorithmes relativement anciens, ce qui soulève la question de savoir si les humains seraient moins capables de détecter le discours deepfake créé à l’aide de la technologie la plus sophistiquée disponible aujourd’hui et dans le futur.

La prochaine étape pour les chercheurs consiste à développer de meilleurs détecteurs de parole automatisés dans le cadre des efforts continus visant à créer des capacités de détection pour contrer la menace de l’audio et de l’imagerie générés artificiellement.

Bien que la technologie audio générative de l’IA présente des avantages, tels qu’une plus grande accessibilité pour ceux dont la parole peut être limitée ou qui peuvent perdre la voix en raison d’une maladie, on craint de plus en plus que cette technologie puisse être utilisée par des criminels et des États-nations pour causer des dommages importants. aux individus et aux sociétés.

Les cas documentés de discours deepfake utilisés par des criminels incluent un incident de 2019 où le PDG d’une société énergétique britannique a été convaincu de transférer des centaines de milliers de livres à un faux fournisseur par un enregistrement deepfake de la voix de son patron.

Le professeur Lewis Griffin (UCL Computer Science), auteur principal de l’étude, a déclaré : « Avec la technologie d’intelligence artificielle générative de plus en plus sophistiquée et bon nombre de ces outils librement disponibles, nous sommes sur le point de voir de nombreux avantages ainsi que des risques. Il serait prudent pour les gouvernements et les organisations de développer des stratégies pour faire face à l’abus de ces outils, certes, mais nous devrions également reconnaître les possibilités positives qui se profilent à l’horizon. »