Les deepfakes audio alimentent les craintes de désinformation électorale

La course à la Maison Blanche en 2024 fait face à la perspective d’un déluge de désinformation basée sur l’IA, avec un appel automatisé se faisant passer pour le président américain Joe Biden attisant déjà une inquiétude particulière concernant les deepfakes audio.

« Quel tas de bêtises », dit le message téléphonique, usurpant numériquement la voix de Biden et faisant écho à l’une de ses phrases emblématiques.

L’appel automatisé a exhorté les habitants du New Hampshire à ne pas voter lors de la primaire démocrate le mois dernier, incitant les autorités de l’État à lancer une enquête sur une éventuelle suppression des électeurs.

Cela a également déclenché des demandes de la part des militants en faveur de garde-fous plus stricts autour des outils d’intelligence artificielle générative ou d’une interdiction pure et simple des appels automatisés.

Les chercheurs en désinformation craignent une utilisation abusive généralisée des applications basées sur l’IA au cours d’une année électorale charnière, en raison de la prolifération d’outils de clonage vocal, bon marché, faciles à utiliser et difficiles à retracer.

« C’est certainement la pointe de l’iceberg », a déclaré à l’AFP Vijay Balasubramaniyan, directeur général et co-fondateur de la société de cybersécurité Pindrop.

« Nous pouvons nous attendre à voir beaucoup plus de deepfakes tout au long de ce cycle électoral. »

Une analyse détaillée publiée par Pindrop indique qu’un système de synthèse vocale développé par la startup de clonage vocal AI ElevenLabs a été utilisé pour créer l’appel automatisé Biden.

Le scandale survient alors que les militants des deux côtés de l’allée politique américaine exploitent des outils avancés d’IA pour diffuser des messages de campagne efficaces et que les investisseurs technologiques injectent des millions de dollars dans des startups de clonage vocal.

Balasubramaniyan a refusé de dire si Pindrop avait partagé ses conclusions avec ElevenLabs, qui a annoncé le mois dernier un cycle de financement auprès d’investisseurs qui, selon Bloomberg News, a donné à l’entreprise une valorisation de 1,1 milliard de dollars.

ElevenLabs n’a pas répondu aux demandes répétées de commentaires de l’AFP. Son site Web conduit les utilisateurs vers un générateur gratuit de synthèse vocale pour « créer instantanément des voix naturelles d’IA dans n’importe quelle langue ».

Conformément à ses directives de sécurité, la société a déclaré que les utilisateurs étaient autorisés à générer des clones vocaux de personnalités politiques telles que Donald Trump sans leur permission s’ils « expriment de l’humour ou des moqueries » d’une manière qui indique « clairement à l’auditeur que ce qu’il entend est une parodie et non un contenu authentique.

« Chaos électoral »

Les régulateurs américains envisagent de rendre illégaux les appels automatisés générés par l’IA, le faux appel de Biden donnant un nouvel élan à cet effort.

« Le moment politique du deepfake est arrivé », a déclaré Robert Weissman, président du groupe de défense Public Citizen.

« Les décideurs politiques doivent se dépêcher de mettre en place des protections, sinon nous serons confrontés à un chaos électoral. Le deepfake du New Hampshire rappelle les nombreuses façons dont les deepfakes peuvent semer la confusion. »

Les chercheurs s’inquiètent de l’impact des outils d’IA qui créent des vidéos et des textes si apparemment réels que les électeurs pourraient avoir du mal à déchiffrer la vérité de la fiction, sapant ainsi la confiance dans le processus électoral.

Mais ce sont les deepfakes audio utilisés pour usurper l’identité ou diffamer des célébrités et des hommes politiques du monde entier qui ont suscité le plus d’inquiétude.

« De toutes les surfaces (vidéo, image, audio) que l’IA peut utiliser pour supprimer les électeurs, l’audio est la plus grande vulnérabilité », a déclaré à l’AFP Tim Harper, analyste politique principal au Center for Democracy & Technology.

« Il est facile de cloner une voix grâce à l’IA, et elle est difficile à identifier. »

« Intégrité électorale »

La facilité de créer et de diffuser de faux contenus audio complique un paysage politique déjà hyperpolarisé, sapant la confiance dans les médias et permettant à quiconque d’affirmer que « des preuves fondées sur des faits ont été fabriquées », a déclaré à l’AFP Wasim Khaled, directeur général de Blackbird.AI.

Ces préoccupations sont monnaie courante alors que la prolifération des outils audio d’IA dépasse les logiciels de détection.

La société chinoise ByteDance, propriétaire de la très populaire plateforme TikTok, a récemment dévoilé StreamVoice, un outil d’IA permettant de convertir en temps réel la voix d’un utilisateur en toute alternative souhaitée.

« Même si les attaquants ont utilisé ElevenLabs cette fois, il s’agira probablement d’un système d’IA générative différent lors des futures attaques », a déclaré Balasubramaniyan.

« Il est impératif que ces outils disposent de suffisamment de garanties. »

Balasubramaniyan et d’autres chercheurs ont recommandé d’intégrer des filigranes audio ou des signatures numériques dans des outils comme protections possibles ainsi qu’une réglementation qui les rend disponibles uniquement pour les utilisateurs vérifiés.

« Même avec ces actions, détecter quand ces outils sont utilisés pour générer du contenu préjudiciable qui viole vos conditions de service est très difficile et très coûteux », a déclaré Harper.

« (Cela) nécessite un investissement dans la confiance et la sécurité, ainsi qu’un engagement à construire en considérant l’intégrité électorale comme un risque. »