La falsification profonde de la voix du directeur est le dernier cas d'utilisation de l'IA à des fins nuisibles

L'affaire pénale la plus récente impliquant l'intelligence artificielle a émergé la semaine dernière dans un lycée du Maryland, où la police affirme qu'un directeur a été qualifié de raciste à cause d'un faux enregistrement de sa voix.

Cette affaire est une autre raison pour laquelle tout le monde – et pas seulement les politiciens et les célébrités – devrait s’inquiéter de cette technologie de plus en plus puissante et de plus en plus fausse, disent les experts.

« Tout le monde est vulnérable aux attaques, et n'importe qui peut attaquer », a déclaré Hany Farid, professeur à l'Université de Californie à Berkeley, qui se concentre sur la criminalistique numérique et la désinformation.

Voici ce qu’il faut savoir sur certaines des dernières utilisations de l’IA à des fins nuisibles :

L'IA est devenue très accessible

La manipulation des sons et des images enregistrés n'est pas nouvelle. Mais la facilité avec laquelle quelqu’un peut modifier des informations est un phénomène récent. Il en va de même pour la possibilité de se propager rapidement sur les réseaux sociaux.

Le faux clip audio qui usurpe l'identité du directeur est un exemple d'un sous-ensemble de l'intelligence artificielle connu sous le nom d'IA générative. Il peut créer de nouvelles images, vidéos et clips audio hyperréalistes. Il est moins cher et plus facile à utiliser ces dernières années, réduisant ainsi les barrières pour toute personne disposant d'une connexion Internet.

« Particulièrement au cours de l'année dernière, n'importe qui – et je dis bien n'importe qui – peut accéder à un service en ligne », a déclaré Farid, professeur à Berkeley. « Et soit gratuitement, soit pour quelques dollars par mois, ils peuvent télécharger 30 secondes de la voix de quelqu'un. »

Ces secondes peuvent provenir d’un message vocal, d’une publication sur les réseaux sociaux ou d’un enregistrement clandestin, a déclaré Farid. Les algorithmes d’apprentissage automatique capturent à quoi ressemble une personne. Et le discours cloné est ensuite généré à partir de mots tapés sur un clavier.

La technologie ne fera que devenir plus puissante et plus facile à utiliser, y compris pour la manipulation vidéo, a-t-il déclaré.

Que s'est-il passé dans le Maryland ?

Les autorités du comté de Baltimore ont déclaré que Dazhon Darien, le directeur sportif de Pikesville High, avait cloné la voix du principal Eric Eiswert.

Le faux enregistrement contenait des commentaires racistes et antisémites, a indiqué la police. Le fichier sonore est apparu dans un e-mail dans les boîtes de réception de certains enseignants avant de se diffuser sur les réseaux sociaux.

L'enregistrement a fait surface après qu'Eiswert ait fait part de ses inquiétudes concernant les performances professionnelles de Darien et l'utilisation abusive présumée des fonds de l'école, a indiqué la police.

Le faux son a forcé Eiswert à prendre un congé, tandis que la police gardait sa maison, ont indiqué les autorités. Des appels téléphoniques en colère ont inondé l’école, tandis que des messages haineux se sont accumulés sur les réseaux sociaux.

Les détectives ont demandé à des experts extérieurs d'analyser l'enregistrement. L'un d'eux a déclaré qu'il « contenait des traces de contenu généré par l'IA avec une modification humaine après coup », selon les archives judiciaires.

Un deuxième avis de Farid, le professeur de Berkeley, a révélé que « plusieurs enregistrements avaient été assemblés », selon les archives.

Farid a déclaré à l'Associated Press que des questions subsistent sur la manière exacte dont cet enregistrement a été créé, et il n'a pas confirmé qu'il avait été entièrement généré par l'IA.

Mais étant donné les capacités croissantes de l’IA, Farid a déclaré que le cas du Maryland sert toujours de « canari dans la mine de charbon », quant à la nécessité de mieux réglementer cette technologie.

Pourquoi l’audio est-il si préoccupant ?

De nombreux cas de désinformation générée par l’IA ont été audio.

Cela s’explique en partie par le fait que la technologie s’est améliorée si rapidement. Les oreilles humaines ne peuvent pas non plus toujours identifier les signes révélateurs de manipulation, tandis que les divergences dans les vidéos et les images sont plus faciles à repérer.

Certaines personnes ont cloné par téléphone les voix d'enfants prétendument kidnappés pour obtenir une rançon auprès de leurs parents, selon les experts. Un autre s’est fait passer pour le directeur général d’une entreprise qui avait un besoin urgent de fonds.

Au cours de la primaire du New Hampshire de cette année, des appels automatisés générés par l'IA ont usurpé l'identité de la voix du président Joe Biden et ont tenté de dissuader les électeurs démocrates de voter. Les experts mettent en garde contre une recrudescence de la désinformation générée par l’IA et ciblant les élections cette année.

Mais les tendances inquiétantes vont au-delà de l'audio, comme les programmes qui créent de fausses images nues de personnes habillées sans leur consentement, y compris des mineurs, préviennent les experts. La chanteuse Taylor Swift a récemment été prise pour cible.

Ce qui peut être fait?

La plupart des fournisseurs de technologies de génération vocale d’IA déclarent interdire toute utilisation nuisible de leurs outils. Mais l’auto-application varie.

Certains fournisseurs exigent une sorte de signature vocale ou demandent aux utilisateurs de réciter un ensemble unique de phrases avant de pouvoir cloner une voix.

Les grandes entreprises technologiques, telles que Meta, société mère de Facebook, et OpenAI, créateur de ChatGPT, n'autorisent qu'un petit groupe d'utilisateurs de confiance à expérimenter la technologie en raison des risques d'abus.

Farid a déclaré qu’il fallait faire davantage. Par exemple, toutes les entreprises devraient exiger des utilisateurs qu’ils fournissent des numéros de téléphone et des cartes de crédit afin de pouvoir retracer les fichiers jusqu’à ceux qui utilisent mal la technologie.

Une autre idée consiste à exiger que les enregistrements et les images portent un filigrane numérique.

« Vous modifiez l'audio d'une manière imperceptible pour le système auditif humain, mais d'une manière qui peut être identifiée par un logiciel en aval », a déclaré Farid.

Alexandra Reeve Givens, PDG du Center for Democracy & Technology, a déclaré que l'intervention la plus efficace est l'action des forces de l'ordre contre l'utilisation criminelle de l'IA. Une plus grande éducation des consommateurs est également nécessaire.

Une autre priorité devrait être d’encourager une conduite responsable parmi les entreprises d’IA et les plateformes de médias sociaux. Mais ce n’est pas aussi simple que d’interdire l’IA générative.

« Il peut être compliqué d'ajouter une responsabilité juridique car, dans de nombreux cas, il peut y avoir des utilisations positives ou positives de la technologie », a déclaré Givens, citant des programmes de traduction et de lecture de livres.

Un autre défi consiste à trouver un accord international sur l'éthique et les lignes directrices, a déclaré Christian Mattmann, directeur du groupe Information Retrieval & Data Science à l'Université de Californie du Sud.

« Les gens utilisent l'IA différemment selon le pays dans lequel ils se trouvent », a déclaré Mattmann. « Et il ne s'agit pas seulement des gouvernements, mais également des citoyens. La culture est donc importante. »