Ils ont volé la voix de Stephen Fry avec ses livres audio Harry Potter. Désormais, une IA le remplace dans les documentaires

Stephen Fry est l’une des légendes de la comédie, mais il n’est probablement pas du tout amusé par ce qu’il a découvert ces jours-ci. C’est quelque chose qui met en évidence la menace de l’IA en tant qu’outil, parce que quelqu’un lui a simplement volé sa voix.

Je ne suis pas celui de ce documentaire. C’est ce qu’ils disent dans Deadline, indiquant comment l’acteur, écrivain et comédien britannique vétéran – 66 ans – a découvert que quelqu’un lui avait volé sa voix. Il l’a raconté au CogX Festival à Londres, lorsque la voix de Fry ressemblait à celle du narrateur dans un extrait d’un documentaire. Mais il n’avait rien fait de tel.

Tout cela grâce à (ou à cause de) Harry Potter. « Je n’ai pas prononcé un seul de ces mots », a expliqué l’acteur. « C’était une machine. Et oui, cela m’a étonné. Ils ont utilisé ma lecture des sept volumes d’Harry Potter, et à partir de cet ensemble de données, une IA de ma voix a été créée et a fait cette nouvelle narration. »

(Dangereux) Deepfakes personnalisés. L’acteur lui-même a voulu expliquer ce type de technologie au public. « Ce que vous avez entendu n’est pas le résultat d’un mélange, cela vient d’une voix artificielle et flexible dans laquelle les mots sont modulés pour s’adapter au sens de chaque phrase. » Comme il l’a reconnu, sa voix pouvait être utilisée pour n’importe quoi, « d’un appel à prendre d’assaut le Parlement jusqu’à la pornographie explicite, tout cela à mon insu et sans ma permission ».

Ignorance. Une autre surprise pour Fry était que ce type de technologie et ce qu’elle est capable de faire étaient assez inconnus dans l’industrie. Ses propres agents n’étaient pas au courant de ses capacités. Dès qu’il l’a découvert, il a déclaré : « Je l’ai envoyé à mes agents des deux côtés de l’Atlantique et ils sont devenus fous : ils ne savaient pas qu’une telle chose était possible. »

Et les choses vont empirer. Le problème ne vient pas seulement de l’audio, mais comme l’a souligné Stephen Fry, plus tard, la vidéo et une vague de deepfakes inquiétants arriveront également. « Il ne faudra pas longtemps avant que les vidéos deepfakes soient tout aussi convaincantes. » Pour lui, l’état actuel de la technologie est comparable à celui de la première automobile : « impressionnant, mais pas le produit final ». Ce que nous avons n’est pas ce qui sera, a-t-il ajouté.

Le danger des utilisations frauduleuses. Ce qui s’est produit avec la voix de Stephen Fry est également réalisable pour de nombreuses autres personnes dont les voix peuvent être collectées, téléchargées et utilisées pour former d’étonnants systèmes d’intelligence artificielle. Il viendra bientôt un moment où nous ne devrions probablement plus croire tout ce que nous entendons… juste au cas où. Et puis nous ne pourrons pas non plus croire ce que nous voyons.