La gaffe de Johansson d'OpenAI met le clonage de voix sous les projecteurs

OpenAI a été contraint de s'excuser auprès de l'actrice Scarlett Johansson la semaine dernière pour avoir utilisé sa voix – ou quelque chose de très similaire – sur son dernier chatbot, mettant ainsi en lumière la technologie de clonage vocal.

Bien qu'OpenAI ait nié que la voix utilisée était celle de Johansson, leur cas n'a pas été aidé par le PDG Sam Altman signalant le nouveau modèle avec un message d'un mot sur les réseaux sociaux : « Elle ».

Johansson a interprété un personnage d'IA dans le film « Her », qui, selon Altman, était son film préféré sur la technologie.

Dès le début, le clonage vocal de l’IA s’est révélé problématique.

L’année dernière, la société britannique Elevenlabs est devenue virale pour toutes les mauvaises raisons en lançant son logiciel de clonage vocal.

Les farceurs d'Internet ont immédiatement commencé à chasser les célébrités falsifiées : la star d'Harry Potter, Emma Watson, a été montrée en train de lire Mein Kampf d'Hitler.

Les forces de l’ordre ont averti que les clones d’IA pourraient être utilisés pour extorquer de l’argent à des proches par téléphone.

La technologie s’est développée rapidement au cours de la dernière année, devenant beaucoup plus réaliste et nuancée.

L'entrepreneur danois Victor Riparbelli, PDG de la société britannique d'IA Synthesia, a déclaré à l'AFP que cela était dû en grande partie à un programme appelé Tortoise, lancé il y a deux ans.

Les développeurs du programme ont injecté des milliers d'heures de données vocales dans leur modèle de manière non structurée et ont découvert qu'il apprenait non seulement quoi dire, mais aussi comment le dire.

« C'était un changement de paradigme assez important », a déclaré Riparbelli en marge de la conférence VivaTech de la semaine dernière à Paris.

Tortoise était un programme open source et Elevenlabs a été le premier à le commercialiser en l'utilisant.

OpenAI utilise des systèmes similaires bien qu'ils ne divulguent aucun détail.

'Pas très bien'

Une grande partie de la controverse autour du clonage vocal s’est concentrée sur les inquiétudes concernant l’utilisation abusive du logiciel par des personnes.

Mais la plainte contre OpenAI est inhabituelle car c'est l'entreprise elle-même qui est accusée de jouer vite et librement.

« C'est vraiment dommage qu'OpenAI ait fait cela, vraiment pas très bien », a déclaré à l'AFP Katya Laine, PDG de TALKR.ai, chez VivaTech.

« S'ils ont réellement cloné sa voix sans qu'elle le sache, je pense que c'est très très mauvais », a déclaré Riparbelli.

Les deux entrepreneurs font partie des centaines d’entrepreneurs qui exploitent les programmes vocaux d’IA à des fins qui, selon eux, rendront les entreprises plus efficaces.

L'entreprise de Laine fournit des assistants vocaux virtuels, essentiellement des agents de service client IA.

Elle a déclaré que le système de son entreprise pouvait désormais résoudre 25 à 30 pour cent des appels sans aucune intervention humaine.

Synthesia est spécialisée dans les avatars vidéo, qui, selon Riparbelli, permettent à tout employé de bureau de transformer du texte ou des diapositives en vidéo réalisée par une IA réaliste.

Riparbelli et Laine permettent à leurs clients d'utiliser leurs propres avatars, des produits disponibles dans le commerce ou ceux fournis par OpenAI et Elevenlabs.

Riparbelli a déclaré que Synthesia avait utilisé des acteurs dont les portraits et les voix étaient autorisés pour deux ans avec une option de renouvellement après la période initiale.

Les problèmes surviennent si les voix des acteurs sont utilisées sans leur consentement.

« Étrange précédent »

Le fiasco a éclipsé une conférence de développeurs à Paris la semaine dernière, au cours de laquelle OpenAI présentait une suite de nouveaux outils.

Devant un grand écran dans un auditorium, Romain Huet, responsable de l'expérience développeur d'OpenAI, discutait tranquillement dans son téléphone.

Quelques secondes plus tard, son court extrait de voix avait été traité et pouvait être entendu commenter une vidéo générée, en cinq langues.

La manifestation a montré à quelle vitesse le secteur évolue, mais les gros titres étaient déjà écrits.

Le Washington Post a demandé dans un bulletin d'information « À quel point OpenAI est-il stupide? », D'autres commentateurs suggéraient que le prodige Altman n'était rien de plus qu'un bonimenteur.

Néanmoins, Riparbelli était ouvert à l'argument d'OpenAI selon lequel ils avaient utilisé un autre acteur qui ressemblait simplement à Johansson.

« Si ce n'est pas elle mais quelqu'un qui lui ressemble beaucoup… où tracez-vous cette ligne », a demandé Riparbelli.

« S'ils ne sont pas autorisés à utiliser quelqu'un qui lui ressemble beaucoup, cela crée un précédent très étrange. »