L'utilisation par ChatGPT d'une similaire à Scarlett Johansson reflète une histoire troublante de stéréotypes de genre dans la technologie

L'actrice Scarlett Johansson a publié cette semaine une déclaration exprimant sa colère et son inquiétude face au fait qu'OpenAI utilise une voix « étrangement similaire » à la sienne comme voix par défaut pour ChatGPT.

La voix en question, appelée Sky, est disponible pour les utilisateurs depuis septembre 2023, mais la ressemblance avec la voix de Johansson est devenue plus claire la semaine dernière lorsqu'OpenAI a présenté un modèle mis à jour appelé GPT-4o. Johansson affirme que le PDG d'OpenAI, Sam Altman, lui avait déjà demandé si elle fournirait sa voix pour ChatGPT, et qu'elle avait décliné l'invitation.

Le ton chaleureux et enjoué de la voix de Sky présente une ressemblance frappante avec la compagne numérique appelée Samantha dans le film. Son (2013), exprimé par Johansson.

Bien qu'Altman ait depuis affirmé que la voix de Sky n'était jamais censée ressembler à celle de Johansson, il a semblé faire allusion à ce lien en tweetant simplement le mot « elle » le 13 mai 2024, le jour du lancement de GPT-4o.

OpenAI a depuis expliqué son processus de création de la voix de Sky dans un article de blog, déclarant que la voix était fournie par « une actrice professionnelle différente utilisant sa propre voix naturelle ». Cependant, comme des échantillons audio de plus en plus petits peuvent être utilisés pour générer des voix synthétiques, le clonage de la voix d'une personne sans son consentement est plus facile que jamais.

En tant que spécialiste des études sonores, je m'intéresse à la manière dont la technologie de l'IA introduit de nouvelles questions et préoccupations concernant la voix et l'identité. Mes recherches situent les développements récents, les angoisses et les aspirations concernant l’IA dans des histoires plus longues de la voix et de la technologie.

Voix volées

Ce n’est pas la première fois qu’un artiste s’oppose à une simulation sans licence de sa voix.

En 1988, Bette Midler a intenté une action en justice contre Ford Motor Company pour avoir utilisé une voix ressemblant à la sienne dans une série de publicités. La Cour d'appel des États-Unis pour le neuvième circuit a finalement statué en sa faveur, le juge de circuit John T. Noonan écrivant dans sa décision que « usurper l'identité de sa voix, c'est pirater son identité ».

Tom Waits a lancé un procès similaire et réussi contre Frito-Lay après avoir entendu ce qui ressemblait à sa propre voix grave dans une publicité radiophonique pour Doritos. Comme le décrit le musicologue Mark C. Samples, ce cas « élève[ed] du timbre vocal d'une personne jusqu'au niveau de sa représentation visuelle » aux yeux de la loi.

Les législateurs commencent tout juste à s’attaquer aux défis et aux risques qui accompagnent l’adoption croissante de l’IA.

Par exemple, une décision récente de la Federal Communications Commission a interdit les appels automatisés utilisant des voix générées par l’IA. En l’absence de cadres politiques et juridiques plus spécifiques, ces exemples de mimétisme vocal continuent de servir de précédents importants.

Chatbots et genre

La référence apparente d'OpenAI au film Son dans la conception de la voix de Sky situe également ChatGPT dans une tradition de longue date consistant à attribuer des voix et des personnages féminins aux ordinateurs.

Le premier chatbot a été construit en 1966 par le professeur Joseph Weizenbaum du MIT. Appelé ELIZA, Weizenbaum l'a conçu pour communiquer avec ses utilisateurs de la même manière qu'un psychothérapeute. ELIZA a été une influence et une référence pour les assistants numériques d'aujourd'hui, qui ont souvent des voix féminisées par défaut. Lors de son lancement en 2011, Siri racontait des histoires sur ELIZA comme s'il s'agissait d'une amie.

De nombreux spécialistes des technosciences, dont Thao Phan et Heather Woods, ont critiqué la manière dont les entreprises technologiques font appel aux stéréotypes de genre dans la conception des assistants vocaux.

Les spécialistes en communication Jessa Lingel et Kate Crawford suggèrent que les assistants vocaux invoquent le rôle historiquement féminisé de la secrétaire, car ils entreprennent un travail à la fois administratif et émotionnel. En faisant référence à ce trope soumis, ils soutiennent que les entreprises technologiques cherchent à détourner l’attention des utilisateurs de la surveillance et de l’extraction de données effectuées par les assistants vocaux.

OpenAI affirme que lors du casting des voix de ChatGPT, ils recherchaient « une voix accessible qui inspire confiance ». Il est révélateur que la voix que l’entreprise a choisie pour que les utilisateurs se sentent à l’aise face aux progrès rapides de la technologie de l’IA ressemble à celle d’une femme. Même si les capacités conversationnelles des assistants vocaux deviennent beaucoup plus avancées, la voix de Sky démontre que l'industrie technologique n'a pas encore quitté ces tropes régressifs.

Protéger nos voix

La déclaration de Johansson se termine par un appel à « la transparence et à l'adoption d'une législation appropriée » pour protéger la ressemblance vocale et l'identité. En effet, il sera intéressant de voir quelles ramifications juridiques et politiques pourraient découler de ce cas très médiatisé de simulation vocale non autorisée.

Cependant, les célébrités ne sont pas les seules à s’inquiéter de la manière dont leurs voix sont utilisées par les systèmes d’IA. Nos voix sont déjà enregistrées et utilisées pour former l'IA par des plateformes comme Zoom et Otter.ai et utilisées dans la formation d'assistants virtuels comme Alexa.

L'usurpation illicite de la voix de Johansson par l'IA peut ressembler à une histoire issue d'un futur dystopique, mais elle est mieux comprise dans le contexte des débats en cours sur la voix, le genre et la vie privée. Ce n’est pas un signe de ce qui va arriver, mais de ce qui existe déjà.

Cet article est republié à partir de The Conversation sous une licence Creative Commons. Lisez l'article original.