OpenAI vient de nous rapprocher plus que jamais de 'Elle' : son nouveau modèle de voix nous accompagnera (et nous fera peut-être tomber amoureux)

ChatGPT a cinq voix et une ressemble à Scarlet Johansson. Il y a eu une controverse et OpenAI a décidé de la « mettre en pause »

La dernière nouveauté d’OpenAI est impressionnante. GPT-4o, son nouveau modèle d'IA, est capable de maintenir une conversation fluide, de comprendre ce qu'il voit à travers la caméra et ce que nous lui disons, et d'offrir des réponses vocales pratiquement en temps réel. C'est ce qui se rapproche le plus de parler à des machines et la question est : d'où vient la voix ? Est-ce une voix synthétique ou appartient-elle à quelqu’un de réel ? Pourquoi la voix de la démo ressemble-t-elle à celle de Scarlet Johansson dans « Her » ?

cinq voix. Depuis septembre 2023, ChatGPT a une voix. Enfin, pas de voix, des voix. Cinq, pour être exact : Breeze, Cove, Ember, Juniper et Sky. Ce sont des voix synthétiques dans le sens où il n'est pas possible de doubler chacun des mots et expressions qui peuvent être formés dans toutes les langues qu'elles prennent actuellement en charge (37, dont l'espagnol), mais derrière ces cinq voix il y a sont en effet de vraies personnes. OpenAI a expliqué d'où ils viennent.

Écarlate Johansson ? Lorsque OpenAI a fait la démonstration de GPT-4o, de nombreux utilisateurs pensaient que la voix ressemblait à celle de l'IA du film « Her » (dont le nom est Samantha, d'ailleurs). Mais non. Même si cela semble être le cas, la réalité est que cette voix est sur ChatGPT depuis longtemps et que son « nom » est Sky. Selon OpenAI, « ce n'est pas une imitation de Scarlet Johansson, mais appartient à une actrice professionnelle qui a utilisé sa voix naturelle ».

Cependant, la société, voyant la confusion, a décidé de suspendre l'utilisation de la voix Sky. Pour protéger votre vie privée, OpenAI n'a pas révélé le nom des doubleurs.

Exigences. La sélection de ces cinq voix a été très réfléchie. Début 2023, OpenAI s'est associé à « des directeurs de casting et des producteurs indépendants bien connus et primés » (dont les noms n'ont pas non plus été révélés) pour créer un ensemble de critères auxquels les voix devaient répondre. En fin de compte, leurs voix seront entendues par de nombreuses personnes. C'étaient:

  • Des acteurs issus d’horizons divers ou pouvant parler plusieurs langues
  • Une voix intemporelle
  • Une voix accessible qui inspire confiance
  • Une voix chaleureuse, attrayante, inspirante et charismatique avec un ton riche
  • Naturel et facile à écouter

400 comédiens, cinq sélectionnés. En mai 2023, l'agence a lancé un appel et a reçu environ 400 candidatures. Les acteurs ont reçu un script de réponses de type ChatGPT, telles que répondre à des questions de pleine conscience, réfléchir à des idées pour planifier un voyage ou avoir une conversation banale. 14 voix sont sélectionnées, qui ont ensuite été réduites à cinq. Les sessions d'enregistrement se sont déroulées entre juin et juillet. Comme expliqué par OpenAI :

« Tous les acteurs sont payés au-dessus des tarifs du marché, et cela continuera aussi longtemps que leurs voix seront utilisées dans nos produits. »

Autres voix connues avec des noms propres. Pour le moment, nous ne savons pas qui a exprimé ChatGPT, mais nous connaissons les noms d'autres personnes. Par exemple, la voix féminine sur Tiktok s'appelle Kat Callahan. La voix de Google Maps en espagnol est celle de Nikki García et dans le cas de Siri, sa voix originale en anglais était celle de Susan Bennett.

Images | Solen Feyissa sur Unsplash

À Simseo | Qu'est-ce qu'un jeton lorsque nous parlons d'IA et pourquoi est-il important que Gemini en prenne en charge un million