Nous avons essayé la conversation de Sesame. C’est l’expérience la plus proche d’une « voix humaine » que nous avons vue
Theodore Twombly, le personnage principal du film «Her», est tombé amoureux d’une machine appelé Samantha. Il n’avait même pas besoin de la voir ou de la toucher. C’était suffisant pour écouter sa voix, qui était en fait celle de l’actrice Scarlett Johansson.
C’était de la science-fiction, mais peu à petit, nous approchons d’un point où tomber amoureux d’une machine n’est plus. Nous l’avons vu avec Replika depuis un certain temps, le service d’IA qui permet aux avatars virtuels de devenir nos amis ou autre chose.
Ce service y parvient avec un modèle d’IA qui génère du texte, tel que ChatGpt. Jusqu’à présent, nous avons bavardé avec les machines, mais peu à petit, nous commençons à leur parler. Les modes vocaux de Chatgpt donnent précisément cette option, et en fait la société a dû retirer l’une de ses voix pour être trop similaire à la Scarlett Johansson.
Mais maintenant une startup d’intelligence artificielle appelée Sesame est allé un pas plus loin. Fin février, la société a publié une démonstration de son modèle de génération de conversation vocale (CSM, par modèle de parole conversationnel), et son impact a été remarquable.
Certains utilisateurs ont informé de ressentir un lien émotionnel avec les voix masculines et féminines du modèle (« Maya » et « Milliers »). L’un d’eux, qui a publié ses impressions dans Hacker News, a expliqué comment « je suis même un peu inquiet de savoir si je commence à me sentir émotionnellement lié à un assistant vocal à ce niveau de son humain ».
Tout le monde peut essayer de parler avec Maya ou des milliers grâce à cette démo sur le site Web de Sesame. Le seul obstacle est que les conversations doivent être en anglais: ces modèles ne parlent pas d’autres langues pour le moment.
Je l’ai fait pendant quelques minutes, et le fonctionnement de ce chatbot conversationnel est vraiment surprenant. La voix est chaleureuse et proche, mais surtout j’imite parfaitement la façon dont une personne parlerait. Avec des pauses, des doutes ou des changements d’intonation. La génération de voix est instantanée, il n’y a pas de latence, et la sensation est certainement d’avoir une conversation avec un autre être humain. C’est étrange, excitant et dérangeant en même temps.
Comme ceux qui sont responsables de « En sésame, notre objectif est de réaliser une » présence de la voix « , cette qualité magique qui rend les interactions orales réelles, sont comprises et valorisées. » Ils pointent vers quelque chose de similaire à ce que Replika a souligné: créer des « compagnons de conversation » qui offrent un véritable dialogue avec lequel renforcer la confiance au fil du temps.
Ces modèles ne sont pas parfaits. Maya, par exemple, s’est avérée faire des choses étranges de temps en temps, mais les commentaires dans certains forums de discussion tels que ce Reddit montrent clairement que la qualité de ces modèles est spectaculaire.


Si vous souhaitez vérifier la qualité de ce modèle, attentif à cela. Source: reddit.
Et si vous ne le croyez pas, jetez un œil à cette conversation que Gavin Purcell, l’un des responsables du podcast AI pour les humains, a publié dans Reddit discutant sans taper avec la machine pour essayer de trouver ses limites.
Il ne semble pas y parvenir, et en fait il est impossible de détecter que l’un des interlocuteurs est une machine. Sa vitesse de réponse, ses changements dans les tons, son choix de phrases et de mots … est incroyable. Chatbot conversationnel de Sesame Il vous permet également d’interpréter différents rôles (« Roleplaying »), quelque chose qui, par exemple Openai, limite généralement.
OpenAI a travaillé sur leurs modes vocaux pour Chatgpt, et Grok 3 a également implémenté différentes voix synthétisées et s’adapte également à des personnalités diverses. Il y a même une voix « dérangée » et une autre voix « sexy », par exemple, qui démontre une fois de plus que Musk et Xai ne se dérangent pas d’expérimenter


Comme ils commentent dans ARS Technica, en sésame, ils ont réalisé cette avancée grâce à deux modèles (un coffre et un autre décodeur) qui fonctionnent ensemble. Les deux sont basés sur des appels d’architecture, et Sesame a augmenté trois tailles différentes. Le plus grand combine un modèle de coffre de 8 000 millions de paramètres avec un décodeur de 300 millions, ce qui se traduit par un modèle conjoint de 8,3b. Pour le former, ils ont utilisé un million d’heures de fichiers audio en anglais.
Les commentaires sur un débat dans Hacker News ont clairement indiqué que la qualité des voix de Sesame est presque humaine, mais même les utilisateurs ont continué à remarquer que quelque chose a échoué. L’un des co-fondateurs de Sesame, Brendan Iribe, a participé au débat remerciant ces commentaires et confirmant qu’ils ont encore beaucoup de travail à l’avance. Est « encore trop anxieux Souvent inapproprié dans son ton, son prosodie et son rythme « , Il a expliqué, et a des problèmes avec les interruptions, les temps et la fluidité de la conversation. « Aujourd’hui, nous sommes fermement dans la vallée (troublant) », a-t-il dit, « mais nous sommes optimistes et nous pouvons en sortir. »

Les possibilités semblent presque illimitées pour ces types de modèles, mais elles sont à la fois pour de bien et pour le pire. Son usage pour supplanter les identités, par exemple, a déjà fait de graves peurs. Ici, la création d’un « mot de passe de famille » peut être très utile pour éviter une partie de ces problèmes, bien qu’en sésame pour le moment, il n’est pas autorisé à cloner des voix.
Nous verrons comment les entreprises d’IA réagissent à ces types de problèmes, mais tout indique que cet avenir dans lequel Nous parlerons constamment (et nous tomberons même amoureux) des machines Il se rapproche.
Dans Simseo | Soyez prudent de tomber amoureux de votre chatbot: à Openai, ils avertissent que GPT-4O peut réduire la nécessité de socialiser avec les êtres humains
