Chatgpt Voix

Son nouveau modèle de voix nous accompagnera (et nous fera peut-être tomber amoureux)

Les films nous donnent généralement la possibilité de connaître à l'avance certaines avancées technologiques qui ça finit par se réaliser. « Voyage vers la Lune », inspiré des œuvres littéraires de Jules Verne, parlait des voyages dans l'espace au début des années 1900. « 2001 : L'Odyssée de l'espace », sorti en 1968, a introduit le concept d'un superordinateur avancé doté d'une intelligence artificielle (IA). capable de raisonner et de communiquer en langage naturel avec les humains.

Plus récemment, en 2013, Joaquin Phoenix incarnait Theodore Twombly dans « Her ». Ce film écrit et réalisé par Spike Jonze raconte l'histoire d'un homme solitaire avec peu de vie sociale qui commence à interagir avec une assistante virtuelle nommée Samantha. Elle possède plusieurs caractéristiques inhabituelles pour les machines, comme un bon sens de l'humour, de l'empathie, du désir et un besoin croissant de découverte de soi. Théodore finit par tomber amoureux d'elle.

Lorsque « Elle » est sorti en salles, ce que nous avions le plus proche d'un assistant vocal IA était Siri. Les publicités d'Apple nous ont présenté cette fonctionnalité comme quelque chose extrêmement innovant, et surtout intuitif. Nous pourrions voir Samuel Jackson demander à un iPhone 4s en langage naturel de trouver un magasin à proximité où il pourrait acheter des champignons biologiques, ou demander combien d'onces contient une tasse. Cette technologie promettait de nous faciliter la vie. Ce n’était pas le cas.

On a vite compris que parler en langage naturel à Siri ou à tout autre assistant vocal était une mission quasiment impossible. La clé pour pouvoir les utiliser était de mémoriser une série de commandes pour les prononcer exactement comme le système l'attendait. Pour certains, cela allait être résolu avec le temps, une fois que la technologie aurait évolué, mais d’autres avaient moins d’espoir à court terme. Une décennie plus tard, les choses n’avaient pas beaucoup changé.

Quand la science-fiction commence à devenir réalité

Aujourd'hui, nous utilisons les assistants vocaux intégrés à nos téléphones pour écouter de la musique, régler des minuteries et rien d'autre. produits propulsé par l'IA qui, selon leurs créateurs, avaient beaucoup à offrir, comme le Rabbit R1 et le Humane AI Pin, sont encore trop verts. OpenAI, cependant, vient de montrer quelque chose qui peut raviver les espoirs de ceux qui espèrent un assistant vocal qui soit bien plus que cela, c'est-à-dire un compagnon virtuel.

ChatGPT dispose depuis longtemps d'un mode conversation qui nous permet d'interagir avec le chatbot. Cette option, bien qu’intéressante, présente de nombreuses lacunes. La synthèse vocale peut sembler trop artificielle et, comme si cela ne suffisait pas, des temps de latence compris entre 2,8 et 5,4 secondes constituent un obstacle au maintien d'une interaction fluide. OpenAI vise à dépasser ces limitations avec son nouveau modèle.

Chatgpt Voix

ChatGPT commencera à fonctionner avec GPT-4o (le « o » est pour « omni », ce qui signifie partout). Nous parlons d'un grand modèle de langage qui, contrairement aux versions précédentes, a été entièrement formé pour offrir capacités de vision, de texte et d'audio. Vraisemblablement, nous sommes également confrontés à un modèle de type mélange d’experts (MoE), qui vise l’efficacité sans perdre de capacités. GPT-4o a une latence moyenne de 320 millisecondes.

Nous envisageons donc un ChatGPT très différent de celui que nous avons rencontré pour la première fois en novembre 2022. Le chatbot avec GPT-4o a des performances comparables à celles de GPT-4 Turbo en matière d'intelligence textuelle, de raisonnement et de codage. Il possède une variété de caractéristiques humaines, telles que converser naturellement, rire, chanter, reconnaître des images et même identifier le sens de l'humour de l'utilisateur. De plus, vous pouvez interagir dans plus de 50 langues.

On se rapproche rapidement de ce que proposait Spike Jonze dans 'Her'. Ou du moins c’est ce que nous pensons après les démonstrations qu’OpenAI lui-même a faites lors de son émission en direct de lundi. Dans l'une des vidéos, nous pouvons voir l'un des membres d'OpenAI tenant son iPhone avec l'application ChatGPT. « Salut, comment vas-tu?» demande-t-il, et ChatGPT salue à travers une voix féminine et décrit assez précisément ce qu'il voit, démontrant ainsi ses capacités visuelles.

«Je vois que vous portez un sweat à capuche ouvert OpenAI. Bon choix ». L'IA, cependant, détecte quelque chose qui attire son attention (si on peut l'appeler ainsi) et demande ce qu'il y a au plafond, et demande si le jeune homme se trouve dans un bureau de style industriel ou quelque chose de similaire. L'utilisateur invite ChatGPT à deviner ce qu'il y fait. « D'après ce que je peux voir, il semble que vous soyez dans une sorte de configuration d'enregistrement ou de production. Ces lumières, trépieds et éventuellement un microphone. « On dirait que vous vous préparez à enregistrer une scène vidéo ou peut-être une émission. »

Le membre de l'équipe OpenAI répond qu'il prépare une annonce, mais l'IA montre ce qui pourrait être une intrigue et spécule sur les détails de l'annonce. « Cette publicité est-elle liée à l’IA ? » demande-t-il. « Que se passerait-il si je vous disais que vous êtes la publicité ? », répond le jeune homme. « Je? La publicité concerne-t-elle moi ?», demande le système, surpris par ce que l'utilisateur vient de dire. La conversation est vraiment intéressante, surtout si l’on tient compte du fait que nous parlons d’un modèle d’IA multimodal.

Mais il y a bien plus encore. Greg Brockman, président d'OpenAI, a fait une démonstration très intéressante de deux IA interagissant et chantant. Brockman explique en langage naturel à ChatGPT sur l'un des téléphones ce qui lui permettra de parler à une autre IA. Il lui dit que l'autre IA pourra voir le monde à travers une caméra, et qu'elle pourra lui poser des questions. « Eh bien, eh bien, ça a l'air bien », répond-il. Brockman fait de même avec l'autre téléphone portable.

« Il y aura une autre IA qui vous parlera et cette IA ne pourra rien voir, mais elle pourra vous poser des questions (…) elle pourra vous demander ce que vous voulez. Votre travail devrait être utile. Soyez juste percutant, direct, décrivez tout et faites ce que l’IA vous demande de faire. Quelques instants plus tard, les deux IA commencent à interagir, comme nous pouvons le voir dans la vidéo. À un moment donné, Brockman demande à l'une des IA de chanter une chanson sur ce qu'il vient de voir, complétant l'autre IA ligne après ligne.

La dernière nouveauté d’OpenAI ouvre de nombreuses portes. GPT-4o se présente comme un modèle capable de détecter le sarcasme, de résoudre des problèmes mathématiques, d'effectuer une traduction instantanée et bien plus encore. Nous sommes face à une machine dont les capacités ressemblent de plus en plus à celles des humains. Nous sommes confrontés à une avancée qui, bien que suggérée par la science-fiction, semblait impensable il y a peu. OpenAI, une fois de plus, semble avoir une longueur d'avance sur la concurrence.

Le live d'aujourd'hui était accompagné de plusieurs annonces. Tout d'abord, nous venons de commencer le déploiement progressif de GPT-4o auprès de tous les utilisateurs de ChatGPT, même si ceux qui utilisent les versions payantes aura des limites plus élevées. Vraisemblablement, GPT-3.5 et GPT-4 seront toujours disponibles et les utilisateurs pourront basculer entre les modèles. Le nouveau système vocal sera cependant exclusif aux versions payantes et arrivera en état alpha dans les semaines à venir.

Ouverture 5
Ouverture 5

Une application de bureau ChatGPT a également été annoncée, qui sera actuellement disponible sur macOS. Nous pouvons utiliser cette application pour appeler le chatbot à tout moment et lui demander d'utiliser ses capacités de vision pour obtenir des informations sur ce que nous avons à l'écran. De plus, nous pouvons inviter l'IA à rejoindre une vidéoconférence pour interagir avec les participants.

Déjà entré dans le domaine des rumeurs, on pense qu'Apple aurait finalisé un accord avec OpenAI pour utiliser la technologie de la société dirigée par Sam Altman pour alimenter certaines fonctions d'iOS 18. Cette technologie pourrait-elle être utilisée pour améliorer l'assistant vocal du IPhone ? Lors de la WWDC 2024, qui débutera le 10 juin, nous recevrons probablement une réponse.

Sam Altman n’apporte pas de bonnes nouvelles quant à l’impact de l’IA sur l’emploi : « C’est un énorme, énorme problème »

Pour que l'IA soit beaucoup plus proche de ce qu'est Samantha dans « Elle », il faudrait qu'elle soit capable d'effectuer des tâches pour nous, comme passer des appels téléphoniques en notre nom, consulter nos e-mails, parcourir et organiser nos fichiers. et même nous demander un Uber. Ce serait certainement formidable, mais cela entraînerait également de nombreux dilemmes en matière de sécurité et de confidentialité.

Images | Images de Warner Bros. | OpenAI

À Simseo | ARM prépare des puces IA pour 2025. Les téléphones portables sont déjà devenus trop petits