Capture d'écran 2024 05 14 À 12 41 34

La vraie révolution du GPT-4o, c'est de pouvoir parler aux machines comme si de rien n'était

Nous essayons de parler aux machines depuis des années. Et je dis bien. Nous essayons. Siri, Alexa et Google Assistant ont montré que l'interaction vocale pouvait avoir du sens, mais seulement dans des scénarios très spécifiques. GPT-4o change totalement cela.

OpenAI l'a clairement indiqué hier avec une série de démonstrations vidéo montrant comment les employés de l'entreprise interagissaient avec le ChatGPT renouvelé. Cette fois, oui, pas de texte, pas de claviers, pas de saisie sur un ordinateur.

Cette fois tout ce qu'ils faisaient c'était parler.

Les démos nous ont rapprochés plus que jamais du futur que « Her », le célèbre film de Spike Jonze de 2013, a peint pour nous. La voix de ChatGPT est, en sauvant la distance, celle que Scarlett Johanson a donnée à l'intelligence artificielle dans le film. Proche, émotif, rationnel et même séduisant. Étonnamment similaire à une voix humaine en raison des changements d'intonation et capable de montrer une expressivité qui jusqu'à présent n'était pas très atteinte dans les voix synthétiques.

La réussite d'OpenAI est vraiment remarquable, notamment en matière de réduction de la latence. Comme expliqué dans l'annonce officielle, les latences moyennes de GPT-3.5 (2,8 secondes) et GPT-4 (5,4 secondes car plus avancé et nécessite plus de ressources) étaient élevées. Dans GPT-4o, cette latence moyenne est de 0,32 seconde et peut être encore plus faible, jusqu'à 0,232 seconde.

Ils l'ont fait à tel point que l'on a le sentiment que ChatGPT répond immédiatement, presque « sans réfléchir »et toujours de manière naturelle et avec une intonation appropriée.

La synthèse vocale, la capacité de comprendre la voix de l'utilisateur – nous verrons comment elle finit par fonctionner avec différents accents et façons de parler – et cette très faible latence (la vitesse de réponse est presque instantanée) font que nous pouvons soudainement parler aux machines.

Je répète. Ils nous permettent de parler aux machines.

Les implications d’un tel saut peuvent être énormes, surtout lorsqu’il s’agit de faire quelque chose de clé pour la vulgarisation d’une technologie : la rendre accessible. Il est vrai que taper sur un clavier virtuel ou physique pour demander quelque chose à ChatGPT est à la portée de tous, mais si vous éliminez également cette barrière et pouvez parler et accélérer l'interaction, toute l'expérience s'améliore… ou a la capacité de le faire. .

Les démos OpenAI l'ont clairement montré : ChatGPT était capable d'exprimer sarcasmede parler plus vite ou plus lentementpour parler dans d'autres langues – le traduction en temps réel est à notre portée—, Ou pour montrer des émotions, même si elles sont artificielles (comme dans la vidéo du chien).

La portée est potentiellement illimitée et touche des domaines tels que l'enseignement, mais certainement aussi notre propre rapport aux machines. Ce que Replika nous a déjà dit – et bien plus tôt, il y a dix ans, le film « Elle » susmentionné – devient désormais plus réalisable.

Soudain, nous nous retrouvons face à une réalité inquiétante : une machine parle si naturellement et de manière si crédible que nous pouvons finir par nous lier d'amitié avec elle… ou en tomber amoureux. C'est drôle : Sam Altman J'ai déjà mentionné exactement cela en 2016.

Force est de constater qu’il savait très bien de quoi il parlait.

Images | OpenAI

À Simseo | Apple arrive si tard dans l'explosion de l'IA que selon Gurman, elle négocie avec un allié inattendu : OpenAI