un incroyable modèle d'IA gratuit qui fonctionne à la fois avec la voix, le texte et l'image
OpenAI a annoncé ce lundi lors de son événement en direct tant attendu un nouveau modèle d'intelligence artificielle (IA). On parle de GPT-4oqui est présenté comme le produit le plus « intelligent et le plus rapide » de l’histoire de l’entreprise dirigée par Sam Altman.
GPT-4o est nativement multimodal, une fonctionnalité qui résout le problème de latence et permet une interaction « en temps réel ». La bonne nouvelle est que ce modèle prometteur sera disponible pour tous les utilisateurs de ChatGPT, même ceux utilisant la version gratuite.
Le modèle OpenAI le plus avancé
Muri Murati, CTO d'OpenAI, a déclaré lors de l'émission que le nouveau modèle d'IA a un « intelligence au niveau de GPT-4″, mais améliore ses capacités de texte, audio et visuelle. Cette avancée technologique a permis, entre autres, de développer un nouveau mode vocal.
Le mode vocal original de ChatGPT offrait des réponses avec une latence moyenne de 2,8 secondes sur GPT-3.5 et de 5,4 secondes sur GPT-4. Le nouveau mode vocal réduit le temps de réponse à 320 millisecondes et, grâce à GPT-4o, il est doté d'un système d'interaction beaucoup plus naturel.
Lorsqu'il sera disponible, nous rencontrerons un assistant avec qui nous pourrons parler dans un langage tout à fait naturel, comme on le ferait avec une autre personne. Par exemple, nous pouvons vous interrompre pendant que vous répondez. Ce sont des fonctionnalités que nous n’avons vues dans aucune IA jusqu’à présent.
Dans la démo live, nous avons vu d'autres choses vraiment surprenantes. Le modèle répond non seulement instantanément, mais fournit également des réponses différents tons de voix et peut même rire, chanter, avoir des humeurs différentes et résoudre des problèmes de mathématiques.
Une autre fonctionnalité notable qui viendra sur ChatGPT grâce au nouveau modèle est la traduction instantanée. OpenAI veut que nous demandions simplement au chatbot ce que nous voulons pour qu'il commence à faire son travail, le tout en langage naturel, sans penser à des commandes spécifiques.
Nous pouvons dire à ChatGPT que nous sommes avec quelqu'un qui parle une autre langue, par exemple l'italien, et lui demander de traduire la conversation temps réel En espagnol. La seule chose que nous devrions faire ensuite est de commencer à discuter pour que l'IA fasse la traduction en temps réel.
Comme on dit, ce nouveau modèle améliore également ses capacités de vision. En ce sens, nous pouvons vous fournir une photo ou une capture d’écran afin que vous puissiez l’analyser et nous fournir des informations à ce sujet. Du modèle de cette voiture à la question de savoir si le code d'un langage de programmation contient des erreurs.
Comment accéder au nouveau GPT-4o depuis OpenAI ?
La société d'IA soutenue par Microsoft affirme avoir commencé à déployer GPT-4o auprès des utilisateurs de ChatGPT Plus et Team (versions payantes), et commence également le déploiement sur Chat gratuitGPT. Il s'agit d'une version « itérative » qui inclut uniquement les nouvelles fonctionnalités liées au texte et à l'image.
A noter que les utilisateurs payants du chatbot bénéficieront toujours d’avantages. Tout d’abord, ils disposeront d’une limite plus large pour utiliser le nouveau modèle (cinq fois plus large que le modèle gratuit). De plus, dans « les prochaines semaines », vous pourrez accéder au nouveau mode vocal en temps réel qui nous rappelle le film « Her ». Pour les utilisateurs gratuits, il arrivera plus tard.
De plus, OpenAI a annoncé le lancement d'une application ChatGPT pour macOS qui nous permettra d'invoquer l'assistant avec le raccourci clavier Option + Espace. Il est conçu pour être intégré à notre bureau afin que nous puissions lui demander d'analyser un graphique statistique ou de rejoindre un appel vidéo. Il sera disponible tôt aujourd’hui pour les utilisateurs Plus.
Images | OpenAI
À Simseo | ARM prépare des puces IA pour 2025. Les téléphones portables sont déjà devenus trop petits