OpenAI donne à ChatGPT de nouveaux pouvoirs pour voir et entendre

OpenAI donne à ChatGPT de nouveaux pouvoirs pour voir et entendre

OpenAI a publié lundi une version plus performante et encore plus humaine de la technologie d'intelligence artificielle qui sous-tend son outil génératif populaire ChatGPT, la rendant gratuite pour tous les utilisateurs.

La mise à jour du produit phare d'OpenAI est arrivée un jour avant que Google ne fasse ses propres annonces sur Gemini, l'outil d'IA du géant des moteurs de recherche qui concurrence de front ChatGPT.

« Nous sommes très, très heureux de proposer GPT-4o à tous nos utilisateurs gratuits », a déclaré Mira Murati, directrice de la technologie, lors de l'événement de lancement très attendu à San Francisco.

Le nouveau modèle GPT-4o – le « O » signifie omni – sera déployé dans les produits OpenAI au cours des prochaines semaines, a indiqué la société, les clients payants ayant un accès illimité à l'outil.

La société a déclaré que le modèle pouvait générer du contenu ou comprendre des commandes vocales, textuelles ou images.

« Le nouveau mode voix (et vidéo) est la meilleure interface informatique que j'ai jamais utilisée. Cela ressemble à l'IA des films », a déclaré Sam Altman, PDG d'OpenAI, dans un article de blog.

Altman a déjà cité le personnage de Scarlett Johansson dans le film « Her » comme source d'inspiration pour déterminer où il aimerait que les interactions avec l'IA se déroulent.

« Parler à un ordinateur ne m'a jamais semblé vraiment naturel ; maintenant c'est le cas », a-t-il ajouté.

Murati et les ingénieurs d'OpenAI ont démontré les nouveaux pouvoirs de GPT-4o lors de l'événement virtuel, posant des défis à la version renforcée du chatbot ChatGPT.

La démo mettait principalement en vedette des membres du personnel d'OpenAI posant des questions au ChatGPT, qui répondait par des blagues et des plaisanteries humaines.

Le robot a servi d'interprète de l'anglais vers l'italien, a interprété les expressions faciales et a guidé un utilisateur à travers un problème d'algèbre difficile.

La société a déclaré que GPT-4o avait les mêmes pouvoirs que la version précédente en matière de texte, de raisonnement et d'intelligence de codage, et établissait de nouvelles normes industrielles pour les conversations, l'audio et la vision multilingues.

Dans une démonstration, ChatGPT a réussi à interpréter l'environnement d'un employé grâce à la caméra d'un smartphone, parlant d'une voix amicale et féminine, un peu comme le robot IA du film « Her ».

« Hmmm, d'après ce que je peux voir, on dirait que vous êtes dans une sorte de configuration d'enregistrement ou de production avec des lumières, des trépieds… vous vous préparez peut-être à tourner une vidéo ou à faire une annonce ? » » a déclaré le bot ChatGPT.

« Prenons notre temps »

Ces dernières semaines, on s'attendait beaucoup à ce qu'OpenAI publie une version optimisée par l'IA d'un outil de recherche en ligne pour concurrencer le moteur de recherche Google, mais vendredi, Altman a déclaré que ce ne serait pas le cas.

Les observateurs attendaient également le lancement du GPT-5, mais Altman a déclaré la semaine dernière que sa société « prendrait son temps sur la sortie de nouveaux modèles majeurs ».

Cet événement n'est que le dernier épisode de la course aux armements en matière d'IA qui a vu Microsoft, le soutien d'OpenAI, dépasser Apple en tant que plus grande entreprise mondiale en termes de capitalisation boursière.

OpenAI et Microsoft sont dans une vive rivalité avec Google pour devenir l'acteur majeur de l'IA générative, mais Meta, propriétaire de Facebook, et Anthropic, nouveau venu, font également de grands pas pour rivaliser.

Toutes les entreprises s'efforcent de trouver des moyens de couvrir les coûts exorbitants de l'IA générative, dont une grande partie revient au géant des puces Nvidia et à ses puissants semi-conducteurs GPU.

Rendre le nouveau modèle accessible à tous les utilisateurs peut soulever des questions sur le cheminement d'OpenAI vers la monétisation, alors que l'on doute que les utilisateurs ordinaires soient prêts à payer un abonnement.

Jusqu'à présent, seules les versions moins performantes d'OpenAI ou des chatbots de Google étaient disponibles gratuitement pour les clients.

« Nous sommes une entreprise et nous trouverons de nombreuses choses à facturer », a déclaré Altman sur son blog.

Les créateurs d’IA subissent également la pression des éditeurs et des créateurs, qui exigent un paiement pour tout contenu utilisé pour entraîner les modèles.

OpenAI a signé des partenariats de contenu avec Associated Press, le Financial Times et Axel Springer, mais est également impliqué dans un procès majeur avec le New York Times.

Les sociétés d’IA ont également été confrontées à des poursuites distinctes intentées par des artistes, des musiciens et des auteurs devant les tribunaux américains.