Voici GPT-4o par OpenAI, l'IA qui interagit et qui est en plus gratuite

Index des sujets :

Basculer

GPT-4o en 3 points clés

🚀 La bonne nouvelle à propos de GPT-4o est qu'il fournit une IA interactive et générative basée sur GPT-4 à tout le monde, y compris utilisateurs gratuits.

🤖 GPT-4o est 2 fois plus rapide que GPT-4 Turbo et 50 % moins cher, ce qui en fait un outil révolutionnaire pour les applications d'IA.

🌍Le potentiel de l’IA à agir comme traducteur entre différentes langues pourrait révolutionner la communication mondiale.

Bavarder, Le nouveau modèle d'intelligence artificielle d'OpenAI constitue un énorme pas en avant notamment en termes d'accessibilité et d'expérience utilisateur.

GPT-4o a été présenté lors de l'événement Mises à jour du printempsle 13 mai 2024, par la voix de Mira Muratidirecteur de la technologie d'OpenAI.

Le « o » dans GPT-4o signifie : omni, Mot latin signifiant tout, signifiant que le modèle est nativement multimodalet il accepte les entrées et donne des sorties sous forme de texte, d'images, d'audio et de vidéo, rapidement et en douceur.

Lors de la présentation en direct, il a été possible d'assister à un conversation naturelle, qui se déplaçait entre les entrées et sorties audio, de test et visuelles (prises de la caméra).

Autre nouvelle perturbatrice : GPT 4o sera rendu accessible à tous les utilisateurs gratuits de ChatGPT Open AI dans les semaines à venir, mais la priorité sera donnée aux abonnés.

En fait, OpenAi a déclaré avoir toujours cru à la possibilité d'étendre ces outils au plus grand nombre.

Également parmi les nouveautés à venir une version de bureau de ChatGPT pour MacOS (plus tard également pour Windows) qui permettra une utilisation au-delà du Web et une utilisation mobile.

GPT-4o traite la voix, le texte, la vision et détecte les émotions

« GPT-4o traite la voix, le texte et la vision », a déclaré Murati. Cela inclut la réception et l'analyse des vidéos en temps réel capturées par les utilisateurs sur leurs applications pour smartphone ChatGPT, bien que cette fonctionnalité ne soit pas encore disponible au public. En pratique il est possible d'interagir avec l'intelligence artificielle via smartphone à travers la voix, un texte écrit, une vidéo, un audio comme une chanson.

« Cela semble tellement magique et merveilleux, mais nous voulons éliminer une partie du mystère et vous permettre d'en faire l'expérience par vous-même », a commenté le CTO d'OpenAI.

GPT-4o répond en temps réel via l'audio, détecte les émotions et peut adapter sa voix pour transmettre différents sentiments: gaieté avec rire, ou douceur ou ironie. Probablement très similaire à l'intelligence artificielle produite par la startup rivale Hume IA.

GPT-4o répond à une vitesse humaine aux entrées audio

OpenAI a partagé des vidéos de démonstration et des exemples des capacités de GPT-4o sur son site Web, notant que : « Il peut répondre aux entrées audio en aussi peu que 232 millisecondes, soit en moyenne 320 millisecondes, ce qui est similaire au temps de réponse humain dans une conversation. »

L'entreprise a illustré en quoi le GPT-4o diffère des modèles précédents et comment cela permet de nouvelles expériences : « Avant le GPT-4o, il était possible d'utiliser le Mode vocal pour parler avec ChatGPT avec des latences moyennes de 2,8 secondes (GPT-3,5) et 5,4 secondes (GPT-4) ».

Comment fonctionne GPT-4o

Pour arriver à ce résultat nous avons travaillé sur un mode vocal organisé en pipeline de trois modèles distincts :

un modèle simple transcrit l'audio en texte
GPT-3.5 ou GPT-4 reçoit le texte et le génère
un troisième modèle simple convertit le texte en audio.

Ce processus fait perdre beaucoup d’informations à la principale source d’intelligence, GPT-4 : elle ne peut pas observer directement la hauteur, plusieurs locuteurs ou les bruits de fond, et elle ne peut pas produire de rire, de chant ou exprimer des émotions.

GPT-4o, un modèle unique de bout en bout pour le texte, la vision et l'audio

« Avec GPT-4o, nous avons formé un nouveau modèle unique de bout en bout pour le texte, la vision et l'audio, ce qui signifie que toutes les entrées et sorties sont traitées par le même réseau neuronal. Étant donné que GPT-4o est notre premier modèle combinant toutes ces modalités, nous sommes encore en train de gratter la surface pour explorer ce que le modèle peut faire et ses limites.

Cependant, OpenAI n'a pas encore déclaré que GPT-4o, ni aucun de ses nouveaux modèles d'IA, seraient rendus open source.

Cela signifie que même si les utilisateurs peuvent essayer le nouveau modèle de base sur le site Web d'OpenAI, via ses applications et son interface de programmation d'applications (API), les développeurs n'auront pas un accès complet aux codes sous-jacents pour personnaliser le modèle à leur guise.

Un fait que les critiques, dont Elon Musk, co-fondateur et désormais rival d'OpenAI, ont indiqué comme exemple de l'écart d'OpenAI par rapport à sa mission fondamentale, c'est-à-dire donner à l'humanité toute la puissance de l'AGI, c'est-à-dire de l'Intelligence Artificielle générative.

Plus de puissance et de capacité pour libérer les utilisateurs de ChatGPT OpenAI

Les fonctionnalités offertes par GPT-4o représentent une mise à niveau significative de l'expérience utilisateur actuelle les utilisateurs gratuits de ChatGPT, qui jusqu'à présent étaient bloqués sur le modèle GPT-3.5 en mode texte uniquementsans les puissantes capacités de GPT-4 pour analyser les images et les documents téléchargés.

Même les utilisateurs gratuits de ChatGPT auront accès à un modèle d'IA générative beaucoup plus intelligent et interactif, à la navigation Web, à l'analyse et à la cartographie des données, à l'accès au GPT Store et même à la mémoire, afin que l'application puisse stocker les informations que l'utilisateur souhaite à son sujet. et ses préférences, simplement en le tapant ou en le demandant verbalement.

Grâce à GPT-4o, les utilisateurs de ChatGPT Free auront désormais accès à des fonctionnalités telles que :

Découvrez l'intelligence de niveau GPT-4

Obtenez des réponses (s'ouvre dans une nouvelle fenêtre) à la fois du modèle d'IA et du Web

Analyser les données (ouvre dans une nouvelle fenêtre) et créer des graphiques

Discutez des photos prises

Téléchargez des fichiers (s'ouvre dans une nouvelle fenêtre) pour obtenir de l'aide pour résumer, rédiger ou analyser

Découvrez et utilisez GPT et GPT Store

Créez une expérience plus utile avec Memory

GPT-4o : traduction simultanée (pour l'instant) en 50 langues

Lors d'une démonstration lors de l'événement, les présentateurs d'OpenAI ont montré comment ChatGPT optimisé par GPT-4o peut être utilisé comme application de traduction en temps réel, écoutant et traduisant automatiquement les mots d'un interlocuteur de l'italien vers l'anglais et vice versa. Dans un article de blog annonçant GPT-4o, OpenAI a souligné que : « ChatGPT prend désormais également en charge plus de 50 langues (s'ouvre dans une nouvelle fenêtre) lors de l'inscription et de la connexion, des paramètres utilisateur, et plus encore ».

Retraitement d'images

De plus, OpenAI a écrit : « GPT-4o est bien meilleur que n’importe quel modèle existant pour comprendre et examiner les images partagées. »

A partir d'une invite, il est possible d'obtenir des images particulièrement précises qui répondent à la demande.

Dans d'autres cas, il est possible d'obtenir des images à partir d'une photographie pour les transformer en bande dessinée. Mais il existe des dizaines d’exemples disponibles et ils se prêtent à différents cas d’utilisation.

Coûts et disponibilité

OpenAI a également noté que même s'il sera éventuellement disponible pour les utilisateurs gratuits de ChatGPT, GPT-4o sera d'abord déployé pour les abonnés payants : « Nous commençons à déployer GPT-4o pour les utilisateurs de ChatGPT Plus et Team, et il sera bientôt disponible. également pour les utilisateurs de Chat GPT Enterprise. Aujourd'hui, nous commençons à déployer GPT-4o auprès des utilisateurs de ChatGPT Free, avec également des limites d'utilisation. Les utilisateurs Plus auront une limite de messages jusqu'à 5 fois supérieure à celle des utilisateurs gratuits, tandis que les utilisateurs Team et Enterprise auront des limites encore plus élevées.

Les semaines prochaines ».

Comment GPT-4o sera utile aux entreprises

Le changement de rythme du GPT-4o semble évident et les bénéficiaires seront avant tout les indépendants et les entreprises qui sauront accélérer de nombreuses tâches de travail et organiser leurs activités avec créativité.

Gpt-4o, les déclarations de Sam Altman

Sur son blog personnel, Sam Altman, PDG et co-fondateur d'OpenAI, a écrit que la mentalité d'OpenAI en matière de développement de l'IA a changé :

« Notre vision initiale lorsque nous avons fondé OpenAI était de créer de l’IA et de l’utiliser pour créer toutes sortes d’avantages pour le monde. Mais maintenant, il semble que nous allons créer l’IA et que d’autres personnes l’utiliseront pour créer toutes sortes de choses étonnantes dont nous pourrons tous bénéficier.

« Il y a deux aspects de notre annonce d’aujourd’hui que je voulais souligner. Premièrement, un élément clé de notre mission est de mettre de très bons outils d’IA à la disposition des gens, gratuitement (ou à un prix avantageux). »

« Je suis très fier d'avoir le meilleur modèle du monde disponible gratuitement dans ChatGPT, sans publicité ni quoi que ce soit. Notre idée initiale lorsque nous avons lancé OpenAI était de créer une intelligence artificielle et de l’utiliser pour créer toutes sortes d’avantages pour le monde.

« Mais il semble maintenant que nous allons créer l’IA, et que d’autres personnes l’utiliseront pour créer toutes sortes de choses étonnantes dont nous pourrons tous bénéficier. Nous sommes une entreprise et nous trouverons beaucoup de choses à facturer qui nous aideront à fournir un service d’IA gratuit et excellent à (espérons-le) des milliards de personnes. Deuxièmement, le nouveau mode voix (et vidéo) est la meilleure interface informatique que j'ai jamais utilisée. Cela ressemble à une IA de film et cela me surprend quand même un peu que ce soit réel.

« Atteindre des temps de réponse et une expressivité de niveau humain s'est avéré être un grand changement. Le ChatGPT original a montré un aperçu de ce qui était possible avec les interfaces linguistiques ; ce nouveau produit est viscéralement différent. C'est rapide, intelligent, amusant, naturel et utile. Parler à un ordinateur ne m’a jamais vraiment semblé naturel ; c'est maintenant. »

« Avec l’ajout de la personnalisation (facultative), de l’accès à l’information, de la possibilité d’agir au nom de l’utilisateur et bien plus encore, je vois un avenir passionnant dans lequel nous pourrons utiliser les ordinateurs pour faire bien plus. que cela n'a jamais été fait auparavant. »

Sécurité et limites du modèle GPT-4o

GPT-4o intègre dès sa conception une sécurité dans tous les modes, grâce à des techniques telles que le filtrage des données d'entraînement et l'affinement du comportement du modèle via la post-formation. De plus, de nouveaux systèmes de sécurité ont été créés pour permettre le contrôle des sorties vocales.

OpenAI a noté GPT-4o sur la base du Cadre de préparation et conformément aux engagements volontaires. Les notes du modèle en matière de cybersécurité, CBRN, de persuasion et d'autonomie montrent que GPT-4o ne dépasse le risque moyen dans aucune de ces catégories. Cette évaluation impliquait la réalisation d'une série d'évaluations automatiques et humaines tout au long du processus de formation du modèle.

GPT-4o a également été soumis à de nombreuses équipe rouge externe avec plus de 70 experts externes dans des domaines tels que la psychologie sociale, les préjugés, l'équité et la désinformation pour identifier les risques introduits ou amplifiés par les modalités nouvellement ajoutées. Ces connaissances ont été utilisées pour élaborer des interventions de sécurité visant à améliorer la sécurité de l'interaction avec le GPT-4o.

OpenAI est conscient que les modes audio de GPT-4o présentent un certain nombre de nouveaux risques. Dans les semaines et mois à venir, il travaillera sur l'infrastructure technique, l'utilisabilité grâce à des post-formations et la sécurité nécessaire à la sortie des autres modes. Par exemple, au lancement, les sorties audio seront limitées à une sélection de voix prédéfinies et respecteront les politiques de sécurité existantes.