Les actions de BuzzFeed ont bondi de 120 % sur les projets d'adoption d'OpenAI

Le nouveau modèle d’IA est-il vraiment meilleur que ChatGPT ?

Google Deepmind a récemment annoncé Gemini, son nouveau modèle d’IA pour concurrencer ChatGPT d’OpenAI. Alors que les deux modèles sont des exemples d’« IA générative », qui apprennent à trouver des modèles de saisie d’informations de formation pour générer de nouvelles données (images, mots ou autres médias), ChatGPT est un grand modèle de langage (LLM) qui se concentre sur la production de texte.

De la même manière que ChatGPT est une application Web pour les conversations basée sur le réseau neuronal connu sous le nom de GPT (entraîné sur d’énormes quantités de texte), Google propose une application Web conversationnelle appelée Bard qui était basée sur un modèle appelé LaMDA (entraînée sur dialogue). Mais Google met actuellement à niveau cela sur la base de Gemini.

Ce qui distingue Gemini des modèles d’IA génératifs antérieurs tels que LaMDA, c’est qu’il s’agit d’un « modèle multimodal ». Cela signifie qu’il fonctionne directement avec plusieurs modes d’entrée et de sortie : en plus de prendre en charge l’entrée et la sortie de texte, il prend en charge les images, l’audio et la vidéo. Ainsi, un nouvel acronyme fait son apparition : LMM (large multimodal model), à ne pas confondre avec LLM.

En septembre, OpenAI a annoncé un modèle appelé GPT-4Vision qui peut également fonctionner avec des images, de l’audio et du texte. Cependant, il ne s’agit pas d’un modèle entièrement multimodal comme le promet Gemini.

Par exemple, alors que ChatGPT-4, qui est alimenté par GPT-4V, peut fonctionner avec des entrées audio et générer des sorties vocales, OpenAI a confirmé que cela se fait en convertissant la parole en texte lors de l’entrée à l’aide d’un autre modèle d’apprentissage profond appelé Whisper. ChatGPT-4 convertit également le texte en parole lors de la sortie en utilisant un modèle différent, ce qui signifie que GPT-4V lui-même fonctionne uniquement avec du texte.

De même, ChatGPT-4 peut produire des images, mais il le fait en générant des invites textuelles qui sont transmises à un modèle d’apprentissage en profondeur distinct appelé Dall-E 2, qui convertit les descriptions textuelles en images.

En revanche, Google a conçu Gemini pour qu’il soit « nativement multimodal ». Cela signifie que le modèle de base gère directement une gamme de types d’entrée (audio, images, vidéo et texte) et peut également les sortir directement.

Le verdict

La distinction entre ces deux approches peut paraître académique, mais elle est importante. La conclusion générale du rapport technique de Google et d’autres tests qualitatifs à ce jour est que la version publique actuelle de Gemini, appelée Gemini 1.0 Pro, n’est généralement pas aussi bonne que GPT-4 et est plus similaire dans ses capacités à GPT 3.5.

Google a également annoncé une version plus puissante de Gemini, appelée Gemini 1.0 Ultra, et a présenté des résultats montrant qu’elle est plus puissante que GPT-4. Il est cependant difficile de l’évaluer, pour deux raisons. La première raison est que Google n’a pas encore publié Ultra, les résultats ne peuvent donc pas être validés de manière indépendante pour le moment.

La deuxième raison pour laquelle il est difficile d’évaluer les affirmations de Google est qu’il a choisi de publier une vidéo de démonstration quelque peu trompeuse, voir ci-dessous. La vidéo montre le modèle Gemini commentant de manière interactive et fluide un flux vidéo en direct.

Cependant, comme l’avait initialement rapporté Bloomberg, la démonstration présentée dans la vidéo n’a pas été réalisée en temps réel. Par exemple, le modèle avait appris au préalable certaines tâches spécifiques, comme le tour des trois coupes et balles, où les Gémeaux suivent sous quelle coupe se trouve la balle. Pour ce faire, on lui a fourni une séquence d’images fixes dans lesquelles les mains du présentateur sont sur les tasses en cours d’échange.

Un avenir prometteur

Malgré ces problèmes, je pense que Gemini et les grands modèles multimodaux constituent une avancée extrêmement intéressante pour l’IA générative. Cela est dû à la fois à leurs capacités futures et au paysage concurrentiel des outils d’IA. Comme je l’ai noté dans un article précédent, GPT-4 a été formé sur environ 500 milliards de mots, soit essentiellement du texte de bonne qualité accessible au public.

Les performances des modèles d’apprentissage profond dépendent généralement de la complexité croissante des modèles et de la quantité de données d’entraînement. Cela a conduit à se demander comment d’autres améliorations pourraient être réalisées, puisque nous sommes presque à court de nouvelles données de formation pour les modèles de langage. Cependant, les modèles multimodaux ouvrent d’énormes nouvelles réserves de données de formation, sous forme d’images, d’audio et de vidéos.

Les IA telles que Gemini, qui peuvent être directement entraînées sur toutes ces données, auront probablement des capacités bien supérieures à l’avenir. Par exemple, je m’attendrais à ce que les modèles entraînés par vidéo développent des représentations internes sophistiquées de ce qu’on appelle la « physique naïve ». Il s’agit de la compréhension de base que les humains et les animaux ont de la causalité, du mouvement, de la gravité et d’autres phénomènes physiques.

Je suis également enthousiasmé par ce que cela signifie pour le paysage concurrentiel de l’IA. Au cours de l’année écoulée, malgré l’émergence de nombreux modèles d’IA génératifs, les modèles GPT d’OpenAI ont dominé, démontrant un niveau de performance que d’autres modèles n’ont pas pu approcher.

Gemini de Google signale l’émergence d’un concurrent majeur qui contribuera à faire progresser le secteur. Bien entendu, OpenAI travaille presque certainement sur GPT-5, et nous pouvons nous attendre à ce qu’il soit également multimodal et démontre de nouvelles capacités remarquables.

Ceci étant dit, j’ai hâte de voir émerger de très grands modèles multimodaux, open source et non commerciaux, qui, je l’espère, verront le jour dans les années à venir.

J’aime également certaines fonctionnalités de l’implémentation de Gemini. Par exemple, Google a annoncé une version appelée Gemini Nano, beaucoup plus légère et capable de fonctionner directement sur les téléphones mobiles.

Des modèles légers comme celui-ci réduisent l’impact environnemental de l’informatique IA et présentent de nombreux avantages du point de vue de la confidentialité, et je suis sûr que ce développement incitera les concurrents à emboîter le pas.