nouvelle architecture, immense fenêtre de contexte et plus d'efficacité pour détrôner GPT-4

Il y a un peu plus de deux mois, nous assistions au lancement de Gemini, le modèle d’intelligence artificielle.Le plus grand et le plus performant de Google». Cette décision intervient dans un contexte de concurrence féroce entre le géant de la recherche et la société d’IA soutenue par Microsoft, OpenAI, qui alimente le célèbre ChatGPT.

Maintenant, Sundar Pichai lui-même a annoncé la prochaine génération de son modèle de langage. Nous parlons de Gemini 1.5, une proposition qui promet de faire un bond significatif dans ses capacités avec l’objectif clair de rattraper le modèle le plus célèbre d’aujourd’hui, le GPT-4. Voyons ce qu’il y a de nouveau.

Google est enthousiasmé par la course à la tête de l’IA

Ce n’est un secret pour personne que Google n’a pas la vie facile dans la course à la tête du monde de l’intelligence artificielle. Bien que la société Mountain View possède certains des laboratoires de recherche de ce secteur des plus réputés, leurs tentatives de positionnement ne semblent pas donner les résultats escomptés.

Gemini 1.5 cherche apparemment à apporter le meilleur de Google dans ce domaine très compétitif aux utilisateurs, aux développeurs et aux entreprises. Le modèle touche dans un premier temps ces deux derniers groupes, avec un lancement prévu prochainement auprès du grand public. Cela signifie que nous pourrions bientôt l’utiliser.

Dans un article de blog, la société présente Gemini 1.5 comme une solution assistant personnel et un outil commercial. Cette définition est intéressante sans tenir compte du fait que, comme le dit notre collègue Ricardo Aguilar, Gemini 1.0 n’était pas le meilleur remplacement de l’Assistant Google sur Android.

Quand on parle des Gémeaux, dans chacune de ses versions, on retrouve trois éditions différentes. Nano, qui a été conçu pour fonctionner localement au sein d’un appareil ; Pro, qui est la version gratuite disponible pour tous les utilisateurs, et Ultra, qui se présente sous le nom de Gemini Advance et est accessible en payant.

Famille Google Gémeaux

Eh bien, l’une des améliorations les plus notables de Gemini 1.5 est que son édition Pro est à égalité avec Gémeaux 1.0 Ultra Édition (le plus avancé jusqu’à il y a quelques minutes). Autrement dit, les utilisateurs auront à notre disposition un modèle avancé dont la barrière d’entrée était l’abonnement Google One AI Premium de 19,99 $ par mois.

Gemini 1.5, comme la version précédente, est multimodale. Cela signifie qu’il possède des capacités qui vont au-delà du simple texte. Vous pouvez, par exemple, comprendre des images. Désormais, ce modèle est livré avec une architecture améliorée appelée Mixture-of-Experts (MoE), comme celle que nous avons déjà vue dans le modèle Mixtral de Mistral AI.

Le principal avantage des MoE est qu’ils adoptent une approche beaucoup plus efficace des grands modèles linguistiques. Avec l’approche précédente, lorsqu’il y avait une question, d’une manière générale, tout le modèle Il s’est mis au travail pour nous donner une réponse. Désormais, Gemini 1.5 dispose d’« experts » qui sont activés en fonction du type de requête que nous effectuons.

Ainsi, si nous faisons des requêtes liées à des sujets littéraires, seuls les experts littéraires du modèle seront activés. D’autres experts, tels que ceux spécialisés dans la programmation, la reconnaissance d’images et d’autres tâches, ne seront pas actifs. Cela représente des économies significatives au niveau de l’inférence et promet d’être beaucoup plus rapide pour les utilisateurs.

Une autre amélioration notable apportée à Gemini 1.5 est sa fenêtre contextuelle. Le nouveau modèle de Google arrive avec une fenêtre contextuelle standard de 128 000 jetonsbien que « un groupe limité de développeurs et d’entreprises clientes » ait accès à une fenêtre contextuelle d’un million de jetons via les outils AI Studio et Vertex AI.

Si nous comparons cela avec la proposition OpenAI, nous identifions une amélioration notable. La version standard de GPT-4 offre une fenêtre contextuelle de 8 000 jetons, bien qu’il existe également une version spéciale de 32 000 jetons et la version dite GPT-4 Turbo de 128 000 jetons. Ces derniers sont également limités aux développeurs ou aux clients professionnels payants.

Sam Altman a parlé d'investir sept milliards de dollars dans des puces. C'est scandaleux, mais cela explique mieux le chiffre

Les jetons sont notre façon de mesurer la quantité d’informations que le modèle d’intelligence artificielle peut recevoir en même temps, un peu comme lire instantanément plusieurs pages d’un livre. Plus le nombre de jetons est élevé, plus la quantité de données que nous pouvons fournir est importante. 1 million de jetons, selon Google, équivaut à 1 heure de vidéo, 11 heures d’audio ou 700 000 mots de texte.

Images : Nguyen Hung Vu | Google

Dans Simseo : La polémique sur Estopa et sa couverture pointe vers un débat plus large : quelle quantité d’IA allons-nous autoriser dans les illustrations