Gemini Advanced, le service d'abonnement Google AI

gEmini Ultra c'est un grand modèle multimodal (LMM) qui offre un certain nombre de fonctionnalités de productivité avancées. Cette IA de pointe est disponible via le plan Google One IA Premium. Ce nouveau forfait, qui coûte 19,99 $ par mois, offre bien plus qu'un simple accès à Gémeaux Avancémais aussi une série d'autres avantages liés à Google One, dont 2 To d'espace de stockage et des fonctionnalités premium pour Workspace et Google Photos.

Index des sujets :

Basculer

Comment fonctionne Gemini Ultra

Gemini Ultra est la première IA à surpasser les experts humains dans certains tests de compréhension linguistique MMLU (Compréhension massive du langage multitâche), utilisant une combinaison de 57 sujets allant des mathématiques à la philosophie, démontrant des progrès notables dans les compétences de raisonnement et de résolution de problèmes. C'est également le premier modèle à atteindre des résultats comparables à ceux obtenus par GPT4 de l'Open AI dans les benchmarks les plus complexes en matière d'intelligence artificielle générative.

L'architecture derrière Gemini Advanced permet aux utilisateurs d'avoir des conversations plus longues et plus détaillées, grâce à la capacité du modèle à mieux comprendre le contexte des requêtes précédentes. Le chatbot peut servir de tuteur personnel, d'assistant de codage pour des scénarios particulièrement complexes et de partenaire créatif pour générer de nouveaux contenus, analyser les tendances et concevoir des stratégies de croissance pour les créateurs numériques. La version Ultra de Gemini s'appuie sur les dernières avancées de Google en matière d'IA et sera continuellement améliorée avec de nouvelles fonctionnalités uniques, telles que des capacités multimodales extensibles, des capacités de codage interactif avancées et des capacités d'analyse de données plus approfondies.

Le forfait Google One AI Premium comprend un période d'essai gratuite de deux mois, permettant aux utilisateurs d'explorer les capacités avancées de Gemini sans frais initiaux. De plus, les abonnés auront bientôt la possibilité d'utiliser Gemini dans divers outils de productivité de Google, tels que Gmail, Docs, Slides, Sheets et bien d'autres, élargissant ainsi considérablement l'écosystème d'applications pouvant bénéficier de l'intelligence artificielle de pointe de Google.

Gemini Advanced : toute la puissance de Gemini Ultra

La nouvelle IA générative de Google est basée sur une architecture de réseau neuronal de nouvelle génération, disponible en trois tailles : Ultra pour les tâches très complexes, Pro pour des performances améliorées et une déployabilité à grande échelle, et Nano pour les applications sur appareil. Chaque dimension est spécifiquement conçue pour répondre à différentes limitations informatiques et exigences d'application. Gémeaux Avancé utilise le modèle le plus performant des trois, Ultra 1.0, qui offre des performances de pointe sur un large éventail de tâches très complexes, notamment les tâches multimodales et de raisonnement.

Le modèle Gemini Ultra représente une évolution dans le domaine de l'intelligence artificielle, grâce à sa capacité à traiter différents types de données. Cela signifie que, contrairement à d'autres systèmes qui nécessitent des modèles distincts pour gérer le texte, le code, les images et l'audio, Gemini Advanced peut traiter toutes ces informations de manière intégrée. Cela se traduit par une plus grande efficacité et une plus grande facilité d’utilisation, avec une réduction significative des coûts de développement et de gestion.

Gemini Ultra se distingue également par son architecture optimisée qui tire le meilleur parti des capacités matérielles des TPU spécifiquement conçus pour les tâches d'intelligence artificielle. Cela se traduit par un traitement plus rapide et une consommation d’énergie réduite, faisant de Gemini une solution efficace pour les applications en temps réel à grande échelle.

Pour mieux comprendre le fonctionnement de Gemini Ultra, il est utile d’analyser ses trois composantes principales :

1. Encodeur multimode : ce composant est chargé d'extraire les informations de différentes modalités de données. En termes simples, l'encodeur convertit les données telles que le texte, les images et l'audio dans un format commun, une représentation vectorielle qui peut être utilisée par les autres composants de l'architecture.

2. Transformateur générateur : le cœur de Gemini Ultra est le transformateur génératif. Ce composant traite la représentation vectorielle générée par l'encodeur et l'utilise pour créer du nouveau contenu ou pour effectuer des tâches spécifiques. Transformer est un modèle d'apprentissage automatique d'apprentissage profond qui a démontré une grande efficacité dans diverses tâches, de la traduction automatique à la génération d'images.

3. Décodeur multimode : le décodeur effectue l'opération inverse par rapport au codeur. Ce composant convertit en fait la représentation vectorielle générée par le transformateur dans un format spécifique pour le mode de sortie souhaité. De cette manière, le système peut générer du texte, des images, de l'audio ou tout autre type de données pris en charge.

GPT-4 vs Gemini 1.4 : les benchmarks

L'utilisation quotidienne de Gemini Advanced comme alternative à GPT-4 pour la génération de texte s'avère tout à fait satisfaisante. Les réponses de l'IA de Google semblent plus originales que celles de son concurrent OpenAI, qui excelle plutôt dans l'exhaustivité de son contenu.

Pour comparer les résultats obtenus par les deux IA, l’expérience subjective ne suffit pas. Les chercheurs ont développé une série complète de tests pour évaluer les capacités des modèles génératifs dans différents domaines et niveaux de difficulté. Ci-dessous, une comparaison des résultats obtenus à ces benchmarks entre les deux modèles en termes de compréhension écrite, logique et mathématique :

Repères	Gémeaux Ultra	GPT-4	Description
MMLU	90,0%	86,4%	Comprendre le langage multitâche
Grand banc dur	83,6%	83,1%	Raisonnement complexe
BAISSE	82,4%	80,9%	Compréhension de texte
HellaSwag	87,8%	95,3%	Bon sens et tâches quotidiennes
GSM8K	94,4%	92,0%	Arithmétique de base et problèmes mathématiques simples
MATHÉMATIQUES	53,2%	52,9%	Problèmes mathématiques complexes

Les capacités multimodales nécessitent également des tests spécifiques. Ci-dessous, les résultats comparatifs des tests spécifiques permettant d'évaluer les capacités de l'IA à manipuler des images, des vidéos et du son :

Repères	Gémeaux Ultra	GPT-4	Description
VQAv2	77,8%	77,2%	IMAGES : Comprendre le contenu des images
TexteVQA	82,3%	78,0%	IMAGES : Reconnaissance de texte
DocVQA	90,9%	88,4%	IMAGES : Comprendre un document
MMMU	59,4%	56,8%	IMAGES : Comprendre le contenu et le contexte
VATEX	56,0%	N / A	VIDÉO : Sous-titrage
Test de perception MCQA	46,3%	N / A	VIDÉO : Répondre aux questions en vidéo
CoVoST2	29,1%	N / A	AUDIO : Traduction
FLEURS	17,6%	N / A	AUDIO : conversion voix-texte

Nous concluons l'analyse benchmark par une comparaison de la précision dans une tâche technique particulièrement délicate : l'écriture d'un logiciel. Il est important de noter que ces tests sont partiels car, pour le moment, Gemini Advanced peut écrire du code, mais ne peut pas l'exécuter. Cela signifie qu'il ne peut pas, par exemple, effectuer une analyse de données étape par étape à partir de données sous forme de tableau.

Repères	Gémeaux Ultra	GPT-4	Description
HumanEval	74,4%	67,0%	Génération de code Python
Naturel2Code	74,9%	73,9%	Génération de code Python

Explorer les capacités multimodales

Les véritables capacités multimodales de Gemini Advanced sont actuellement loin de ce qui a été montré dans les vidéos présentées lors du lancement : pour le moment, elles sont considérablement limitées. Par exemple, pour l'instant en Italie et dans d'autres pays de l'espace économique européen, il n'est pas possible de générer des images, alors qu'avec le plan Pro ChatGPT vous pouvez profiter de DALL-E 3 pour créer des images de qualité.

L’analyse des images est également actuellement décevante. L'IA ne fournit pas de descriptions précises des scènes représentées, mais recherche simplement le texte présent dans les images pour tirer des conclusions inexactes sur leur contenu. Dans l'exemple ci-dessous, vous pouvez lire la réponse de Gemini Advanced à une demande d'analyse d'une image d'un palais de justice qui comprend également une enseigne de café. En se limitant à la seule analyse du texte, les conclusions auxquelles il parvient sont incorrectes.

Les limites actuelles évidentes de Gemini Advanced devraient être surmontées dans les prochains mois avec les mises à jour que Google mettra également à disposition pour les pays de l'espace économique européen.

Conclusions

Gemini Advanced représente une étape significative dans le domaine de l'intelligence artificielle multimodale. Avec son lancement, Google se positionne non seulement comme un concurrent sérieux sur le marché de l'IA, mais offre également aux utilisateurs une expérience d'IA plus riche et plus sophistiquée. La capacité de Gemini Ultra à surpasser les experts humains dans les tests de compréhension vocale et à égaler les résultats de GPT4 dans les tests de référence les plus exigeants témoigne des progrès technologiques impressionnants réalisés.

Ses capacités multimodales, bien qu’encore en développement, ouvrent de nouvelles possibilités pour l’interaction homme-machine et l’analyse de données complexes. Alors que Google continue d'innover et d'étendre les capacités de Gemini Ultra, les utilisateurs peuvent suivre de près les progrès d'une évolution étonnamment rapide qui continue de repousser les limites de ce que l'IA peut faire.