Gemini évolue avec son modèle le plus rapide à ce jour et de grands projets pour les téléphones mobiles

C'est l'évolution de l'assistant Google que nous avons tous demandé

Oubliez les invites écrites. L’IA est désormais multimodale. Cela signifie que nous pouvons interagir avec lui en parlant, comme s'il s'agissait d'un assistant vocal, ou par vidéo, en pouvant reconnaître tout devant la caméra. Google l'a appelé Project Astra et depuis Simseo nous avons déjà pu tester sa version expérimentale, directement depuis Google I/O, son grand événement annuel.

Bien que le projet Astra soit prévu pour la fin de l'année sur les téléphones mobiles et l'application Gemini, la vérité est qu'il fonctionne déjà parfaitement. La version multimodale de Gemini 1.5 Pro est désormais prête, même si la démo que Google nous a montrée confirme qu'il reste encore quelques choses à peaufiner.

Project Astra : un assistant impressionnant, avec quelques améliorations à venir

Project Astra est une sorte de version super vitaminée de Google Lens. Nous focalisons la caméra sur quelque chose et l'IA le reconnaît et nous propose des réponses basées sur cela, en temps réel. Ce que nous avons, c'est une pièce avec plusieurs objets, un écran et une caméra au plafond pointée juste en dessous de l'écran.

Lors de la démonstration, nous pourrions sélectionner plusieurs animaux en peluche et les placer en dessous afin qu'ils puissent créer leur propre histoire. Par exemple un dinosaure, un beignet, une miche de pain ou un instrument. On peut lui demander n'importe quoi à leur sujet et il nous répond. Si nous ajoutons un nouvel objet, il nous en parle immédiatement.

Reconnaissance Astra
Reconnaissance Astra

Project Astra reconnaît les objets que l'on met devant la caméra, en temps réel.

Les réponses sont en temps réel et fonctionnent comme on peut s’y attendre. Le caractère spectaculaire du Projet Astra réside dans le fait de vérifier ses immenses possibilités. Pour voir comment on place un objet et il le reconnaît. Qu'on en met un à côté et ça nous le dit. Avec la Fonction « Conteur »Astra invente une histoire à partir des objets qu'elle voit devant elle.

Ce n'est qu'un exemple, car on pourrait aussi lui demander de nous dire à tout moment quelle est la plus grande ; qu'ils nous racontent des anecdotes à leur sujet ; pour nous indiquer ses propriétés physiques ou pour nous indiquer sa couleur. Autant d'idées que possible.

Reconnaissance d'objets
Reconnaissance d'objets

Avec la fonction « Storytelling », il crée des histoires basées sur ce que nous lui enseignons.

L'une des caractéristiques du projet Astra est qu'il « a de la mémoire ». Dans la vidéo de démonstration officielle, c'est génial quand la personne vous demande où vous avez laissé vos lunettes. Nous avons également pu vérifier cette fonction. Avec Astra, nous pouvons lui montrer un objet ; enlève-le, pose-lui d'autres questions et ensuite lui rappeler ce que nous lui avions dit à propos du premier objet.

Comme décrit par Google, la mémoire ne dure que pendant la session ouverte. Et là, nous abordons déjà une question de transformation. Les démos actuelles du projet Astra sont conçues pour ne durer que quelques minutes et il est vrai que à mesure que la démo s'allongela vitesse de réponse est considérablement plus difficile à maintenir.

Bien qu'il existe déjà des prototypes Astra fonctionnant sur un Pixel 8 Pro, il faudra attendre la fin de l'année pour qu'il soit techniquement intégré à l'application Gemini. Il faudra ensuite voir dans quelle mesure l'expérience ne devient pas trop lente si la séance dure trop longtemps.

Projet Pictionnaire Astra
Projet Pictionnaire Astra

Nous pouvons également jouer à Pictionary. Et l'IA est très bonne

Une autre démo amusante du Projet Astra est la puissance jouer à Pictionary avec l'IA. Nous n'avons pas vérifié si le Projet Astra est capable de reconnaître la dignité, mais il y parvient avec « Jaws », en dessinant une aileron ou avec « Titanic », en dessinant un navire et un iceberg. C'est drôle de voir que le Projet Astra parle et vous demande ce qu'il voit pendant que vous dessinez. Mais c’est là que le niveau de latence pourrait être le plus élevé. Astra parle lorsqu'elle voit un nouvel élément pertinent à l'écran, mais celui-ci doit être suffisamment clair.

Le projet Astra est l'évolution que nous attendions tous d'Assistant. Une IA capable de nous donner un feedback si nous lui parlons de quoi que ce soit et où nous pouvons profiter de la caméra mobile pour lui apprendre des choses. Il s’agit d’une interaction très naturelle et c’est précisément ce qui en fait une science-fiction.

Google a perdu le facteur surprise depuis longtemps

Contrairement aux démos OpenAI avec GPT-4o, la voix d'Astra a été définie par défaut par Google et a un ton de voix plus didactique et moins séduisant. Quelque chose que j'apprécie personnellement. Ce n'est pas tout à fait aussi « Elle », mais c'est tout aussi utile. La démonstration de Google avec Astra est frappante par l'énorme innovation qu'elle représente, mais il est clair qu'au final l'idée est que bientôt nous l'aurons tous sur nos téléphones portables et cela nous semblera trivial.

Menu du projet Astra
Menu du projet Astra

Le projet Astra est un projet qui fonctionne déjà parfaitement, mais il ne devrait pas être intégré à l'application Gemini avant la fin de l'année.

Comparé à GPT-4o, le projet Astra n’a pas ce facteur époustouflant. En pratique c'est une IA multimodale et elle fait la même chose, mais les exemples choisis dans la démo et la cadence de réponse n'a pas autant d'impact comme on le voit avec l'outil OpenAI. Alors que GPT-4o parle d'une latence moyenne de 320 millisecondes, Google ne partage pas de chiffres. Tout bien considéré, il ne serait pas étonnant que cette course à la vitesse se déroule d'un côté à l'autre en fonction du montant que l'on est prêt à payer.

La vraie révolution du GPT-4o, c'est de pouvoir parler aux machines comme si de rien n'était

Il nous reste l'idée finale que Le format que nous avons pu tester depuis Project Astra n'est pas le plus approprié pour voir toutes ses possibilités. Lors de cette Google I/O, les dirigeants de Google ont fait allusion à l'arrivée de futures lunettes. Après avoir vu cette démo, il me paraît clair que c'est un format qui colle parfaitement à l'IA multimodale, certains sont prêts à nous surprendre de la même manière que les chatbots le faisaient il y a moins de deux ans.

À Simseo | Les Ray-Ban Meta sont les premières lunettes intelligentes qui ont réussi à m'impressionner. Ils sont le début de quelque chose de plus