Le projet Astra est « Elle » de Google. Et ils veulent que ça marche avec des lunettes de réalité augmentée
L'avalanche de nouveautés dans les modèles d'IA générative de Google s'est complétée par une annonce très spéciale. Le projet Astra est l'initiative ambitieuse de Google pour proposer l'assistant vocal du futur. Celui alimenté par l’IA et la vision fournie par les caméras de nos smartphones (ou, comme nous le verrons, d’autres appareils).
Projet Astra. C'est le nom de cet ambitieux projet de Google avec lequel ils veulent « développer des agents d'IA universels qui puissent être utiles dans notre vie quotidienne ». Google a souligné comment un assistant présentant ces caractéristiques doit être capable de comprendre et de réagir de la même manière que les humains. Aussi « rappelez-vous ce que vous voyez et entendez pour comprendre le contexte et agir ».
La latence est le défi. Les responsables de l'entreprise reconnaissent qu'ils ont fait de nombreux progrès dans la compréhension de l'information multimodale (c'est-à-dire que des données textuelles, vocales, audio et vidéo arrivent). Cependant, « réduire le temps de réponse à quelque chose orienté vers la conversation est un défi d'ingénierie difficile ».
Tonalités vocales. Chez Project Astra, ils travaillent à proposer des modèles de synthèse vocale de meilleure qualité et permettant à différents agents d'avoir une grande variété d'intonations. Selon Google, les agents seront mieux que jamais en mesure de comprendre le contexte dans lequel ils sont utilisés et réagiront également rapidement.
L'application Gemini à l'horizon. Tout cet apprentissage finira par être intégré dans des solutions telles que l'application mobile Gemini, qui sera équivalente à celle qu'OpenAI a présentée avec ce ChatGPT basé sur GPT-4o que nous avons vu hier. L'application, indique Google, sera disponible avant la fin de l'année.
Dis moi ce que tu vois. Dans la vidéo de démonstration publiée par Google, on a vu en fonctionnement une version préliminaire du projet Astra qui utilisait des caméras mobiles pour reconnaître des objets de manière surprenante. En fait, Google a proposé des options curieuses, comme dessiner une flèche sur l'écran puis demander au modèle de décrire quel était cet objet sur l'écran. Cela nous rappelle cette nouvelle fonctionnalité « Cercle pour rechercher », mais dans ce cas, elle s'applique aux requêtes en direct sur des éléments reconnus par le modèle d'IA.
Lunettes! La partie la plus marquante de la vidéo est survenue dans la partie finale, lorsque la personne qui fait la démonstration demande « Où ai-je laissé mes lunettes ? L'assistant le lui dit, et quand il les met, il s'avère que ce ne sont pas des lunettes normales : ce sont des lunettes avec caméra et intégration Project Astra ! (Certains qui rappellent quelque chose d'ailleurs). À partir de là, l'utilisateur fait de brèves démonstrations de la façon dont, grâce à cette intégration, le modèle aide et répond aux questions de l'utilisateur de manière remarquable et ingénieuse.
OpenAI est en avance, mais Google se cache. Le projet Astra semble donc être un concurrent direct aux fonctions présentées hier avec GPT-4o par OpenAI. La société dirigée par Sam Altman semble avoir pris un peu d'avance car ces options d'interaction vocale arrivent déjà lentement à certains utilisateurs, mais leur disponibilité massive prendra probablement plusieurs semaines… ou mois. Google est légèrement en retard, mais cette alternative semble tout aussi prometteuse et constituera un moyen intéressant d'encourager cette concurrence particulière. Nous, les utilisateurs, gagnerons, c'est sûr.
À Simseo | OpenAI vient de nous rapprocher plus que jamais de 'Elle' : son nouveau modèle de voix nous accompagnera (et nous fera peut-être tomber amoureux)