DeepMind présente un robot capable de proposer des visites guidées contextuelles d'un immeuble de bureaux

DeepMind présente un robot capable de proposer des visites guidées contextuelles d'un immeuble de bureaux

Une équipe de roboticiens et de spécialistes de l'IA de DeepMind, filiale de Google, a présenté un robot capable de proposer des visites guidées contextuelles de ses bureaux. Ils ont publié un article décrivant leur travail, ainsi que des vidéos de démonstration, sur le site arXiv serveur de préimpression.

Les applications d’IA ont beaucoup évolué au cours de la dernière décennie, et des LLM tels que ChatGPT sont désormais connus des utilisateurs du monde entier. Dans ce nouvel effort, l’équipe de recherche a doté les robots RT-2 de capacités d’IA via Gemini 1.5 Pro et l’a utilisé pour permettre au robot d’effectuer des activités sophistiquées.

Le robot peut écouter la personne qu'il guide, analyser une demande et la traduire en comportement. Par exemple, un chercheur a demandé au robot de l'emmener dans un endroit du bureau où il pouvait écrire ou dessiner. Le robot a réfléchi à la demande pendant environ 30 secondes, puis a guidé la personne vers un endroit où un tableau blanc avait été fixé au mur dans l'un des bureaux.

Le robot est capable d'effectuer de telles tâches, expliquent les chercheurs, car son application Gemini 1.5 Pro a été formée pour comprendre la disposition de l'espace de travail de bureau de 850 mètres carrés en utilisant sa longue fenêtre de contexte pendant qu'elle collectait des données tout en regardant des vidéos d'emplacements dans le bureau.

Les chercheurs décrivent ces expériences d’apprentissage comme une navigation d’instructions multimodale avec des visites de démonstration : pendant que le robot regardait les vidéos, il était capable de traiter simultanément différentes parties du décor du bureau, lui permettant de générer des associations.

En ajoutant des fonctions de traitement de la voix et du texte ainsi que d’autres fonctions d’IA, l’équipe de DeepMind a également pu donner au robot la capacité d’effectuer un traitement inférentiel. Par exemple, un chercheur a demandé au robot s’il restait de sa boisson préférée dans le réfrigérateur. Le robot a remarqué qu’il y avait plusieurs canettes de Coca vides près de l’endroit où le chercheur était assis et a utilisé cette information pour deviner que le Coca était sa boisson préférée. Il s’est ensuite roulé jusqu’au réfrigérateur et a regardé à l’intérieur pour voir s’il y avait des canettes de Coca. Il s’est ensuite retourné et a rapporté ce qu’il avait trouvé.