Un robot piloté par GPT-4 prend des selfies et « mange » du pop-corn

Un robot piloté par GPT-4 prend des selfies et « mange » du pop-corn

Une équipe de chercheurs de l’Université de Tokyo a construit un pont entre les grands modèles de langage et les robots qui promet des gestes plus humains tout en s’affranchissant des contrôles traditionnels dépendant du matériel.

Alter3 est la dernière version d’un robot humanoïde déployé pour la première fois en 2016. Les chercheurs utilisent désormais GPT-4 pour guider le robot à travers diverses simulations, comme prendre un selfie, lancer une balle, manger du pop-corn et jouer de la air guitar.

Auparavant, de telles actions auraient nécessité un codage spécifique pour chaque activité, mais l’intégration de GPT-4 introduit de nouvelles capacités étendues aux robots qui apprennent à partir de l’enseignement en langage naturel.

Les robots alimentés par l’IA « visent principalement à faciliter la communication de base entre la vie et les robots au sein d’un ordinateur, en utilisant des LLM pour interpréter et simuler des réponses réalistes », ont déclaré les chercheurs dans une étude récente.

« Le contrôle direct est 1703301676 réalisable en mappant les expressions linguistiques des actions humaines sur le corps du robot via un code de programme », ont-ils déclaré. Ils ont qualifié cette avancée de « changement de paradigme ».

Alter3, qui est capable de mouvements complexes du haut du corps, y compris des expressions faciales détaillées, possède 43 axes simulant les mouvements musculo-squelettiques humains. Il repose sur un socle mais ne peut pas marcher (bien qu’il puisse imiter la marche).

La tâche consistant à coder la coordination d’un si grand nombre d’articulations était une tâche colossale impliquant des mouvements très répétitifs.

« Grâce à LLM, nous sommes désormais libérés du travail itératif », déclarent les auteurs.

Désormais, ils peuvent simplement fournir des instructions verbales décrivant les mouvements souhaités et envoyer une invite demandant au LLM de créer du code Python qui exécute le moteur Android.

Alter3 conserve les activités en mémoire et les chercheurs peuvent affiner et ajuster ses actions, conduisant ainsi à des mouvements plus rapides, plus fluides et plus précis au fil du temps.

Les auteurs fournissent un exemple des instructions en langage naturel données à Alter3 pour prendre un selfie :

Créez un grand sourire joyeux et écarquillez les yeux pour montrer votre enthousiasme.

Tournez rapidement le haut du corps légèrement vers la gauche en adoptant une posture dynamique.

Levez la main droite haut, simulant un téléphone.

Fléchissez le coude droit pour rapprocher le téléphone du visage.

Inclinez légèrement la tête vers la droite, donnant une ambiance ludique.

L’utilisation des LLM dans la recherche en robotique « redéfinit les limites de la collaboration homme-robot, ouvrant la voie à des entités robotiques plus intelligentes, adaptables et personnalisables », ont déclaré les chercheurs.

Ils ont injecté un peu d’humour dans les activités d’Alter3. Dans un scénario, le robot fait semblant de consommer un sac de pop-corn pour apprendre qu’il appartient à la personne assise à côté de lui. Les expressions faciales et les gestes des bras exagérés expriment la surprise et l’embarras.

L’Alter3 équipé d’une caméra peut « voir » les humains. Les chercheurs ont découvert qu’Alter3 peut affiner son comportement en observant les réponses humaines. Ils ont comparé cet apprentissage à l’imitation néonatale, que les behavioristes observent chez les nouveau-nés.

La capacité d’apprentissage « zéro tir » des robots connectés GPT-4 « a le potentiel de redéfinir les limites de la collaboration homme-robot, ouvrant la voie à des entités robotiques plus intelligentes, adaptables et personnalisables », ont déclaré les chercheurs.

L’article « From Text to Motion : Grounding GPT-4 in a Humanoid Robot ‘Alter3’ », rédigé par Takahide Yoshida, Atsushi Masumori et Takashi Ikegami, est disponible sur le serveur de préimpression. arXiv.