Le modèle AI traduit les commandes de texte en mouvement pour divers robots et avatars

Le modèle AI traduit les commandes de texte en mouvement pour divers robots et avatars

Les chercheurs de l’Université de Brown ont développé un modèle d’intelligence artificielle qui peut générer du mouvement dans les robots et les figures animées de la même manière que les modèles d’IA comme Chatgpt génèrent du texte.

Un article décrivant ce travail est publié sur le arxiv serveur de préimprimée.

Le modèle, appelé MotionGlot, permet aux utilisateurs de simplement taper une action – « avancer quelques étapes et prendre un droit » – et le modèle peut générer des représentations précises de ce mouvement pour commander un robot ou un avatar animé.

Selon les chercheurs, la clé du modèle est sa capacité à « traduire » le mouvement à travers les types de robot et de figures, des humanoïdes aux quadrupèdes et au-delà. Cela permet la génération de mouvement pour un large éventail de modes de réalisation robotiques et dans toutes sortes de configurations et de contextes spatiaux.

« Nous traitons le mouvement comme une autre langue », a déclaré Sudarshan Harithas, un doctorat. Étudiant en informatique à Brown, qui a dirigé le travail. « Et tout comme nous pouvons traduire les langues – de l’anglais au chinois, par exemple – nous pouvons désormais traduire des commandes basées sur la langue aux actions correspondantes sur plusieurs modes de réalisation. Cela permet un large ensemble de nouvelles applications. »

La recherche sera présentée plus tard ce mois-ci à la Conférence internationale de 2025 sur la robotique et l’automatisation à Atlanta. Le travail a été co-écrit par Harithas et son conseiller, Srinath Sridhar, professeur adjoint d’informatique chez Brown.

Des modèles de grands langues comme Chatgpt génèrent du texte via un processus appelé « Next Token Prediction », qui décompose le langage en une série de jetons ou de petits morceaux, comme des mots ou des personnages individuels. Compte tenu d’un seul jeton ou d’une chaîne de jetons, le modèle de langue fait une prédiction sur ce que pourrait être le jeton suivant.

Ces modèles ont réussi à générer du texte, et les chercheurs ont commencé à utiliser des approches similaires pour le mouvement. L’idée est de briser les composantes du mouvement – la position discrète des jambes pendant le processus de marche, par exemple – dans des jetons. Une fois le mouvement à tokenisé, les mouvements fluides peuvent être générés par la prédiction du jetons suivant.

Un défi avec cette approche est que les mouvements pour un type de corps peuvent être très différents pour un autre. Par exemple, lorsqu’une personne marche un chien dans la rue, la personne et le chien font tous les deux quelque chose appelé «marche», mais ses mouvements réels sont très différents. L’un est droit sur deux jambes; L’autre est à quatre pattes.

Selon Harithas, MotionGlot peut traduire le sens de marcher d’un mode de réalisation à un autre. Ainsi, un utilisateur commandant une figure pour « avancer en ligne droite » obtiendra la sortie de mouvement correcte, qu’il soit commandant une figure humanoïde ou un chien de robot.

Pour former leur modèle, les chercheurs ont utilisé deux ensembles de données, chacun contenant des heures de données de mouvement annotées. Quad-Loco présente des robots quadrupèdes en forme de chien effectuant une variété d’actions ainsi qu’un texte riche décrivant ces mouvements. Un ensemble de données similaire appelé Ques-Cap contient un véritable mouvement humain, ainsi que des légendes et des annotations détaillées appropriées à chaque mouvement.

En utilisant ces données de formation, le modèle génère de manière fiable des actions appropriées à partir d’invites de texte, même des actions qu’elle n’a jamais spécifiquement vues auparavant. Dans les tests, le modèle a pu recréer des instructions spécifiques, comme « un robot marche en arrière, se tourne à gauche et avance », ainsi que des invites plus abstraites comme « un robot marche joyeusement ».

Il peut même utiliser Motion pour répondre aux questions. Lorsqu’on lui a demandé: « Pouvez-vous me montrer du mouvement dans l’activité cardio? » Le modèle génère un jogging d’une personne.

« Ces modèles fonctionnent mieux lorsqu’ils sont formés sur beaucoup, beaucoup de données », a déclaré Sridhar. « Si nous pouvions collecter des données à grande échelle, le modèle peut être facilement mis à l’échelle. »

Les fonctionnalités actuelles du modèle et l’adaptabilité entre les modes de réalisation font des applications prometteuses dans la collaboration, le jeu et la réalité virtuelle humaine, et l’animation numérique et la production vidéo, selon les chercheurs. Ils prévoient de rendre le modèle et son code source accessible au public afin que d’autres chercheurs puissent l’utiliser et l’expansion.