Un cadre informatique simplifie les mouvements synthétisés pour les personnages humains dans des environnements 3D

Un cadre informatique simplifie les mouvements synthétisés pour les personnages humains dans des environnements 3D

Les systèmes d’intelligence artificielle (IA) sont de plus en plus performants dans la synthèse d’images et de vidéos montrant des humains, des animaux et des objets. La génération automatisée de vidéos dans lesquelles des personnages humains se livrent à des activités spécifiques pourrait avoir diverses applications intéressantes, par exemple en simplifiant la création de films d'animation, de contenu pour la réalité virtuelle (VR) et de jeux vidéo.

Des chercheurs de l'Université de Pékin, du BIGAI et de l'Université des postes et télécommunications de Pékin ont développé un nouveau cadre informatique pour générer des mouvements réalistes pour les personnages humains naviguant dans des environnements 3D.

Ce cadre, introduit dans un article présenté à la conférence SIGGRAPH Asia 2024, s'appuie sur un modèle de diffusion d'auto-régression pour synthétiser des segments de mouvement de personnages consécutifs et un planificateur qui prédit les transitions vers l'ensemble de mouvements suivant.

« Notre inspiration pour cette recherche est née de l'observation de la manière simple et intuitive dont les humains interagissent avec leur environnement quotidien », a déclaré Nan Jiang, co-auteur de l'article, à Tech Xplore.

« Qu'il s'agisse de prendre une tasse de café sur une table ou de naviguer autour d'un meuble, nos mouvements se déroulent de manière fluide sans planification consciente. Ce dynamisme naturel a déclenché un effort ambitieux visant à révolutionner la façon dont les personnages virtuels interagissent avec leur environnement. »

De nombreux modèles basés sur l'IA pour générer des mouvements humains se sont avérés générer des mouvements plausibles d'interaction avec des objets pour des personnages humanoïdes virtuels. Cependant, pour fonctionner correctement, ces modèles nécessitent souvent des entrées complexes et définies par l'utilisateur, telles que des waypoints prédéfinis et des transitions d'étape.

« Cette dépendance aux entrées définies par l'utilisateur complique non seulement l'expérience utilisateur, mais entrave également l'automatisation et la fluidité de la génération de mouvements », a déclaré Zimo He, co-auteur de l'article.

« Connaissant ces limites, notre objectif principal était de développer un cadre complet qui simplifie ce processus. Nous visions à créer un système capable de générer de manière autonome des mouvements humains naturels, à plusieurs étapes et tenant compte de la scène, en utilisant uniquement des instructions textuelles simples et des emplacements d'objectif désignés. « .

Les chercheurs ont cherché à améliorer la cohérence et le réalisme des mouvements générés par le modèle, tout en minimisant le besoin de saisies complexes de l'utilisateur. Pour y parvenir, ils ont également compilé l'ensemble de données LINGO, une nouvelle collection complète de données de capture de mouvement annotées par un langage qui pourraient être utilisées pour former des modèles d'apprentissage automatique.

« Notre cadre est conçu pour transformer des instructions textuelles simples et un emplacement cible en mouvements humains réalistes à plusieurs étapes dans un environnement 3D », a déclaré Yixin Zhu, co-auteur correspondant de l'article. « À la base, le système intègre plusieurs composants innovants qui fonctionnent harmonieusement pour réaliser cette transformation. »

Le premier composant du cadre de l’équipe est un modèle de diffusion auto-régressif qui génère des segments séquentiels de mouvement humain. Ce processus reflète le processus par lequel les humains ajustent leurs mouvements en temps réel, permettant une transition en douceur d'un mouvement au suivant.

« En nous appuyant sur nos travaux antérieurs avec TRUMANS, qui utilisaient une grille de voxels pour la représentation de la scène, nous sommes maintenant passés à un encodeur de scène à double voxel », a déclaré Jiang.

« Cette amélioration fournit au système une compréhension globale de l'environnement en capturant à la fois l'environnement immédiat actuel et en anticipant les espaces futurs en fonction de l'emplacement de l'objectif. »

La double approche qui sous-tend le cadre de l'équipe permet finalement aux personnages de naviguer en douceur dans des environnements 3D, d'interagir avec les objets et d'éviter les obstacles à proximité. Notamment, le framework comprend également un composant de texte intégré au cadre.

« Cet encodeur intègre l'instruction textuelle aux informations temporelles, ce qui signifie qu'il comprend non seulement les actions à effectuer, mais également le moment où les effectuer », a déclaré Zimo. « Cette intégration garantit que les mouvements générés s'alignent avec précision sur les actions prévues décrites dans le texte, un peu comme la façon dont les humains séquencent naturellement leurs actions avec un timing parfait. »

Essentiellement, l'encodeur d'objectifs traite l'emplacement cible d'un personnage et tous les sous-objectifs qu'il est censé atteindre en cours de route, divisés en étapes d'interaction distinctes. Cette étape guide les mouvements du personnage, l'orientant vers la réalisation des objectifs souhaités.

« En complément, notre planificateur autonome, qui fonctionne comme un » conducteur de mouvement «  », a déclaré Hongjie Li, co-auteur de l'article.

« Il détermine intelligemment les points optimaux de transition entre les différentes étapes d'action, comme passer de la marche à l'atteinte ou à l'interaction. Cela garantit que l'ensemble de la séquence de mouvement se déroule de manière transparente et naturelle, sans transitions brusques ou anormales. »

Le nouveau cadre développé par Jiang et ses collègues présente divers avantages par rapport aux autres modèles de génération de mouvements de personnages introduits dans le passé. Plus particulièrement, il simplifie les informations dont les utilisateurs ont besoin pour alimenter le mouvement afin de générer des mouvements cohérents, en les limitant aux instructions textuelles de base et à l'emplacement cible qu'un personnage doit atteindre.

Un framework pour synthétiser les mouvements des personnages humains dans des environnements 3D

« En intégrant la connaissance de la scène et la sémantique temporelle, notre système produit des mouvements contextuellement appropriés et visuellement convaincants », a déclaré Siyuan Huang, co-auteur correspondant de l'article.

« De plus, le pipeline unifié gère efficacement des séquences d'actions complexes, maintenant la continuité et minimisant les collisions involontaires dans des environnements divers et encombrés. »

Lors des premiers tests effectués par les chercheurs, leur cadre a remarquablement bien fonctionné, générant des mouvements de personnages cohérents et de haute qualité avec des entrées utilisateur limitées. Les mouvements générés se sont avérés alignés à la fois sur les instructions textuelles fournies par les utilisateurs et sur le contexte environnemental dans lequel les personnages virtuels naviguaient.

« Cet alignement a été validé quantitativement par diverses mesures, où notre approche a démontré une précision supérieure et des cas de pénétration de scène considérablement réduits par rapport aux méthodes existantes comme TRUMANS », a déclaré Jiang. « Ces progrès soulignent l'efficacité de notre cadre à produire des mouvements non seulement visuellement convaincants, mais également précis sur le plan contextuel et spatial. »

Une autre contribution importante de cette étude récente est l’introduction de l’ensemble de données LINGO, qui pourrait être utilisé pour entraîner d’autres algorithmes. Cet ensemble de données contient plus de 16 heures de séquences de mouvement, couvrant 120 scènes d'intérieur uniques et démontrant 40 types distincts d'interactions personnage-scène.

« L'ensemble de données LINGO constitue une base solide pour la formation et l'évaluation des modèles de synthèse de mouvement, comblant ainsi le fossé entre le langage naturel et les données de mouvement », a déclaré Zimo.

« En fournissant des descriptions détaillées du langage ainsi que des données de mouvement, LINGO facilite une compréhension plus approfondie de l'interaction entre le langage humain, le mouvement et l'interaction environnementale, soutenant et inspirant ainsi les recherches futures dans ce domaine. »

Comparés aux mouvements des personnages créés par les modèles introduits précédemment, ceux générés par le cadre de l'équipe se sont révélés plus fluides et plus naturels. Cela est en grande partie dû à ses composants sous-jacents de synthèse de mouvement.

« En intégrant de manière transparente la locomotion, l'atteinte de la main et les interactions homme-objet dans un seul pipeline cohérent, notre modèle atteint un niveau de cohérence et de fluidité dans les séquences de mouvement qui surpasse les approches fragmentées et spécifiques à chaque étape », a déclaré Li. « Cette intégration rationalise non seulement le processus de génération de mouvements, mais améliore également le réalisme global et la crédibilité des interactions des personnages virtuels dans leur environnement. »

Le nouveau cadre introduit par Jiang, Zimo et leurs collègues pourrait avoir diverses applications concrètes. Premièrement, cela pourrait simplifier et prendre en charge la génération de contenu immersif à visualiser à l’aide des technologies VR et AR.

« Dans le domaine de la réalité virtuelle (VR) et de la réalité augmentée (AR), notre cadre peut améliorer considérablement le réalisme et l'immersion des personnages virtuels, améliorant ainsi l'expérience utilisateur », a déclaré Li. « Les industries du jeu et de l'animation bénéficieront énormément de notre système, car il peut automatiser la génération d'animations de personnages diverses et réalistes, réduisant ainsi l'effort manuel requis et augmentant la variété des actions dans le jeu. »

Le cadre des chercheurs pourrait également être utilisé pour créer des vidéos de démonstration personnalisées qui guident les utilisateurs sur la façon de réaliser des exercices de thérapie sportive et de réadaptation. Ce sont des vidéos qui simulent les mouvements que les utilisateurs doivent effectuer, leur permettant de réaliser des exercices de manière indépendante, sans la présence d'un instructeur humain.

« En robotique et en interaction homme-machine, permettre aux robots d'effectuer des mouvements semblables à ceux des humains et d'interagir de manière transparente dans des environnements partagés peut considérablement améliorer les tâches collaboratives et l'efficacité », a déclaré Zhu. « De plus, notre cadre peut être exploité dans des simulations de vie assistée et de formation, en développant des simulations réalistes à des fins de formation telles que la formation aux interventions d'urgence ou le développement de compétences dans divers domaines professionnels. »

Un framework pour synthétiser les mouvements des personnages humains dans des environnements 3D

À l’avenir, le cadre et l’ensemble de données introduits par Jiang et ses collègues pourraient contribuer au progrès des modèles basés sur l’IA pour la génération de mouvements. Parallèlement, les chercheurs travaillent à améliorer encore leur approche, par exemple en améliorant la précision physique des mouvements générés.

« Bien que notre modèle actuel excelle dans la production de mouvements visuellement réalistes, nous visons à incorporer des propriétés physiques plus nuancées telles que la gravité, la friction et l'équilibre », a déclaré Jiang. « Ce raffinement garantira que les mouvements sont non seulement crédibles en apparence, mais également physiquement plausibles, augmentant ainsi leur fiabilité et leur applicabilité dans des scénarios du monde réel. »

Dans leurs prochaines études, Jiang et leurs collègues tenteront également d'améliorer la granularité des mouvements générés par le modèle. Actuellement, leur modèle se concentre sur les mouvements corporels des personnages, mais à terme, ils aimeraient qu'il capture également des détails plus fins, tels que les gestes des mains et les expressions faciales.

« En intégrant ces éléments, nous espérons atteindre des niveaux encore plus élevés de réalisme et d'expressivité dans les personnages virtuels, rendant leurs interactions plus humaines et plus engageantes », a déclaré Zimo.

Un aspect supplémentaire du modèle que l’équipe espère améliorer est sa capacité à généraliser à un plus large éventail d’interactions personnage-scène. De plus, ils aimeraient que le modèle synthétise les mouvements en temps réel.

« La capacité de générer des mouvements instantanément en réponse à des entrées dynamiques serait particulièrement bénéfique pour les applications interactives telles que les expériences VR en direct et les environnements de jeu réactifs », a déclaré Zi Wang. « La réalisation de capacités en temps réel élargirait considérablement la convivialité pratique de notre cadre, le rendant plus adaptable aux demandes interactives du monde réel. »

Dans leurs prochaines études, les chercheurs prévoient également d’intégrer des entrées multimodales dans leur cadre. Cela permettrait aux utilisateurs d'interagir avec les personnages virtuels de manière plus attrayante.

« En incorporant des modalités de saisie supplémentaires telles que la parole et les gestes, nous visons à créer une interface plus complète et intuitive pour la synthèse de mouvement », a déclaré Yixin Chen. « Cette approche multimodale permettrait aux utilisateurs d'interagir avec des personnages virtuels de manière plus naturelle et transparente, améliorant ainsi l'expérience utilisateur globale. »

Un dernier objectif pour Jiang, Zimo et leurs collègues sera de garantir que leur modèle soit à la fois évolutif et économe en énergie, d'autant plus que la complexité des interactions qu'il génère augmente. Cela pourrait faciliter son déploiement dans le monde réel, garantissant que ses performances et son efficacité sont bonnes même lors de tâches exigeantes en termes de calcul.

« Grâce à ces efforts de recherche, nous aspirons à repousser les limites de la synthèse autonome du mouvement humain, la rendant de plus en plus efficace et polyvalente dans diverses industries et applications », a ajouté Zhu. « Nous sommes enthousiasmés par le potentiel futur de notre travail et sommes impatients de contribuer à de nouveaux progrès dans ce domaine dynamique. »