Le modèle IA restitue avec précision les mouvements des vêtements des avatars
L’ère a commencé où l’IA va au-delà du simple « dessin plausible » pour comprendre même pourquoi les vêtements flottent et se forment des rides.
Une équipe de recherche du KAIST a développé une nouvelle IA générative qui apprend le mouvement et l'interaction dans l'espace 3D selon les lois physiques. Cette technologie, qui surmonte les limites de l'IA vidéo 2D existante, devrait améliorer le réalisme des avatars dans les films, le métaverse et les jeux, et réduire considérablement le besoin de capture de mouvement ou de travail graphique 3D manuel.
L'ouvrage est publié sur le arXiv serveur de préimpression.
Une équipe de recherche dirigée par le professeur Tae-Kyun (TK) Kim de la School of Computing a développé « MPMAvatar », un modèle d'IA génératif basé sur la physique et l'espace qui surmonte les limites de la technologie existante de génération vidéo 2D basée sur les pixels.
Pour résoudre les problèmes de la technologie 2D conventionnelle, l'équipe de recherche a proposé une nouvelle méthode qui reconstruit des images multi-vues dans un espace 3D à l'aide du Splatting gaussien et la combine avec la méthode du point matériel (MPM), une technique de simulation physique.
En d’autres termes, l’IA a été formée pour apprendre elle-même les lois physiques en reconstruisant de manière stéréoscopique des vidéos prises depuis plusieurs points de vue et en permettant aux objets situés dans cet espace de se déplacer et d’interagir comme s’ils se trouvaient dans le monde physique réel.
Cela permet à l'IA de calculer le mouvement en fonction du matériau, de la forme et des forces externes des objets, puis d'apprendre les lois physiques en comparant les résultats avec des vidéos réelles.
L'équipe de recherche a représenté l'espace 3D à l'aide d'unités ponctuelles, et en appliquant à la fois la Gaussienne et le MPM à chaque point, elle a simultanément obtenu un mouvement physiquement naturel et un rendu vidéo réaliste.
Autrement dit, ils ont divisé l'espace 3D en de nombreux petits points, faisant bouger et déformer chaque point comme un objet réel, créant ainsi une vidéo naturelle presque impossible à distinguer de la réalité.
En particulier, pour exprimer avec précision l'interaction d'objets fins et complexes comme les vêtements, ils ont calculé à la fois la surface de l'objet (maillage) et sa structure particulaire (point), et ont utilisé la méthode du point matériel (MPM), qui calcule le mouvement et la déformation de l'objet dans l'espace 3D selon les lois physiques.
En outre, ils ont développé une nouvelle technologie de gestion des collisions pour reproduire de manière réaliste des scènes dans lesquelles des vêtements ou des objets bougent et entrent en collision les uns avec les autres à plusieurs endroits et de manière complexe.

Le modèle d'IA générative MPMAvatar, auquel cette technologie est appliquée, a réussi à reproduire le mouvement et l'interaction réalistes d'une personne portant des vêtements amples, et a également réussi à générer un tir nul, où l'IA traite les données qu'elle n'a jamais vues pendant le processus d'apprentissage en déduisant par elle-même.
La méthode proposée est applicable à diverses propriétés physiques, telles que les corps rigides, les objets déformables et les fluides, ce qui lui permet d'être utilisée non seulement pour les avatars mais aussi pour la génération de scènes complexes générales.
Le professeur Tae-Kyun (TK) Kim a expliqué : « Cette technologie va au-delà du simple dessin d'une image ; elle permet à l'IA de comprendre « pourquoi » le monde devant elle ressemble à ce qu'il est. Cette recherche démontre le potentiel de « l'IA physique » qui comprend et prédit les lois physiques, marquant un tournant important vers l'AGI (Intelligence générale artificielle).
Il ajoute : « Il devrait être appliqué de manière pratique à l'ensemble de l'industrie du contenu immersif au sens large, y compris la production virtuelle, les films, le contenu court et la publicité, créant ainsi un changement significatif. »
L'équipe de recherche développe actuellement cette technologie pour développer un modèle capable de générer des vidéos 3D physiquement cohérentes simplement à partir de la saisie de texte d'un utilisateur.
