Création d'une salle numérique interactive 3D à partir de vidéos simples
Les chercheurs de Cornell ont développé un processus propulsé par l'IA qui transforme automatiquement une courte vidéo d'une pièce en une simulation 3D interactive de l'espace.
À l'intérieur de ce «jumeau numérique» très précis, les utilisateurs peuvent ouvrir des tiroirs et des armoires et gérer des objets sur le comptoir. La technologie peut être utilisée pour développer des jeux vidéo plus réalistes et entraîner pratiquement des robots pour fonctionner dans un espace réel spécifique – essentiellement toute application qui a besoin d'un modèle réaliste et interactif d'une pièce.
« Les techniques existantes, bien qu'elles vous permettent de synthétiser à quoi ressemble le monde à partir de différents points de vue, manquent parfois de cette capacité d'être immersif, où vous pouvez vraiment interagir avec la scène », a déclaré Weiu Ma, professeur adjoint d'informatique au Cornell Ann S. Bowers College of Computing and Information Science, et chercheur principal sur le projet. « En raison des progrès des techniques d'IA génératrices, nous avons enfin suffisamment d'outils pour faire un pas pour la création de jumeaux numériques qui sont désormais interactables. »
Ses collaborateurs incluent Hongchi Xia, un doctorat. Étudiant en informatique à l'Université de l'Illinois Urbana-Champaign. Xia a présenté son projet, « Diron: Reconstruction numérique et articulation avec le réalisme de l'environnement », le 15 juin à la conférence IEEE / CVF sur la vision par ordinateur et la reconnaissance des modèles à Nashville, Tennessee.
Le processus de création d'un jumeau numérique d'une pièce utilisant le tiroir commence par quelques minutes de tournage.
« Notre contribution n'est qu'une vidéo que vous capturez avec désinvolture dans la cuisine. Vous n'avez pas besoin d'interagir avec des portes d'armoires ou avec les objets », a déclaré Xia. « Je tiens juste mon iPhone – vous n'avez pas besoin d'un appareil vidéo avancé ou d'une caméra coûteuse. »
Pour transformer cette vidéo en une salle numérique à la fois photoréaliste et interactive, les chercheurs ont mis en place plusieurs modèles d'IA. Ils ont combiné deux méthodes pour rendre les images numériques: une qui semble attrayante et une seconde qui recrée la scène avec des dimensions très précises. Ils ont également ajouté un module de perception, qui détermine quelles parties de la scène sont mobiles et comment ils devraient se déplacer, comme la façon dont une porte de réfrigérateur devrait s'ouvrir. Enfin, ils ont inclus un modèle qui remplit l'intérieur invisible des tiroirs.
Cependant, le développement de tiroir n'était pas aussi simple que de simplement lier les modules, a déclaré Xia. Il a dû les intégrer dans un cadre unifié. Une fois terminé, il a utilisé la méthode pour développer les recréations d'une cuisine, d'une salle de bain et même de son bureau.
Les jumeaux numériques générés par cette approche fonctionnent de manière transparente avec les moteurs de jeu utilisés pour créer des jeux vidéo, a déclaré Xia. L'équipe de recherche l'a démontré en créant un jeu où l'utilisateur tire des balles pour renverser des objets dans la cuisine, comme la bouilloire et la bouteille de savon.
Le cadre peut également être appliqué pour former des robots pratiquement à fonctionner dans des environnements réels via un processus appelé transfert réel à sim-à-réel. Les chercheurs ont pratiquement formé un bras robotique sur le jumeau numérique de la cuisine, puis l'ont montré avec succès dans le tiroir dans le monde réel.
Ils envisagent que dans un avenir proche, quelqu'un pourrait commander un robot, télécharger une vidéo de sa maison et le jumeau numérique de la maison pourrait être utilisé pour entraîner le robot à fonctionner dans l'espace avant même qu'il ne soit hors de la boîte. La simulation est une façon moins chère, plus rapide et plus sûre de former un robot, a déclaré Ma.
Actuellement, le tiroir ne fonctionne qu'avec des objets rigides, comme une bouilloire, mais finalement ils prévoient d'inclure des objets doux ou déformables, comme un tissu ou des fenêtres qui peuvent se casser.
De plus, le tiroir recrée actuellement une seule pièce, mais MA et Xia espèrent étendre ce travail pour englober des bâtiments entiers. Ils envisagent également de créer des jumeaux numériques d'espaces extérieurs où la technologie pourrait être utilisée pour concevoir des villes ou optimiser les rendements agricoles.
« Notre objectif final est d'essayer de construire un jumeau numérique de tout dans le monde », a déclaré Xia, « donc il y a beaucoup de choses que nous pouvons explorer à l'avenir. »
Les auteurs supplémentaires de l'étude incluent des collègues de l'Université de Washington, notamment Entong SU, Marius Memmel, Arhan Jain, Raymond Yu, Chicfor Mbiziwo-Tiapo, Ali Farhadi (également à l'Allen Institute for Artificial Intelligence) et Abhishek Gupta, ainsi que Shenlong Wang de l'Université d'Illinois Urbana-Champne.