La nouvelle technologie d'IA permet la capture et l'édition 3D d'objets réels

Imaginez effectuer un balayage autour d'un objet avec votre smartphone et obtenir un modèle 3D réaliste et entièrement modifiable que vous pouvez visualiser sous n'importe quel angle. Cela devient rapidement une réalité, grâce aux progrès de l’IA.

Des chercheurs de l’Université Simon Fraser (SFU) au Canada ont dévoilé une nouvelle technologie d’IA pour faire exactement cela. Bientôt, plutôt que de simplement prendre des photos 2D, les consommateurs ordinaires pourront prendre des captures 3D d'objets réels et modifier leurs formes et leur apparence à leur guise, aussi facilement qu'ils le feraient avec des photos 2D classiques aujourd'hui.

Dans un nouveau document paru sur le arXiv serveur de préimpression et présenté à la Conférence 2023 sur les systèmes de traitement de l'information neuronale (NeurIPS) à la Nouvelle-Orléans, en Louisiane, les chercheurs ont démontré une nouvelle technique appelée Proximity Attention Point Rendering (PAPR) qui peut transformer un ensemble de photos 2D d'un objet en un nuage de Points 3D qui représentent la forme et l'apparence de l'objet.

Chaque point donne ensuite aux utilisateurs un bouton pour contrôler l'objet : faire glisser un point modifie la forme de l'objet et modifier les propriétés d'un point modifie l'apparence de l'objet. Ensuite, dans un processus appelé « rendu », le nuage de points 3D peut ensuite être visualisé sous n'importe quel angle et transformé en une photo 2D qui montre l'objet modifié comme si la photo avait été prise sous cet angle dans la vie réelle.

Grâce à la nouvelle technologie d’IA, les chercheurs ont montré comment donner vie à une statue : la technologie a automatiquement converti un ensemble de photos de la statue en un nuage de points 3D, qui est ensuite animé. Le résultat final est une vidéo de la statue tournant la tête d’un côté à l’autre tandis que le spectateur est guidé sur un chemin qui la contourne.

« L'IA et l'apprentissage automatique entraînent réellement un changement de paradigme dans la reconstruction d'objets 3D à partir d'images 2D. Le succès remarquable de l'apprentissage automatique dans des domaines tels que la vision par ordinateur et le langage naturel incite les chercheurs à étudier comment les pipelines graphiques 3D traditionnels peuvent être repensés. avec les mêmes éléments de base basés sur l'apprentissage profond qui ont été à l'origine des récents succès fulgurants de l'IA », a déclaré le Dr Ke Li, professeur adjoint d'informatique à l'Université Simon Fraser (SFU), directeur du laboratoire APEX et directeur principal auteur sur le papier.

« Il s'avère qu'y parvenir est beaucoup plus difficile que prévu et nécessite de surmonter plusieurs défis techniques. Ce qui m'enthousiasme le plus, ce sont les nombreuses possibilités que cela apporte à la technologie grand public : la 3D pourrait devenir un moyen de communication et d'expression visuelle aussi courant que La 2D, c'est aujourd'hui. »

L’un des plus grands défis de la 3D est de savoir comment représenter les formes 3D de manière à permettre aux utilisateurs de les modifier facilement et intuitivement. Une approche précédente, connue sous le nom de champs de radiance neuronale (NeRF), ne permet pas une édition facile des formes car elle nécessite que l'utilisateur fournisse une description de ce qui arrive à chaque coordonnée continue. Une approche plus récente, connue sous le nom d'éclaboussures gaussiennes 3D (3DGS), n'est pas non plus bien adaptée à l'édition de formes, car la surface de la forme peut être pulvérisée ou déchirée après l'édition.

Un aperçu clé est venu lorsque les chercheurs ont réalisé qu'au lieu de considérer chaque point 3D du nuage de points comme une tache discrète, ils pouvaient considérer chacun comme un point de contrôle dans un interpolateur continu. Puis lorsque le point est déplacé, la forme change automatiquement de manière intuitive. Ceci est similaire à la façon dont les animateurs définissent le mouvement des objets dans les vidéos animées : en spécifiant les positions des objets à quelques instants, leur mouvement à chaque instant est automatiquement généré par un interpolateur.

Cependant, définir mathématiquement un interpolateur entre un ensemble arbitraire de points 3D n’est pas simple. Les chercheurs ont formulé un modèle d’apprentissage automatique capable d’apprendre l’interpolateur de bout en bout en utilisant un nouveau mécanisme appelé attention de proximité.

En reconnaissance de ce saut technologique, l'article a été récompensé lors de la conférence NeurIPS, un honneur réservé aux 3,6 % des meilleurs articles soumis à la conférence.

L’équipe de recherche est enthousiasmée par ce qui va arriver. « Cela ouvre la voie à de nombreuses applications au-delà de ce que nous avons démontré », a déclaré le Dr Li. « Nous explorons déjà différentes façons d'exploiter PAPR pour modéliser des scènes 3D en mouvement et les résultats jusqu'à présent sont incroyablement prometteurs. »

Les auteurs de l'article sont Yanshu Zhang, Shichong Peng, Alireza Moazeni et Ke Li. Zhang et Peng sont les co-premiers auteurs, Zhang, Peng et Moazeni sont titulaires d'un doctorat. étudiants de la School of Computing Science et tous sont membres du laboratoire APEX de l’Université Simon Fraser (SFU).