L’outil de modélisation générative rend les esquisses 2D en 3D
Un outil d’apprentissage automatique développé par des chercheurs du Robotics Institute (RI) de l’Université Carnegie Mellon pourrait potentiellement permettre aux concepteurs débutants et professionnels de créer des modèles virtuels 3D de tout, des meubles de maison personnalisés au contenu de jeux vidéo.
Pix2pix3d permet à quiconque de créer une représentation 3D réaliste d’un croquis 2D à l’aide d’outils d’intelligence artificielle génératifs similaires à ceux qui alimentent les applications populaires de génération et d’édition de photos AI.
« Notre objectif de recherche est de rendre la création de contenu accessible à un plus grand nombre de personnes grâce à la puissance de l’apprentissage automatique et des approches basées sur les données », a déclaré Jun-Yan Zhu, professeur adjoint à l’École d’informatique et membre de l’équipe pix2pix3d.
Contrairement à d’autres outils capables de créer des images bidimensionnelles, pix2pix3d est un modèle génératif conditionnel compatible 3D qui permet à un utilisateur de saisir un croquis bidimensionnel ou des informations plus détaillées à partir de cartes d’étiquettes, telles qu’une segmentation ou une carte de bord. Pix2pix3d synthétise ensuite une représentation volumétrique 3D de la géométrie, de l’apparence et des étiquettes qui peut être rendue à partir de plusieurs points de vue pour créer une image tridimensionnelle réaliste ressemblant à une photographie.
« Tant que vous pouvez dessiner un croquis, vous pouvez créer votre propre modèle 3D personnalisé », a déclaré le doctorant du RI Kangle Deng, qui faisait partie de l’équipe de recherche avec Zhu, le professeur Deva Ramanan et Ph.D. étudiant Gengshan Yang.
Pix2pix3d a été formé sur des ensembles de données comprenant des voitures, des chats et des visages humains, et l’équipe travaille à étendre ces capacités. À l’avenir, il pourrait être utilisé pour concevoir des produits de consommation, comme donner aux gens le pouvoir de personnaliser les meubles de leur maison. Les concepteurs novices et professionnels pourraient l’utiliser pour personnaliser des éléments dans des environnements de réalité virtuelle ou des jeux vidéo, ou pour ajouter des effets aux films.
Une fois que pix2pix3d a généré une image 3D, l’utilisateur peut la modifier en temps réel en effaçant et en redessinant l’esquisse originale en deux dimensions. Cette fonctionnalité donne à l’utilisateur plus de liberté pour personnaliser et affiner l’image sans avoir à restituer l’intégralité du projet. Les modifications sont reflétées dans le modèle 3D et sont précises à partir de plusieurs points de vue.
Sa fonction d’édition interactive distingue pix2pix3d des autres outils de modélisation, car les utilisateurs peuvent effectuer des ajustements rapidement et efficacement. Cette fonctionnalité pourrait être particulièrement utile dans des domaines tels que la fabrication, car les utilisateurs peuvent facilement concevoir, tester et ajuster un produit.
Par exemple, si un concepteur entre un croquis d’une voiture avec un capot carré, le modèle fournira un rendu 3D d’une telle voiture. Si le concepteur efface cette partie de l’esquisse et remplace le capot carré par un capot rond, le modèle 3D est immédiatement mis à jour. L’équipe prévoit de continuer à affiner et à améliorer cette fonctionnalité à l’avenir.
Deng a noté que même l’utilisateur le moins artistique obtiendra un résultat satisfaisant. Le modèle peut générer une sortie précise d’une esquisse simple ou grossière. Lorsqu’il est fourni avec des données plus précises et détaillées provenant de la segmentation ou des cartes de bord, le modèle peut créer une image 3D hautement sophistiquée.
« Notre modèle est robuste aux erreurs de l’utilisateur », a déclaré Deng, ajoutant que même une esquisse 2D ressemblant vaguement à un chat générera une image 3D d’un chat.
La recherche de l’équipe, « 3D-Aware Conditional Image Synthesis », a été acceptée à la conférence IEEE/CVF Computer Vision and Pattern Recognition Conference (CVPR) 2023.