Une solution simple peut aider l'IA générative à créer des formes 3D plus réalistes
La création de modèles 3D réalistes pour des applications telles que la réalité virtuelle, la réalisation de films et la conception technique peut être un processus fastidieux nécessitant de nombreux essais et erreurs manuels.
Bien que les modèles d’intelligence artificielle générative pour les images puissent rationaliser les processus artistiques en permettant aux créateurs de produire des images 2D réalistes à partir d’invites textuelles, ces modèles ne sont pas conçus pour générer des formes 3D. Pour combler le fossé, une technique récemment développée appelée Score Distillation exploite des modèles de génération d'images 2D pour créer des formes 3D, mais son résultat finit souvent par être flou ou caricatural.
Les chercheurs du MIT ont exploré les relations et les différences entre les algorithmes utilisés pour générer des images 2D et des formes 3D, identifiant ainsi la cause profonde des modèles 3D de moindre qualité. À partir de là, ils ont élaboré une solution simple à Score Distillation, qui permet de générer des formes 3D nettes et de haute qualité, plus proches en qualité des meilleures images 2D générées par un modèle.
Certaines autres méthodes tentent de résoudre ce problème en recyclant ou en affinant le modèle d'IA générative, ce qui peut être coûteux et prendre du temps.
En revanche, la technique des chercheurs du MIT permet d'obtenir une qualité de forme 3D égale ou meilleure que ces approches sans formation supplémentaire ni post-traitement complexe.
De plus, en identifiant la cause du problème, les chercheurs ont amélioré leur compréhension mathématique de la distillation des scores et des techniques associées, permettant ainsi aux travaux futurs d’améliorer encore les performances.
« Nous savons désormais où nous devons nous diriger, ce qui nous permet de trouver des solutions plus efficaces, plus rapides et de meilleure qualité », déclare Artem Lukoianov, étudiant diplômé en génie électrique et informatique (EECS) et auteur principal d'un article sur cette technique publiée sur le arXiv serveur de préimpression. « À long terme, notre travail peut contribuer à faciliter le processus de copilote pour les concepteurs, facilitant ainsi la création de formes 3D plus réalistes. »
Les co-auteurs de Lukoianov sont Haitz Sáez de Ocáriz Borde, étudiant diplômé à l'Université d'Oxford ; Kristjan Greenewald, chercheur scientifique au MIT-IBM Watson AI Lab ; Vitor Campagnolo Guizilini, scientifique au Toyota Research Institute ; Timur Bagautdinov, chercheur scientifique à Meta ; et les auteurs principaux Vincent Sitzmann, professeur adjoint d'EECS au MIT qui dirige le groupe de représentation de scène au Laboratoire d'informatique et d'intelligence artificielle (CSAIL) et Justin Solomon, professeur agrégé d'EECS et chef du groupe de traitement des données géométriques CSAIL. La recherche sera présentée à la Conférence sur les systèmes de traitement de l'information neuronale.
Des images 2D aux formes 3D
Les modèles de diffusion, tels que DALL-E, sont un type de modèle d'IA génératif capable de produire des images réalistes à partir d'un bruit aléatoire. Pour entraîner ces modèles, les chercheurs ajoutent du bruit aux images, puis apprennent au modèle à inverser le processus et à supprimer le bruit. Les modèles utilisent ce processus appris de « débruitage » pour créer des images basées sur les invites textuelles d'un utilisateur.
Mais les modèles de diffusion ne parviennent pas à générer directement des formes 3D réalistes, car il n'y a pas suffisamment de données 3D pour les entraîner. Pour contourner ce problème, les chercheurs ont développé en 2022 une technique appelée Score Distillation Sampling (SDS) qui utilise un modèle de diffusion pré-entraîné pour combiner des images 2D en une représentation 3D.
La technique consiste à commencer par une représentation 3D aléatoire, à restituer une vue 2D d'un objet souhaité sous un angle de caméra aléatoire, à ajouter du bruit à cette image, à la débruiter avec un modèle de diffusion, puis à optimiser la représentation 3D aléatoire afin qu'elle corresponde à l'image débruitée. Ces étapes sont répétées jusqu'à ce que l'objet 3D souhaité soit généré.
Cependant, les formes 3D produites de cette manière ont tendance à paraître floues ou sursaturées.
« Cela constitue un goulot d'étranglement depuis un certain temps. Nous savons que le modèle sous-jacent est capable de faire mieux, mais les gens ne savaient pas pourquoi cela se produisait avec les formes 3D », explique Lukoianov.
Les chercheurs du MIT ont exploré les étapes du SDS et identifié une inadéquation entre une formule qui constitue un élément clé du processus et son homologue dans les modèles de diffusion 2D. La formule indique au modèle comment mettre à jour la représentation aléatoire en ajoutant et en supprimant du bruit, une étape à la fois, pour la faire ressembler davantage à l'image souhaitée.
Puisqu’une partie de cette formule implique une équation trop complexe pour être résolue efficacement, SDS la remplace par un bruit échantillonné aléatoirement à chaque étape. Les chercheurs du MIT ont découvert que ce bruit conduisait à des formes 3D floues ou caricaturales.
Une réponse approximative
Au lieu d’essayer de résoudre précisément cette formule lourde, les chercheurs ont testé des techniques d’approximation jusqu’à identifier la meilleure. Plutôt que d'échantillonner aléatoirement le terme de bruit, leur technique d'approximation déduit le terme manquant à partir du rendu de forme 3D actuel.
« En faisant cela, comme le prédit l'analyse de l'article, cela génère des formes 3D qui semblent nettes et réalistes », dit-il.
De plus, les chercheurs ont augmenté la résolution du rendu de l’image et ajusté certains paramètres du modèle pour améliorer encore la qualité de la forme 3D.
En fin de compte, ils ont pu utiliser un modèle de diffusion d’images pré-entraîné prêt à l’emploi pour créer des formes 3D fluides et réalistes sans avoir besoin d’un recyclage coûteux. Les objets 3D sont tout aussi nets que ceux produits à l’aide d’autres méthodes reposant sur des solutions ad hoc.
« En essayant d'expérimenter aveuglément différents paramètres, parfois ça marche et parfois ça ne marche pas, mais on ne sait pas pourquoi. Nous savons que c'est l'équation que nous devons résoudre. Maintenant, cela nous permet de penser à des moyens plus efficaces de résoudre », dit-il.
Parce que leur méthode repose sur un modèle de diffusion pré-entraîné, elle hérite des biais et des défauts de ce modèle, ce qui la rend sujette aux hallucinations et autres échecs. Améliorer le modèle de diffusion sous-jacent améliorerait leur processus.
En plus d’étudier la formule pour voir comment ils pourraient la résoudre plus efficacement, les chercheurs souhaitent explorer comment ces informations pourraient améliorer les techniques d’édition d’images.