OpenAI annonce Point-E, un système d'apprentissage automatique qui crée rapidement des images 3D à partir d'une invite de texte

Un aperçu de haut niveau du pipeline. Tout d’abord, une invite de texte est introduite dans un modèle GLIDE pour produire une vue rendue synthétique. Ensuite, une pile de diffusion de nuage de points conditionne cette image pour produire un nuage de points RVB 3D. Le crédit: arXiv (2022). DOI : 10.48550/arxiv.2212.08751

Une équipe de chercheurs d’OpenAI, basée à San Francisco, a annoncé le développement d’un système d’apprentissage automatique capable de créer des images 3D à partir de texte beaucoup plus rapidement que d’autres systèmes. Le groupe a publié un article décrivant son nouveau système, appelé Point-E, sur le arXiv serveur de préimpression.

Au cours de l’année écoulée, plusieurs groupes ont annoncé des produits ou des systèmes capables de générer une image modélisée en 3D à partir d’une invite textuelle, par exemple « une chaise bleue sur un sol rouge » ou « un jeune garçon portant un chapeau vert et chevauchant une vélo violet. » De tels systèmes comportent généralement deux parties. Le premier lit le texte et essaie de lui donner un sens. Le second, formé aux recherches sur internet, restitue l’image recherchée.

En raison de la complexité de la tâche, ces systèmes peuvent prendre beaucoup de temps pour renvoyer un modèle, allant de quelques heures à plusieurs jours. Dans ce nouvel effort, les chercheurs ont construit un système similaire qui renvoie des résultats en quelques minutes, bien qu’ils reconnaissent volontiers que les résultats « ne sont pas à la pointe de la technologie en termes de qualité des échantillons ».

Pour créer des images plus rapidement, les chercheurs ont adopté une approche quelque peu différente des autres. Leur système ne crée même pas d’images au sens traditionnel. Au lieu de cela, il génère des nuages de points qui, lorsqu’ils sont vus ensemble, ressemblent à l’image souhaitée. L’équipe a adopté cette approche car la génération de nuages de points est beaucoup plus facile que la génération d’images réelles. Pour créer les résultats, le système achemine les images qu’il trouve via un autre système d’intelligence artificielle qu’il a développé et qui convertit ce qu’il reçoit en maillages, qui produisent le modèle de nuage de points 3D de l’objet souhaité.

La première partie du système a été réalisée à l’aide de deux modules : le premier convertit le texte en une idée d’image et la seconde partie trouve des images qui sont utilisées pour générer une image générique. En fonctionnement, le système fonctionne à peu près de la même manière que les autres du même type : un utilisateur saisit une invite de texte descriptif et le système renvoie un modèle d’image. Ils notent que si la qualité visuelle n’est pas comparable à d’autres systèmes, elle pourrait être plus adaptée à d’autres applications, telles que la fabrication d’objets du monde réel via une imprimante 3D.

Les chercheurs ont rendu le système en libre accès – les utilisateurs qui souhaitent travailler avec peuvent accéder au code sur GitHub.