Un modèle qui peut insérer de manière réaliste des humains dans des images
L’avènement récent des modèles génératifs, des outils informatiques capables de générer de nouveaux textes ou images à partir des données sur lesquelles ils sont entraînés, a ouvert de nouvelles possibilités intéressantes pour les industries créatives. Par exemple, ils permettent aux artistes et aux créateurs de contenu numérique de produire facilement un contenu multimédia réaliste qui intègre des éléments de différentes images ou vidéos.
Inspirés par ces avancées récentes, des chercheurs de l’Université de Stanford, de l’UC Berkeley et d’Adobe Research ont développé un nouveau modèle capable d’insérer de manière réaliste des humains spécifiques dans différentes scènes, par exemple en les montrant pendant qu’ils font de l’exercice dans la salle de sport, regardent un coucher de soleil sur la plage et bientôt.
Leur architecture proposée, basée sur une classe de modèles génératifs appelés modèles de diffusion, a été présentée dans un article prépublié sur le arXiv serveur et devrait être présenté à la Conférence sur la vision par ordinateur et la reconnaissance de formes (CVPR) 2023 à Vancouver en juin.
« Les systèmes visuels possèdent intrinsèquement la capacité de déduire des actions ou des interactions potentielles qu’un environnement ou une scène permet, un concept connu sous le nom de ‘affordances' », a déclaré Sumith Kulal, l’un des chercheurs qui a mené l’étude, à Tech Xplore.
« Cela a fait l’objet de recherches approfondies dans les domaines de la vision, de la psychologie et des sciences cognitives. Les modèles informatiques pour la perception de l’affordance développés au cours des deux dernières décennies étaient souvent limités en raison des limitations inhérentes à leurs méthodologies et ensembles de données. Cependant, le réalisme impressionnant démontré par des modèles génératifs à grande échelle ont montré une voie de progrès prometteuse. Avec ces informations, nous avons cherché à élaborer un modèle qui pourrait explicitement démêler ces affordances.
L’objectif principal de l’étude de Kulal et de ses collègues était d’appliquer des modèles génératifs à la tâche de perception de l’affordance, dans l’espoir d’obtenir des résultats plus fiables et réalistes. Dans leur récent article, ils se sont spécifiquement concentrés sur le problème de l’insertion réaliste d’une personne dans une scène donnée.
« Nos entrées incluent une image d’une personne et une image de scène avec une région désignée, et la sortie est une image de scène réaliste qui inclut désormais la personne », a expliqué Kulal. « Notre modèle génératif à grande échelle, formé sur un ensemble de données composé de millions de vidéos, offre une plus grande généralisation aux nouvelles scènes et personnes. De plus, notre modèle présente une gamme de capacités auxiliaires intrigantes telles que l’hallucination de la personne et l’essayage virtuel. »
Kulal et ses collègues ont formé un modèle de diffusion, un type de modèle génératif qui peut transformer le « bruit » en une image souhaitée, en utilisant une approche de formation auto-supervisée. Les modèles de diffusion fonctionnent essentiellement en « détruisant » les données sur lesquelles ils sont entraînés, en y ajoutant du « bruit », puis en récupérant certaines des données d’origine en inversant ce processus.
Pendant l’entraînement, le modèle créé par les chercheurs a été alimenté par des vidéos montrant un être humain se déplaçant dans une scène donnée, et il a sélectionné au hasard deux images de chacune de ces vidéos. Les humains de la première image sont masqués, ce qui signifie qu’une région de pixels autour de l’humain est grisée.
Le modèle essaie ensuite de reconstruire les individus dans ce cadre masqué en utilisant les mêmes individus non masqués dans le deuxième cadre comme signal de conditionnement. Au fil du temps, le modèle peut ainsi apprendre à reproduire de manière réaliste à quoi ressembleraient les humains s’ils étaient placés dans des scènes spécifiques.
« Notre méthode oblige le modèle à déduire une pose possible du contexte de la scène, à re-poser la personne et à harmoniser l’insertion », a déclaré Kulal. « Un ingrédient clé de cette approche est notre ensemble de données, composé de millions de vidéos humaines. En raison de son échelle, notre modèle, similaire en architecture au modèle de diffusion stable, se généralise exceptionnellement bien à diverses entrées. »
Les chercheurs ont évalué leur modèle génératif dans une série de tests préliminaires, où ils l’ont nourri de nouvelles images de personnes et de scènes, pour ensuite observer à quel point il plaçait ces personnes dans les scènes. Ils ont constaté qu’il fonctionnait remarquablement bien, créant des images retouchées qui semblaient assez réalistes. Les affordances prédites par leur modèle sont meilleures et fonctionnent dans un cadre plus diversifié que celles produites par les modèles non génératifs introduits dans le passé.
« Nous avons été ravis d’observer l’efficacité du modèle pour un large éventail d’images de scènes et de personnes, identifiant avec précision les affordances appropriées dans la plupart des cas », a déclaré Kulal. « Nous prévoyons que nos découvertes contribueront de manière significative aux recherches futures sur la perception des affordances et les domaines connexes. Les implications pour la recherche en robotique, où l’identification des opportunités d’interaction potentielles est cruciale, sont également importantes. En outre, notre modèle a des applications pratiques dans la création de médias réalistes (tels que sous forme d’images et de vidéos). »
À l’avenir, le modèle développé par Kulal et ses collègues pourrait être intégré à un certain nombre d’outils logiciels créatifs pour élargir leurs fonctionnalités d’édition d’images, soutenant finalement le travail des artistes et des créateurs de médias. Il pourrait également être ajouté aux applications de retouche photo pour smartphone, permettant aux utilisateurs d’insérer facilement et de manière réaliste une personne dans les photographies.
« Ce travail offre plusieurs pistes potentielles d’exploration future », a ajouté Kulal. « Nous envisageons d’incorporer une plus grande contrôlabilité dans la pose générée, des travaux récents comme ControlNet fournissant des informations pertinentes. On pourrait également étendre ce système pour générer des vidéos réalistes d’humains se déplaçant dans des scènes, par opposition à des images statiques. Nous nous intéressons également à l’efficacité du modèle. , se demandant si nous pouvons atteindre la même qualité avec un modèle plus petit et plus rapide. Enfin, les méthodes présentées dans cet article ne se limitent pas aux humains ; nous pourrions généraliser cette approche à tous les objets. »