Une méthode innovante adaptative au domaine permet la reconstruction de visages 3D à partir d’images à profondeur unique

La reconstruction d'un visage 3D à partir de visuels est cruciale pour la modélisation et la manipulation numérique du visage. Les méthodes traditionnelles dépendent principalement des images RVB, qui sont sensibles aux variations d'éclairage et n'offrent que des informations 2D. En revanche, les images de profondeur, résistantes aux changements d’éclairage, capturent directement les données 3D, offrant ainsi une solution potentielle pour des reconstructions robustes.

Des études récentes se sont tournées vers l'apprentissage profond pour une reconstruction plus robuste à partir de données de profondeur ; cependant, la rareté d’images de profondeur réelle avec des étiquettes faciales 3D précises a entravé le processus de formation. Les tentatives d'utilisation de données auto-synthétisées pour la formation se sont heurtées à des limites de généralisation aux scénarios du monde réel en raison des disparités entre domaines.

Une équipe de recherche, dirigée par Xiaoxu Cai, a dévoilé ses dernières découvertes le 15 février 2024 dans Frontières de l'informatique. Leurs recherches introduisent une nouvelle méthode de reconstruction adaptative au domaine, utilisant l’apprentissage en profondeur ainsi qu’une fusion de données réelles synthétiques et non étiquetées automatiquement. Cette approche facilite la reconstruction de visages 3D à partir d'images de profondeur individuelles capturées dans le monde réel.

Leur méthode met en œuvre des réseaux neuronaux adaptatifs au domaine dédiés respectivement à la prédiction de la pose de la tête et de la forme du visage. Chaque réseau est formé selon des stratégies spécifiques adaptées à sa composante.

Le réseau de poses de tête est entraîné à l’aide d’une méthode de réglage simple, tandis qu’une approche d’adaptation de domaine contradictoire plus robuste est appliquée pour entraîner le réseau de formes du visage.

L'étape initiale du prétraitement consiste à convertir les valeurs de pixels de l'image de profondeur en coordonnées de points 3D dans l'espace de la caméra. Ce processus permet l'utilisation de convolutions 2D dans le réseau de reconstruction pour traiter les informations géométriques 3D. La sortie du réseau utilise des décalages de sommets 3D, établissant une distribution cible plus ciblée pour faciliter le processus d'apprentissage.

La méthode est minutieusement évaluée sur des ensembles de données difficiles du monde réel, démontrant ses performances compétitives par rapport aux techniques de pointe.

Fourni par Higher Education Press