Le cadre en deux étapes reconstruit des scènes 4D nettes à partir de vidéos portables floues

Les champs de radiance neuronale (NERF) sont une technique fascinante qui crée des représentations tridimensionnelles (3D) d'une scène à partir d'un ensemble d'images bidimensionnelles (2D), capturées sous différents angles. Il fonctionne en formant un réseau neuronal profond pour prédire la couleur et la densité à tout moment dans l'espace 3D.

Pour ce faire, il lance les rayons lumineux imaginaires de l'appareil photo à travers chaque pixel dans toutes les images d'entrée, les points d'échantillonnage le long de ces rayons avec leurs coordonnées 3D et leur direction de vision. En utilisant ces informations, NERF reconstruit la scène en 3D et peut les rendre à partir de perspectives entièrement nouvelles, un processus connu sous le nom de nouvelle synthèse de vue (NVS).

Au-delà des images fixes, une vidéo peut également être utilisée, chaque trame de la vidéo traitée comme une image statique. Cependant, les méthodes existantes sont très sensibles à la qualité des vidéos.

Les vidéos capturées avec une seule caméra, comme celles d'un téléphone ou d'un drone, souffrent inévitablement d'un flou de mouvement causée par un mouvement d'objet rapide ou un shake de la caméra. Cela rend difficile la création de NV net et dynamiques. En effet, la plupart des méthodes NVS basées sur le déblurage existantes sont conçues pour les images multi-visualités statiques, qui ne tiennent pas compte de la caméra globale et du mouvement d'objet local. De plus, des vidéos floues conduisent souvent à des estimations de pose de caméra inexactes et à la perte de précision géométrique.

Pour résoudre ces problèmes, une équipe de recherche dirigée conjointement par le professeur adjoint Jihyong OH de la Graduate School of Advanced Imaging Science (GSIAM) de l'Université Chung-Ang (CAU) en Corée, et le professeur Munchurl Kim de Corée Advanced Institute of Science and Technology (Kaist), Corée, avec M. Minh-Quan Viet Bui, M. Jongmin Park, a développé MOBLURF, Minh-Quan Viet Bui, M. Jongmin Park, MOBLUR Nerfs.

« Notre cadre est capable de reconstruire des scènes 4D nettes et d'activer les NV à partir de vidéos monoculaires floues en utilisant la décomposition de mouvement, tout en évitant la supervision du masque, faisant progresser considérablement le champ Nerf », explique le Dr Oh. Leur étude est publiée dans Transactions IEEE sur l'analyse des modèles et l'intelligence machine.

MOBLURF se compose de deux étapes principales: l'initialisation des rayons de base (BRI) et le déblurage basé sur la décomposition (MDD). Les méthodes NVS basées sur le déblure existantes tentent de prédire les rayons de lumière pointus cachés dans des images floues, appelées rayons tranchants latents, en transformant un rayon appelé le rayon de base. Cependant, l'utilisation directe des rayons d'entrée dans des images floues car les rayons de base peuvent entraîner une prédiction inexacte. BRI aborde ce problème en reconstruisant à peu près les scènes 3D dynamiques à partir de vidéos floues et en affinant l'initialisation des « rayons de base » à partir des rayons de caméra imprécis.

Ensuite, ces rayons de base sont utilisés au stade MDD pour prédire avec précision les rayons pointus latents par le biais d'une méthode incrémentale de prédiction des rayons tranchants latentes (ILSP). L'ILSP décompose progressivement le flou du mouvement dans le mouvement mondial de la caméra et les composants de mouvement des objets locaux, améliorant considérablement la précision de la déblugure. Moblurf introduit également deux nouvelles fonctions de perte, une qui sépare les régions statiques et dynamiques sans masques de mouvement, et une autre qui améliore la précision géométrique des objets dynamiques, deux domaines où les méthodes précédentes ont lutté.

En raison de cette conception innovante, Moblurf surpasse les méthodes de pointe avec des marges significatives dans divers ensembles de données, à la fois quantitativement et qualitativement. Il est également robuste contre divers degrés de flou.

« En permettant la désinbullation et la reconstruction 3D à partir de captures portables occasionnelles, notre cadre permet aux smartphones et à d'autres appareils de consommation de produire un contenu plus net et plus immersif », remarque le Dr Oh. « Cela pourrait également aider à créer des modèles 3D croquants de séquences tremblantes à partir de musées, à améliorer la compréhension et la sécurité de la scène pour les robots et les drones, et réduire le besoin de configurations de capture spécialisées dans la réalité virtuelle et augmentée. »

Moblurf marque une nouvelle direction pour les nerfs, permettant des reconstructions 3D de haute qualité à partir de vidéos floues ordinaires enregistrées avec des appareils quotidiens.

Fourni par l'Université Chung Ang