Rendu d'images tridimensionnelles à partir de reflets oculaires avec NeRF

Rendu d’images tridimensionnelles à partir de reflets oculaires avec NeRF

Reconstruction du champ de rayonnement à l’aide des réflexions oculaires. L’œil humain est très réfléchissant. Nous montrons qu’à partir d’une séquence d’images qui capturent une tête en mouvement, nous pouvons reconstruire et restituer la scène 3D de ce que la personne observe en utilisant uniquement les reflets de ses yeux. Crédit: arXiv (2023). DOI : 10.48550/arxiv.2306.09348

La vision dépend de la lumière pénétrant dans les yeux à travers les tissus transparents de la cornée, de la pupille et du cristallin. Lorsque la lumière atteint la rétine, les photorécepteurs produisent des signaux et les transmettent via le nerf optique au cerveau, où une image se forme. Une partie de cette lumière pénétrant dans l’œil est réfléchie dans le monde par une fine pellicule de liquide hautement réfléchissante recouvrant la cornée.

Des chercheurs de l’Université du Maryland ont pu capturer cette lumière réfléchie et en extraire un modèle tridimensionnel de l’environnement. Dans un journal sur le serveur de pré-impression arXivintitulé « Voir le monde à travers vos yeux », l’équipe décrit les méthodes utilisées pour capturer les reflets des yeux et les transformer en rendus 3D cohérents à l’aide d’un algorithme de rendu visuel spécialement formé par l’IA appelé NeRF.

Un champ de rayonnement neuronal (NeRF) est un réseau de neurones IA qui peut générer de nouvelles vues continues de scènes 3D complexes basées sur plusieurs images 2D. Généralement avec quelques dizaines d’images fixes sous différents angles, NeRF peut générer une représentation 3D avec suffisamment de profondeur et de détails pour être presque impossible à distinguer d’une vidéo qui peut se déplacer autour d’un objet ou d’un espace.

Dans l’effort actuel de l’équipe du Maryland, ils commencent avec plusieurs images d’une caméra haute résolution dans une position fixe, focalisées sur un individu en mouvement regardant vers la caméra, encadrées comme une photo de passeport ou de permis de conduire. En zoomant sur le reflet dans l’œil de la personne imagée, une image miroir du champ de vision est visible et les objets dans la zone sont identifiables.

Dans l’image se trouvent toutes sortes d’artefacts de l’œil, la complexité des textures de l’iris et les reflets identifiables mais à basse résolution capturés dans chaque image. Pour supprimer l’iris des images, la décomposition de la texture a été effectuée en formant une carte de texture 2D qui apprend la texture de l’iris et la supprime.

En exploitant la géométrie de la cornée, qui est à peu près la même pour tous les adultes, des calculs ont été effectués pour suivre exactement où regardent leurs yeux. Cela permet également de déterminer l’angle de la caméra, de tracer les coordonnées des images sur la géométrie courbe et de définir une direction de visualisation que le NeRF AI utilisera ultérieurement pour reconstruire le rendu 3D. Malgré de subtiles inexactitudes dans l’emplacement de la cornée et les estimations de la géométrie, la méthode s’est avérée efficace pour la reconstruction de la scène.

Des lumières de zone placées à côté de la personne (hors cadre) ont été utilisées pour éclairer l’objet d’intérêt devant elle. La personne photographiée a été invitée à se déplacer dans le champ de vision de la caméra pendant que plusieurs images étaient capturées.

En testant la méthode sur un œil humain, on voit un rendu de résolution très modeste de l’image, mais dans un rendu 3D mappé en profondeur.

Dans un test synthétique plus idéalisé utilisant un faux œil devant une image numérique, une image plus évidente a été obtenue avec une résolution améliorée de la cartographie 3D.

Un troisième test a appliqué la méthode à des images de réflexion oculaire capturées à partir de vidéos musicales de Miley Cyrus et Lady Gaga dans le but de reconstruire ce qu’elles observent pendant le tournage de leurs vidéos.

L’image de l’œil de Miley Cyrus semble être une lumière de grille LED, ce qui serait approprié car elle verse une larme dans la vidéo et regarder dans une lumière vive pourrait aider à obtenir l’effet souhaité. Dans l’œil de Lady Gaga, il y a ce qu’on pourrait interpréter comme un appareil photo sur trépied, mais l’image est floue.

Dans les deux scénarios de vidéo musicale testés, le sujet rockstar est probablement la seule chose dans le studio à être bien éclairée, car les lumières, la caméra et l’action sont tout à leur sujet. Dans une situation plus banale, comme un appel Zoom ou une série de messages de selfie, l’éclairage peut être plus propice à la collecte d’informations sur l’environnement.