L'outil de vidéoconférence 3D permet à l'utilisateur distant de contrôler la vue

Collaborer sur un objet physique lorsque deux personnes ne sont pas dans la même pièce peut s'avérer extrêmement difficile, mais un nouveau système de conférence à distance permet à l'utilisateur distant de manipuler une vue de la scène en 3D, pour l'aider dans des tâches complexes telles que le débogage d'un matériel compliqué.

Le système, appelé SharedNeRF, combine deux techniques de rendu graphique – une lente et photoréaliste et une autre instantanée mais moins précise – pour aider l'utilisateur distant à expérimenter l'espace physique du collaborateur.

« Ce serait un changement de paradigme », a déclaré Mose Sakashita, doctorant dans le domaine des sciences de l'information qui a développé le système.

« Cela permettrait aux gens de travailler sur des tâches qui n'ont jamais été possibles et qui sont très difficiles à transmettre via des systèmes vidéo avec un seul angle. »

Sakashita a conçu l'outil de conférence à distance en tant que stagiaire chez Microsoft en 2023, en collaboration avec Andrew Wilson '93, ancien étudiant en informatique à Cornell. Sakashita présentera le travail « SharedNeRF : Leveraging Photorealistic and View Dependent Rendering for Real-time and Remote Collaboration », le 16 mai lors de la conférence CHI de l'Association of Computing Machinery (ACM) sur les facteurs humains dans les systèmes informatiques (CHI'24). Le journal a reçu une mention honorable.

« Lorsque vous effectuez une tâche impliquant des objets physiques, comme réparer un robinet de cuisine ou assembler un circuit, les systèmes de vidéoconférence actuels sont plutôt encombrants », a déclaré Wilson. « Dernièrement, il y a eu une explosion d'innovations dans les techniques d'infographie et de rendu. SharedNeRF est l'une des premières explorations de l'utilisation de ces techniques pour résoudre les problèmes qui surviennent lors de l'affichage de plus que des têtes parlantes. »

Les recherches supérieures de Sakashita dans le laboratoire de François Guimbretière, professeur de sciences de l'information au Cornell Ann S. Bowers College of Computing and Information Science et au département multicollégial de Design Tech, se concentrent sur le développement de nouvelles technologies pour soutenir la collaboration à distance.

SharedNeRF adopte une nouvelle approche de la collaboration à distance en employant une méthode de rendu graphique appelée champ de radiance neuronale (NeRF). NeRF utilise l'intelligence artificielle pour construire une représentation 3D d'une scène à l'aide d'images 2D. Il crée des représentations incroyablement réalistes, avec des reflets, des objets transparents et des textures précises, qui peuvent être vues depuis n'importe quelle direction.

Dans le système SharedNeRF, le collaborateur local porte une caméra frontale pour enregistrer la scène. Les images résultantes alimentent un modèle d'apprentissage profond NeRF, qui restitue la scène en 3D pour le collaborateur distant, qui peut faire pivoter le point de vue à sa guise.

Lorsque la scène change, le modèle NeRF met à jour la vue. Cette mise à jour prend cependant un certain temps (environ 15 secondes). L'équipe de Sakashita a donc fusionné les visuels détaillés créés par NeRF avec le rendu par nuages de points, une technologie plus rapide.

La caméra frontale et une deuxième caméra RVB-D, qui détecte la couleur et la profondeur, installées en face de l'utilisateur, capturent la scène comme un ensemble de points dans l'espace. La méthode peut rapidement transmettre des parties dynamiques de la scène, comme des mains en mouvement.

En fusionnant les deux techniques de rendu, un utilisateur distant peut visualiser la scène sous différents angles en haute qualité grâce à NeRF tout en observant les mouvements de la scène en temps réel grâce à des nuages de points.

SharedNeRF affiche également un avatar du chef du collaborateur local, afin que l'utilisateur distant puisse voir où il regarde.

Sept volontaires ont testé SharedNeRF en réalisant un projet collaboratif de composition florale avec un partenaire. Par rapport à un outil de visioconférence standard, ou simplement au rendu de nuages de points, cinq des volontaires ont préféré SharedNeRF. Tous ont convenu que le système les a aidés à voir les détails de la conception et leur a donné un meilleur contrôle sur ce qu'ils voyaient.

« Nous avons constaté que les gens appréciaient vraiment de pouvoir changer de point de vue de manière indépendante », a déclaré Sakashita. Beaucoup ont également apprécié de pouvoir zoomer et dézoomer sur la composition florale sans avoir à expliquer au collaborateur local quelle vue ils souhaitaient voir.

Actuellement, SharedNeRF est conçu uniquement pour une collaboration individuelle, mais les chercheurs envisagent qu'il pourrait être étendu à plusieurs utilisateurs. La technologie pourrait également être utilisée pour enregistrer et archiver des événements, tels que des démonstrations pédagogiques ou des interventions chirurgicales, afin que les étudiants puissent les revoir sous différents angles.

Sakashita a déclaré que des travaux futurs seraient nécessaires pour améliorer la qualité de l'image et offrir une expérience plus immersive grâce à des techniques de réalité virtuelle ou de réalité augmentée.