Le logiciel crée des vues entièrement nouvelles à partir d’une vidéo existante
Les cinéastes pourraient bientôt être en mesure de stabiliser une vidéo tremblante, de changer de point de vue et de créer des effets d’arrêt sur image, de zoom et de ralenti – sans enregistrer de nouvelles séquences – grâce à un algorithme développé par des chercheurs de l’Université Cornell et de Google Research.
Le logiciel, appelé DynIBar, synthétise de nouvelles vues en utilisant les informations de pixel de la vidéo originale, et fonctionne même avec des objets en mouvement et des caméras instables. Le travail est une avancée majeure par rapport aux efforts précédents, qui ne donnaient que quelques secondes de vidéo et rendaient souvent les sujets en mouvement flous ou glitchs.
Le code de cet effort de recherche est disponible gratuitement, bien que le projet n’en soit qu’à ses débuts et qu’il ne soit pas encore intégré aux outils de montage vidéo commerciaux.
« Bien que cette recherche n’en soit qu’à ses débuts, je suis vraiment enthousiasmé par les futures applications potentielles pour un usage personnel et professionnel », a déclaré Noah Snavely, chercheur à Google Research et professeur associé d’informatique à Cornell Tech et au Cornell Ann S. Bowers College of Computing and Information Science.
Snavely a présenté ce travail, « DynIBaR : Neural Dynamic Image-Based Rendering », à la conférence IEEE/CVF 2023 sur la vision par ordinateur et la reconnaissance de formes, le 20 juin, où il a reçu une mention honorable pour le prix du meilleur article. Zhengqi Li, Ph.D, de Google Research était l’auteur principal de l’étude.
« Au cours des dernières années, nous avons constaté des progrès majeurs dans les méthodes de synthèse de vues – des algorithmes capables de prendre une collection d’images capturant une scène à partir d’un ensemble discret de points de vue et de restituer de nouvelles vues de cette scène », a déclaré Snavely. « Cependant, la plupart de ces méthodes échouent sur des scènes avec des personnes ou des animaux en mouvement, des arbres qui se balancent, etc. C’est un gros problème car de nombreuses choses intéressantes dans le monde sont des choses qui bougent. »
Les méthodes existantes pour rendre de nouvelles vues de scènes fixes, telles que celles qui font apparaître une photo en 3D, prennent la grille 2D de pixels d’une image et reconstruisent la forme et l’apparence 3D de chaque objet de la photo. DynIBar va encore plus loin en estimant également la façon dont les objets se déplacent dans le temps. Mais la prise en compte des quatre dimensions crée un problème mathématique incroyablement difficile.
Les chercheurs ont simplifié ce problème en utilisant une approche d’infographie développée dans les années 1990 appelée rendu basé sur l’image. À l’époque, il était difficile pour les méthodes d’infographie traditionnelles de rendre des scènes complexes avec de nombreuses petites pièces, comme un arbre feuillu, de sorte que les chercheurs en graphisme ont développé des méthodes qui prennent des images d’une scène, puis modifient et recombinent les pièces pour générer de nouvelles images. De cette façon, la plus grande partie de la complexité était stockée dans l’image source et pouvait se charger plus rapidement.
« Nous avons intégré l’idée classique du rendu basé sur l’image et cela rend notre méthode capable de gérer des scènes vraiment complexes et des vidéos plus longues », a déclaré le co-auteur Qianqian Wang, doctorant dans le domaine de l’informatique à Cornell Tech. Wang a développé une méthode pour utiliser le rendu basé sur l’image pour synthétiser de nouvelles vues d’images fixes, sur lesquelles le nouveau logiciel s’appuie.
Malgré les avancées, ces fonctionnalités pourraient ne pas arriver de sitôt sur votre smartphone. Le logiciel prend plusieurs heures pour traiter seulement 10 ou 20 secondes de vidéo, même sur un ordinateur puissant. À court terme, la technologie pourrait être plus appropriée pour une utilisation dans un logiciel de montage vidéo hors ligne, a déclaré Snavely.
Le prochain obstacle consistera à déterminer comment rendre de nouvelles images lorsque les informations sur les pixels manquent dans la vidéo d’origine, par exemple lorsque le sujet se déplace trop rapidement ou que l’utilisateur souhaite faire pivoter le point de vue de 180 degrés. Snavely et Wang prévoient qu’il sera bientôt possible d’intégrer des techniques d’IA génératives, telles que des générateurs de texte en image, pour aider à combler ces lacunes.