Un nouvel outil d'optimisation permet une meilleure estimation du mouvement vidéo

Les chercheurs de Cornell ont développé un nouvel outil d’optimisation pour estimer le mouvement dans une vidéo d’entrée, qui a des applications potentielles dans le montage vidéo et la création vidéo générative par IA.

L’outil, appelé OmniMotion, est décrit dans un article intitulé « Tracking Everything, Everywhere, All at Once », présenté à la Conférence internationale sur la vision par ordinateur, du 2 au 6 octobre à Paris.

« Il existe deux paradigmes dominants dans l’estimation du mouvement : le flux optique, qui est dense mais à courte portée, et le suivi des caractéristiques, qui est clairsemé mais à longue portée », a déclaré Noah Snavely, professeur agrégé d’informatique à Cornell Tech et au Cornell Ann. Collège S. Bowers d’informatique et des sciences de l’information. « Notre méthode nous permet d’avoir un suivi à la fois dense et à longue portée dans le temps. »

OmniMotion utilise ce que les chercheurs appellent « une représentation quasi-3D » : une forme détendue de 3D qui conserve des propriétés importantes (telles que le suivi des pixels lorsqu’ils passent derrière d’autres objets) sans les défis de la reconstruction 3D dynamique.

« Nous avons trouvé un moyen de lui faire estimer une 3D plus qualitative », a déclaré Snavely. « Cela veut dire : ‘Je ne sais pas exactement où se trouvent ces deux objets dans l’espace 3D, mais je sais que celui-ci est devant celui-là.’ Vous ne pouvez pas le considérer comme un modèle 3D, car les choses seraient déformées, mais il capture les relations d’ordre entre les objets. »

La nouvelle méthode prend un petit échantillon d’images et d’estimations de mouvement pour créer une représentation complète du mouvement pour l’ensemble de la vidéo. Une fois optimisée, la représentation peut être interrogée avec n’importe quel pixel dans n’importe quelle image pour produire une trajectoire de mouvement fluide et précise sur toute la vidéo.

Cela serait utile, a déclaré Snavely, lors de l’intégration d’images générées par ordinateur, ou CGI, dans le montage vidéo.

« Si je veux placer un objet, par exemple un autocollant, sur une vidéo, je dois alors savoir où il doit se trouver dans chaque image », a-t-il déclaré. « Je le place donc dans la première image de la vidéo ; pour éviter d’avoir à modifier minutieusement chaque image suivante, ce serait bien si je pouvais simplement savoir où il devrait se trouver dans chaque image, ainsi que s’il le devrait. Je ne serai pas là, s’il y a quelque chose qui l’obstrue. »

OmniMotion pourrait également aider à éclairer les algorithmes dans les applications génératives de synthèse texte-vidéo, a déclaré Snavely.

« Souvent, ces modèles texte-vidéo ne sont pas très cohérents », a-t-il déclaré. « Les objets changeront de taille au cours de la vidéo, ou les gens se déplaceront de manière étrange, et c’est parce qu’ils génèrent simplement les pixels bruts d’une vidéo. Ils n’ont aucune idée de la dynamique sous-jacente qui entraînerait l’apparition de pixels. mouvement.

« Nous espérons qu’en fournissant des algorithmes pour estimer le mouvement dans les vidéos, nous pourrons contribuer à améliorer la cohérence du mouvement des vidéos générées », a-t-il déclaré.

Qianqian Wang, chercheur postdoctoral à l’Université de Californie à Berkeley et chercheur scientifique chez Google Research, en est l’auteur principal. Les autres co-auteurs étaient Bharath Hariharan, professeur adjoint d’informatique à Cornell Bowers CIS ; les doctorants Yen-Yu Chang et Ruojin Cai ; et Aleksander Holynski, chercheur postdoctoral à Berkeley et scientifique chez Google Research ; et Zhengqi Li de Google Research.

Également lors de la conférence, Cai a présenté « Doppelgangers : apprendre à lever l’ambiguïté des images de structures similaires », qui utilise un ensemble massif de données de paires d’images pour entraîner les applications de vision par ordinateur à distinguer les images qui se ressemblent mais qui ne le sont pas, comme les différents côtés d’une horloge. tour ou bâtiment.

Pour Doppelgangers, Snavely et son équipe montrent comment utiliser les annotations d’images existantes stockées dans la base de données d’images Wikimedia Commons pour créer automatiquement un large ensemble de paires d’images étiquetées de surfaces 3D.

Doppelgangers comprend une collection de photos Internet de monuments et de sites culturels présentant des motifs répétés et des structures symétriques. L’ensemble de données comprend un grand nombre de paires d’images, chacune étant étiquetée comme paires de correspondance positives ou négatives.

« Big Ben ou la Tour Eiffel, elles se ressemblent en quelque sorte sous différents angles », a déclaré Snavely. « La vision par ordinateur n’est tout simplement pas assez performante pour distinguer les côtés. Nous avons donc inventé une méthode pour aider à déterminer quand deux choses se ressemblent mais sont différentes, et quand deux choses sont vraiment identiques. »

Dans Doppelgangers, un réseau de neurones est formé pour évaluer la distribution spatiale des points clés d’une image, afin de différencier des paires d’images qui se ressemblent mais qui sont différentes (comme deux visages différents de Big Ben) des images ayant un contenu de scène réellement identique. Cela serait utile dans la technologie de reconstruction 3D, a déclaré Snavely.

« Le réseau apprend probablement des choses comme si les arrière-plans sont identiques ou différents, ou s’il existe d’autres détails qui les différencient », a-t-il déclaré. « Ensuite, cela génère une probabilité : sont-ils vraiment correspondants, ou ont-ils simplement l’air de correspondre ? Nous pouvons ensuite intégrer cela aux pipelines de reconstruction 3D pour créer de meilleurs modèles. »