Les ordinateurs reconstruisent les environnements 3D à partir de photos 2D dans une fraction du temps

Imaginez essayer de faire un modèle tridimensionnel précis d'un bâtiment en utilisant uniquement des photos prises sous différents angles, mais vous ne savez pas où ni à quelle distance étaient toutes les caméras. Nos gros cerveaux humains peuvent remplir beaucoup de ces détails, mais les ordinateurs ont beaucoup plus de mal à le faire.

Ce scénario est un problème bien connu dans les systèmes de vision par ordinateur et de navigation par robot. Les robots, par exemple, doivent absorber de nombreuses informations 2D et faire des nuages de points 3D – collections des points de données dans l'espace 3D – afin d'interpréter une scène. Mais les mathématiques impliquées dans ce processus sont difficiles et sujettes aux erreurs, avec de nombreuses façons pour l'ordinateur d'estimer incorrectement les distances. Il est également lent, car il oblige l'ordinateur à créer son nuage de points 3D petit à petit.

Les informaticiens de la Harvard John A. Paulson School of Engineering and Applied Sciences (Seas) pensent qu'ils ont une meilleure méthode: un algorithme de percée qui permet aux ordinateurs de reconstruire des scènes 3D de haute qualité à partir d'images 2D beaucoup plus rapidement que les méthodes existantes.

Leurs recherches sont décrites dans un article, «Building Rome with Convex Optimization», qui a récemment reçu le prix du meilleur article Systems en mémoire de Seth Teller lors de la conférence Robotics: Science and Systems. Il a été rédigé par l'étudiant diplômé Haoyu Han et Heng Yang, professeur adjoint de génie électrique à la mer. Les résultats sont publiés sur le arxiv serveur de préimprimée.

« En combinant la prédiction de la profondeur de l'IA de pointe avec une nouvelle approche puissante dans l'optimisation numérique convexe, la méthode peut estimer les positions de tous les points d'une scène à la fois, sans avoir besoin de conjectures étape par étape », a déclaré Han. « En conséquence, le processus de reconstruction est non seulement plus rapide et plus robuste que les techniques traditionnelles, mais est également exempte de la nécessité de supposer initiales par l'ordinateur. »