Des innovations approfondies en matière de focalisation/défocalisation ouvrent la voie à des systèmes de vision par ordinateur plus performants

Dans plusieurs applications de la vision par ordinateur, comme la réalité augmentée et les voitures autonomes, estimer la distance entre les objets et la caméra est une tâche essentielle. La profondeur de mise au point/défocalisation est l’une des techniques permettant d’obtenir un tel processus en utilisant le flou des images comme indice. La profondeur de mise au point/défocalisation nécessite généralement une pile d’images de la même scène prises avec différentes distances de mise au point, une technique connue sous le nom de « pile focale ».

Au cours de la dernière décennie, les scientifiques ont proposé de nombreuses méthodes différentes pour la profondeur depuis la focalisation/défocalisation, dont la plupart peuvent être divisées en deux catégories. La première catégorie comprend des méthodes basées sur des modèles, qui utilisent des modèles mathématiques et optiques pour estimer la profondeur de la scène en fonction de la netteté ou du flou. Le principal problème de ces méthodes, cependant, est qu’elles échouent pour les surfaces sans texture, qui ont pratiquement la même apparence sur l’ensemble de la pile focale.

La deuxième catégorie comprend des méthodes basées sur l’apprentissage, qui peuvent être entraînées pour effectuer efficacement la profondeur de mise au point/défocalisation, même pour les surfaces sans texture. Cependant, ces approches échouent si les paramètres de caméra utilisés pour une pile focale d’entrée sont différents de ceux utilisés dans l’ensemble de données d’entraînement.

Surmontant ces limitations, une équipe de chercheurs japonais a développé une méthode innovante de profondeur à partir de la focalisation/défocalisation qui aborde simultanément les problèmes mentionnés ci-dessus. Leur étude, publiée dans le Journal international de vision par ordinateurétait dirigé par Yasuhiro Mukaigawa et Yuki Fujimura de l’Institut des sciences et technologies de Nara (NAIST), Japon.

La technique proposée, baptisée « profondeur profonde à partir de la pile focale » (DDFS), combine une estimation de la profondeur basée sur un modèle avec un cadre d’apprentissage pour tirer le meilleur parti des deux mondes. Inspiré d’une stratégie utilisée en vision stéréo, DFFS consiste à établir un « volume de coût » basé sur la pile focale d’entrée, les paramètres de la caméra et un modèle de défocalisation de l’objectif.

En termes simples, le volume de coût représente un ensemble d’hypothèses de profondeur (valeurs de profondeur potentielles pour chaque pixel) et une valeur de coût associée calculée sur la base de la cohérence entre les images de la pile focale. « Le volume des coûts impose une contrainte entre les images de défocalisation et la profondeur de la scène, servant de représentation intermédiaire permettant une estimation de la profondeur avec différents paramètres de caméra aux moments de formation et de test », explique Mukaigawa.

La méthode DFFS utilise également un réseau codeur-décodeur, une architecture d’apprentissage automatique couramment utilisée. Ce réseau estime la profondeur de la scène progressivement, de manière grossière à fine, en utilisant « l’agrégation des coûts » à chaque étape pour apprendre de manière adaptative les structures localisées dans les images.

Les chercheurs ont comparé les performances du DDFS avec celles d’autres méthodes de pointe de profondeur de focalisation/défocalisation. Notamment, l’approche proposée a surpassé la plupart des méthodes dans diverses mesures pour plusieurs ensembles de données d’images. Des expériences supplémentaires sur les piles focales capturées avec la caméra de l’équipe de recherche ont prouvé le potentiel du DDFS, le rendant utile même avec seulement quelques images d’entrée dans les piles d’entrée, contrairement à d’autres techniques.

Dans l’ensemble, le DDFS pourrait constituer une approche prometteuse pour les applications nécessitant une estimation de la profondeur, notamment la robotique, les véhicules autonomes, la reconstruction d’images 3D, la réalité virtuelle et augmentée et la surveillance. « Notre méthode avec invariance de réglage de la caméra peut contribuer à étendre l’applicabilité des techniques d’estimation de la profondeur basées sur l’apprentissage », conclut Mukaigawa.