L'apprentissage profond favorise la mise au point automatique dynamique dans les images en niveaux de gris

Des chercheurs de l'Institut d'optique, de mécanique fine et de physique de Changchun de l'Académie chinoise des sciences ont développé une nouvelle méthode de mise au point automatique qui exploite la puissance de l'apprentissage profond pour sélectionner dynamiquement les régions d'intérêt dans les images en niveaux de gris. L'étude a été publiée dans la revue Capteurs.

Les méthodes de mise au point automatique traditionnelles peuvent être divisées en deux catégories : active et passive. La mise au point active repose sur des capteurs externes, ce qui augmente les coûts et la complexité. En revanche, la mise au point passive évalue la qualité de l'image pour contrôler la mise au point, mais les fenêtres de mise au point fixes et les fonctions d'évaluation conduisent souvent à des échecs de mise au point, en particulier dans les scènes complexes.

De plus, le manque de données complètes a freiné l'adoption généralisée des méthodes d'apprentissage profond dans l'autofocus. Les solutions d'autofocus traditionnelles basées sur l'image souffrent de problèmes tels que l'évaluation erronée des points lumineux et la respiration focale, où les changements de zoom de l'appareil photo et d'intensité lumineuse pendant la mise au point peuvent affecter l'évaluation de la netteté de l'image.

Dans cette étude, les chercheurs ont adopté une méthode en trois étapes pour résoudre ces problèmes. Tout d’abord, ils ont construit un ensemble de données complet de séquences d’images en niveaux de gris avec des ajustements de mise au point continus, capturant diverses scènes, des plus simples aux plus complexes et à des distances focales variables. Cet ensemble de données constitue une ressource précieuse pour la formation et l’évaluation des algorithmes de mise au point automatique.

Les chercheurs ont ensuite transformé le problème de mise au point automatique en une tâche de régression ordinale, en proposant deux stratégies de mise au point : la recherche sur pile complète et la prédiction sur une seule image. Ces stratégies permettent au réseau de se concentrer de manière adaptative sur les régions saillantes de l'image, éliminant ainsi le besoin de fenêtres de mise au point présélectionnées.

Enfin, les chercheurs ont conçu un réseau MobileViT équipé d'un mécanisme d'auto-attention linéaire. Ce réseau léger mais puissant permet une mise au point automatique dynamique avec un coût de calcul minimal, garantissant une mise au point rapide et précise.

Les expériences ont montré que la stratégie de recherche full-stack atteignait une erreur absolue moyenne (MAE) de 0,094 avec un temps de mise au point de 27,8 millisecondes, tandis que la stratégie de prédiction d'image unique atteignait une MAE de 0,142 en seulement 27,5 millisecondes. Ces résultats soulignent les performances supérieures de la méthode de mise au point automatique basée sur l'apprentissage profond.

Cette méthode de mise au point automatique basée sur l'apprentissage profond souligne le potentiel de l'IA pour améliorer les technologies d'imagerie traditionnelles. Les recherches futures pourraient explorer l'application de cette méthode aux images couleur et aux séquences vidéo. De plus, l'optimisation de l'architecture du réseau et des stratégies de mise au point pourrait conduire à une mise au point encore plus rapide et plus précise.