Le cadre de chaîne de zoom permet un zoom super-résolution extrême sans recyclage

Un trio de chercheurs de l'IA chez Kaist AI, en Corée, a développé ce qu'ils appellent un cadre en chaîne de zoom qui permet la génération d'images super-résolution extrêmes utilisant des modèles de super-résolution existants sans avoir besoin de recyclage.

Dans leur étude publiée sur le arxiv Le serveur préalable, Bryan Sangwoo Kim, Jeongsol Kim et Jong Chul Ye ont décomposé le processus de zoom sur une image, puis ont utilisé un modèle de super-résolution existant à chaque étape pour affiner l'image, entraînant des améliorations progressives de la résolution.

L'équipe en Corée a commencé par noter que les cadres existants pour améliorer la résolution des images ont tendance à utiliser l'interpolation ou la régression lors du zoom, ce qui entraîne une imagerie floue. Pour surmonter ces problèmes, ils ont adopté une nouvelle approche – en utilisant un processus de zoom par étapes, dans lequel les étapes ultérieures améliorent celles qui ont précédé.

Les chercheurs appellent leur nouvelle chaîne-framework de zoom (COZ), en raison de la chaîne de processus utilisés pour améliorer la résolution.

Pour chaque étape, le nouveau cadre utilise un modèle de super-résolution (SR) qui existe déjà pour commencer le processus de raffinement. À mesure que un tel traitement se déroule, un modèle de vision-modèle (VLM) génère des invites descriptives qui aident le modèle SR à mener le processus de génération. Le résultat est la génération d'une partie zoomée de la première image.

Le cadre de chaîne de zoom permet un zoom super-résolution extrême à l'aide de modèles existants sans recyclage

Le cadre répète ensuite le processus, en utilisant des indices utiles de VLM, à plusieurs reprises, améliorant la résolution de l'image zoomée à chaque fois, jusqu'à ce que la version finale. Pour s'assurer que les invites données par le VLM étaient utiles, l'équipe de recherche a appliqué des techniques d'apprentissage de renforcement. Les tests du cadre ont montré qu'il est capable de baisser l'imagerie générée par des repères standard.

Les chercheurs notent que leur cadre ne nécessite pas de recyclage pour améliorer la qualité de l'image, ce qui, leur suggère, le rend plus portable. Ils déclarent également que les utilisateurs doivent faire attention à la façon dont leur cadre est utilisé. L'image zoomée n'est pas réelle – elle a été générée en utilisant l'intelligence artificielle.

Ainsi, si elle devait être utilisée pour élaborer les lettres et / ou les chiffres sur une plaque d'immatriculation de voiture en escapade utilisée lors d'un vol de banque, par exemple, cela pourrait montrer des lettres et des chiffres très clairs, mais ils pourraient ne pas correspondre à ceux de la vraie voiture.