Des chercheurs en vision par ordinateur développent un cadre de référence bilatéral pour la segmentation d'images dichotomiques à haute résolution

Des chercheurs en vision par ordinateur développent un cadre de référence bilatéral pour la segmentation d'images dichotomiques à haute résolution

Une équipe de recherche a développé une technique de vision par ordinateur qui permet de réaliser une segmentation d'image dichotomique, une détection d'objets saillants à haute résolution et une détection d'objets cachés dans le même cadre. Leur nouveau cadre de référence bilatéral (BiRefNet) est capable de capturer des caractéristiques de pixels minuscules et offre un potentiel pour une large gamme d'applications pratiques de vision par ordinateur.

Le travail est publié dans la revue Recherche en intelligence artificielle du CAAI.

Dans la recherche sur la vision par ordinateur, la technologie de segmentation d'images consiste à séparer les images numériques en parties significatives. Grâce à ce processus, les images sont plus faciles à analyser. Grâce aux progrès de l'acquisition d'images haute résolution, les scientifiques sont désormais en mesure de réaliser une segmentation d'objets très précise.

Cette nouvelle technologie est appelée segmentation d'image dichotomique haute résolution (DIS), et des entreprises comme Samsung, Adobe et Disney l'utilisent désormais. Cependant, les stratégies actuelles utilisées dans la DIS ne suffisent pas à capturer les caractéristiques les plus fines. Pour relever ces défis existants dans la DIS haute résolution, l'équipe de recherche a développé un module de référence bilatéral.

L'équipe a obtenu un DIS haute résolution avec une grande précision grâce à leur BiRefNet. « Avec le module de référence bilatéral proposé, BiRefNet montre une précision bien supérieure sur les images haute résolution, en particulier celles qui présentent des détails fins. Notre BiRefNet est, jusqu'à présent, le meilleur modèle open source et disponible dans le commerce pour l'extraction d'objets au premier plan », a déclaré Deng-Ping Fan, professeur à l'Université de Nankai.

Le nouveau réseau bilatéral progressif de référence de l'équipe, BiRefNet, gère la tâche DIS haute résolution avec des modules de localisation et de reconstruction séparés. Pour le module de localisation, ils ont extrait des caractéristiques hiérarchiques de l'ossature du transformateur de vision, qui sont ensuite combinées et compressées. Pour le module de reconstruction, ils ont en outre conçu les références entrantes et sortantes comme des références bilatérales, dans lesquelles l'image source et la carte de gradient sont introduites dans le décodeur à différentes étapes.

Au lieu de redimensionner les images originales en versions à résolution inférieure pour assurer la cohérence avec les fonctionnalités de décodage à chaque étape, ils ont conservé la résolution d'origine pour les fonctionnalités de détail intactes dans la référence interne et les ont recadrées de manière adaptative en patchs pour la compatibilité avec les fonctionnalités de décodage.

Leur BiRefNet fournit une base de référence simple mais solide qui permet d'effectuer des DIS de haute qualité. Sa référence interne avec guidage par image source complète les informations de mission dans les parties fines et sa référence externe avec supervision de gradient lui permet de se concentrer davantage sur les régions aux détails plus riches.

Grâce à ses résultats de segmentation extrêmement précis, BiRefNet a de nombreuses applications utiles. Il peut être utilisé dans des scénarios que les modèles de segmentation courants ne peuvent pas gérer. Par exemple, il peut détecter avec précision les fissures dans les murs, aider à les entretenir et déterminer quand les réparer. Il peut également réaliser une extraction très précise d'objets avec des grilles fines et des trous denses.

BiRefNet est déjà largement utilisé dans la communauté de la vision par ordinateur. Il a été intégré au système d'application Web ComfyUI en tant que meilleur nœud de matting d'image à ce jour pour une meilleure synthèse d'image basée sur la diffusion stable. BiRefNet est également largement utilisé pour la segmentation humaine ou de portrait dans les images et les vidéos.

À l’avenir, l’équipe prévoit d’étendre BiRefNet à d’autres tâches connexes, notamment la détection d’objets saillants à haute résolution, la détection d’objets camouflés, la segmentation de portraits et l’extraction d’objets guidée par invite. L’équipe a déjà fourni des modèles bien formés pour la plupart des tâches susmentionnées.

Ils travaillent également à adapter BiRefNet à une architecture plus légère pour une inférence plus rapide sur des images haute résolution et un déploiement plus facile sur les appareils périphériques. « Nous avons déjà fourni BiRefNet dans différentes grandeurs de paramètres, dont certaines ont atteint 30 images par seconde sur des images en résolution 1024 x 1024 », a déclaré Fan.

« L'objectif ultime est de maintenir notre BiRefNet comme le meilleur modèle open source pour une série de tâches connexes, telles que l'extraction d'objets au premier plan, le matting d'images et la segmentation de portraits, le rendant ainsi fort, gratuit et open source pour toujours pour tout le monde », a déclaré Fan.

Fourni par Tsinghua University Press