Un nouvel algorithme débloque des informations haute résolution pour la vision par ordinateur

Imaginez-vous en train de regarder une rue animée pendant quelques instants, puis d'essayer de dessiner de mémoire la scène que vous avez vue. La plupart des gens peuvent dessiner la position approximative des principaux objets comme les voitures, les personnes et les passages pour piétons, mais presque personne ne peut dessiner chaque détail avec une précision parfaite au pixel près. Il en va de même pour la plupart des algorithmes de vision par ordinateur modernes : ils sont fantastiques pour capturer les détails de haut niveau d'une scène, mais ils perdent des détails fins à mesure qu'ils traitent les informations.

Aujourd'hui, des chercheurs du MIT ont créé un système appelé « FeatUp » qui permet aux algorithmes de capturer simultanément tous les détails de haut et de bas niveau d'une scène, un peu comme la chirurgie oculaire au Lasik pour la vision par ordinateur.

Lorsque les ordinateurs apprennent à « voir » en regardant des images et des vidéos, ils se forgent des « idées » sur ce qu’il y a dans une scène à travers ce qu’on appelle des « fonctionnalités ». Pour créer ces fonctionnalités, des réseaux profonds et des modèles de base visuelle décomposent les images en une grille de petits carrés et traitent ces carrés en tant que groupe pour déterminer ce qui se passe sur une photo. Chaque petit carré est généralement composé de 16 à 32 pixels, de sorte que la résolution de ces algorithmes est considérablement plus petite que celle des images avec lesquelles ils travaillent. En essayant de résumer et de comprendre les photos, les algorithmes perdent une tonne de clarté des pixels.

L'algorithme FeatUp peut arrêter cette perte d'informations et augmenter la résolution de tout réseau profond sans compromettre la vitesse ou la qualité. Cela permet aux chercheurs d’améliorer rapidement et facilement la résolution de tout algorithme nouveau ou existant. Par exemple, imaginez essayer d’interpréter les prédictions d’un algorithme de détection du cancer du poumon dans le but de localiser la tumeur. L'application de FeatUp avant d'interpréter l'algorithme à l'aide d'une méthode telle que les cartes d'activation de classe (CAM) peut donner une vue considérablement plus détaillée (16 à 32x) de l'endroit où la tumeur pourrait être localisée selon le modèle.

FeatUp aide non seulement les praticiens à comprendre leurs modèles, mais peut également améliorer une panoplie de tâches différentes telles que la détection d'objets, la segmentation sémantique (attribution d'étiquettes aux pixels d'une image avec des étiquettes d'objet) et l'estimation de la profondeur. Il y parvient en fournissant des fonctionnalités haute résolution plus précises, essentielles à la création d’applications de vision allant de la conduite autonome à l’imagerie médicale.

« L'essence de toute vision par ordinateur réside dans ces fonctionnalités profondes et intelligentes qui émergent des profondeurs des architectures d'apprentissage profond. Le grand défi des algorithmes modernes est qu'ils réduisent les grandes images à de très petites grilles de fonctionnalités « intelligentes », obtenant des informations intelligentes mais perdre les détails les plus fins », explique Mark Hamilton, titulaire d'un doctorat au MIT. étudiant en génie électrique et informatique, affilié au Laboratoire d'informatique et d'intelligence artificielle du MIT (CSAIL), et co-auteur principal d'un article sur le projet.

« FeatUp permet d'obtenir le meilleur des deux mondes : des représentations hautement intelligentes avec la résolution de l'image d'origine. Ces fonctionnalités haute résolution améliorent considérablement les performances dans un spectre de tâches de vision par ordinateur, depuis l'amélioration de la détection d'objets et la prédiction de la profondeur jusqu'à une meilleure compréhension de votre processus décisionnel du réseau grâce à une analyse haute résolution.

Renaissance de la résolution

À mesure que ces grands modèles d’IA deviennent de plus en plus répandus, il devient de plus en plus nécessaire d’expliquer ce qu’ils font, ce qu’ils regardent et ce qu’ils pensent.

Mais comment FeatUp peut-il exactement découvrir ces détails précis ? Curieusement, le secret réside dans les images qui bougent et tremblent.

FeatUp applique notamment des ajustements mineurs (comme déplacer l'image de quelques pixels vers la gauche ou la droite) et observe comment un algorithme répond à ces légers mouvements de l'image. Il en résulte des centaines de cartes de fonctionnalités approfondies, toutes légèrement différentes, qui peuvent être combinées en un seul ensemble de fonctionnalités approfondies, nettes et haute résolution.

« Nous imaginons que certaines fonctionnalités haute résolution existent et que lorsque nous les remuons et les floutons, elles correspondent à toutes les fonctionnalités originales de basse résolution des images agitées. Notre objectif est d'apprendre à affiner la basse résolution. fonctionnalités en fonctionnalités haute résolution en utilisant ce « jeu » qui nous permet de savoir si nous réussissons », déclare Hamilton.

Cette méthodologie est analogue à la façon dont les algorithmes peuvent créer un modèle 3D à partir de plusieurs images 2D en garantissant que l'objet 3D prédit correspond à toutes les photos 2D utilisées pour le créer. Dans le cas de FeatUp, ils prédisent une carte de caractéristiques haute résolution cohérente avec toutes les cartes de caractéristiques basse résolution formées par le tremblement de l'image d'origine.

L'équipe note que les outils standard disponibles dans PyTorch étaient insuffisants pour répondre à leurs besoins et a introduit un nouveau type de couche réseau profonde dans sa quête d'une solution rapide et efficace. Leur couche personnalisée, une opération spéciale conjointe de suréchantillonnage bilatéral, était plus de 100 fois plus efficace qu’une implémentation naïve dans PyTorch.

L’équipe a également montré que cette nouvelle couche pourrait améliorer une grande variété d’algorithmes différents, notamment la segmentation sémantique et la prédiction de profondeur. Cette couche a amélioré la capacité du réseau à traiter et à comprendre les détails haute résolution, donnant à tout algorithme qui l'utilisait une amélioration substantielle des performances.

« Une autre application est ce qu'on appelle la récupération de petits objets, dans laquelle notre algorithme permet une localisation précise des objets. Par exemple, même dans des scènes de route encombrées, les algorithmes enrichis avec FeatUp peuvent voir de minuscules objets comme des cônes de signalisation, des réflecteurs, des lumières et des nids-de-poule là où leur faible visibilité est détectée. « Les cousins de résolution échouent. Cela démontre sa capacité à améliorer les caractéristiques grossières en signaux finement détaillés », déclare Stephanie Fu, titulaire d'un doctorat. étudiant à l'Université de Californie à Berkeley et autre co-auteur principal du nouvel article FeatUp.

« Cela est particulièrement critique pour les tâches urgentes, comme la localisation d'un panneau de signalisation sur une autoroute encombrée dans une voiture sans conducteur. Cela peut non seulement améliorer la précision de telles tâches en transformant des suppositions générales en localisations exactes, mais pourrait également rendre ces systèmes plus efficaces. » fiable, interprétable et digne de confiance.

Et après?

Concernant les aspirations futures, l'équipe souligne l'adoption potentielle généralisée de FeatUp au sein de la communauté de recherche et au-delà, semblable aux pratiques d'augmentation des données.

« L'objectif est de faire de cette méthode un outil fondamental d'apprentissage profond, en enrichissant les modèles pour percevoir le monde plus en détail sans l'inefficacité informatique du traitement haute résolution traditionnel », explique Fu.

« FeatUp représente une merveilleuse avancée pour rendre les représentations visuelles vraiment utiles, en les produisant à pleine résolution d'image », déclare Noah Snavely, professeur d'informatique à l'Université Cornell, qui n'a pas participé à la recherche.

« Les représentations visuelles apprises sont devenues très bonnes ces dernières années, mais elles sont presque toujours produites à très basse résolution. Vous pouvez insérer une belle photo en pleine résolution et obtenir une minuscule grille de caractéristiques de la taille d'un timbre-poste. C'est un problème si vous souhaitez utiliser ces fonctionnalités dans des applications qui produisent des sorties en pleine résolution. FeatUp résout ce problème de manière créative en combinant des idées classiques en super-résolution avec des approches d'apprentissage modernes, conduisant à de superbes cartes de fonctionnalités haute résolution. «

« Nous espérons que cette idée simple pourra avoir une large application. Elle fournit des versions haute résolution d'analyse d'images que nous pensions auparavant ne pouvoir être qu'en basse résolution », déclare l'auteur principal William T. Freeman, professeur de génie électrique et d'informatique au MIT. professeur de sciences et membre du CSAIL.

Les auteurs principaux, Fu et Hamilton, sont accompagnés d'un doctorat du MIT. les étudiants Laura Brandt et Axel Feldmann, ainsi que Zhoutong Zhang, Ph.D., tous affiliés actuels ou anciens du MIT CSAIL.

Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche, de l'innovation et de l'enseignement du MIT.