Le système de vision par ordinateur allie reconnaissance et génération d'images

Le système de vision par ordinateur allie reconnaissance et génération d’images

Un système de vision unifiée connu sous le nom de Msked Generative Encoder (MAGE), développé par des chercheurs du MIT et de Google, pourrait être utile pour de nombreuses choses, comme trouver et classer des objets dans une image, apprendre à partir de quelques exemples, générer des images avec des conditions spécifiques telles que sous forme de texte ou de classe, modification d’images existantes, etc. Crédit : Alex Shipps/MIT CSAIL via Midjourney

Les ordinateurs possèdent deux capacités remarquables en ce qui concerne les images : ils peuvent à la fois les identifier et les générer à nouveau. Historiquement, ces fonctions sont restées distinctes, s’apparentant aux actes disparates d’un chef doué pour créer des plats (génération) et d’un connaisseur doué pour la dégustation (reconnaissance).

Pourtant, on ne peut s’empêcher de se demander : que faudrait-il pour orchestrer une union harmonieuse entre ces deux capacités distinctes ? Le chef et le connaisseur partagent une compréhension commune du goût de la nourriture. De même, un système de vision unifiée nécessite une compréhension approfondie du monde visuel.

Aujourd’hui, des chercheurs du Laboratoire d’informatique et d’intelligence artificielle (CSAIL) du MIT ont formé un système pour déduire les parties manquantes d’une image, une tâche qui nécessite une compréhension approfondie du contenu de l’image. En remplissant avec succès les blancs, le système, connu sous le nom de Masked Generative Encoder (MAGE), atteint deux objectifs en même temps : identifier avec précision les images et en créer de nouvelles avec une ressemblance frappante avec la réalité.

Ce système à double usage permet une myriade d’applications potentielles, telles que l’identification et la classification d’objets dans les images, l’apprentissage rapide à partir d’exemples minimaux, la création d’images dans des conditions spécifiques telles que le texte ou la classe, et l’amélioration des images existantes.

Contrairement à d’autres techniques, MAGE ne fonctionne pas avec des pixels bruts. Au lieu de cela, il convertit les images en ce qu’on appelle des « jetons sémantiques », qui sont des versions compactes, mais abstraites, d’une section d’image. Considérez ces jetons comme des mini pièces de puzzle, chacune représentant un patch 16×16 de l’image originale. Tout comme les mots forment des phrases, ces jetons créent une version abstraite d’une image qui peut être utilisée pour des tâches de traitement complexes, tout en préservant les informations de l’image d’origine. Une telle étape de tokenisation peut être entraînée dans un cadre auto-supervisé, ce qui lui permet de se pré-entraîner sur de grands ensembles de données d’images sans étiquettes.

Désormais, la magie commence lorsque MAGE utilise la « modélisation de jetons masqués ». Il cache au hasard certains de ces jetons, créant un puzzle incomplet, puis forme un réseau de neurones pour combler les lacunes. De cette façon, il apprend à la fois à comprendre les motifs d’une image (reconnaissance d’image) et à en générer de nouveaux (génération d’image).

« Une partie remarquable de MAGE est sa stratégie de masquage variable pendant la pré-formation, lui permettant de s’entraîner à la tâche, à la génération d’images ou à la reconnaissance, au sein du même système », explique Tianhong Li, titulaire d’un doctorat. étudiant en génie électrique et en informatique au MIT, une filiale de CSAIL, et auteur principal d’un article sur la recherche. « La capacité de MAGE à travailler dans » l’espace des jetons « plutôt que dans » l’espace des pixels « se traduit par une génération d’images claires, détaillées et de haute qualité, ainsi que des représentations d’images sémantiquement riches. Cela pourrait, espérons-le, ouvrir la voie à une vision par ordinateur avancée et intégrée. des modèles. »

Outre sa capacité à générer des images réalistes à partir de zéro, MAGE permet également la génération d’images conditionnelles. Les utilisateurs peuvent spécifier certains critères pour les images qu’ils souhaitent que MAGE génère, et l’outil préparera l’image appropriée. Il est également capable d’effectuer des tâches d’édition d’images, telles que la suppression d’éléments d’une image tout en conservant une apparence réaliste.

Les tâches de reconnaissance sont un autre point fort de MAGE. Grâce à sa capacité de pré-entraînement sur de grands ensembles de données non étiquetés, il peut classer les images en utilisant uniquement les représentations apprises. De plus, il excelle dans l’apprentissage en quelques prises de vue, obtenant des résultats impressionnants sur de grands ensembles de données d’images comme ImageNet avec seulement une poignée d’exemples étiquetés.

La validation des performances de MAGE a été impressionnante. D’une part, il a établi de nouveaux records dans la génération de nouvelles images, surpassant les modèles précédents avec une amélioration significative. D’autre part, MAGE était en tête des tâches de reconnaissance, atteignant une précision de 80,9 % dans le sondage linéaire et une précision de 71,9 % sur 10 coups sur ImageNet (cela signifie qu’il a correctement identifié les images dans 71,9 % des cas où il n’avait que 10 exemples étiquetés de chaque classe).

Malgré ses atouts, l’équipe de recherche reconnaît que MAGE est un travail en cours. Le processus de conversion des images en jetons entraîne inévitablement une certaine perte d’informations. Ils sont désireux d’explorer les moyens de compresser les images sans perdre de détails importants dans les travaux futurs. L’équipe a également l’intention de tester MAGE sur des ensembles de données plus importants. L’exploration future pourrait inclure la formation de MAGE sur de plus grands ensembles de données non étiquetés, ce qui pourrait conduire à des performances encore meilleures.

« Ce fut un rêve de longue date de parvenir à la génération et à la reconnaissance d’images dans un seul système. MAGE est une recherche révolutionnaire qui exploite avec succès la synergie de ces deux tâches et en atteint l’état de l’art dans un seul système, « , explique Huisheng Wang, ingénieur logiciel senior des humains et des interactions au sein de la division Recherche et intelligence artificielle de Google, qui n’a pas participé aux travaux. « Ce système innovant a de nombreuses applications et a le potentiel d’inspirer de nombreux travaux futurs dans le domaine de la vision par ordinateur. »

Les conclusions sont publiées sur le arXiv serveur de préimpression.