Une nouvelle méthode améliore l'efficacité des systèmes d'IA à transformateur de vision

Une nouvelle méthode améliore l’efficacité des systèmes d’IA à transformateur de vision

Illustration de (a) l’auto-attention basée sur la réduction spatiale et (b) le module PaCa proposé dans les applications de vision, où (HW) représente le nombre de patchs dans l’entrée avec H et W respectivement la hauteur et la largeur, et M un petit nombre prédéfini de clusters (par exemple, M = 100). Crédit: arXiv (2022). DOI : 10.48550/arxiv.2203.11987

Les transformateurs de vision (ViT) sont de puissantes technologies d’intelligence artificielle (IA) capables d’identifier ou de catégoriser des objets dans des images. Cependant, il existe des défis importants liés à la fois aux besoins en puissance de calcul et à la transparence de la prise de décision. Les chercheurs ont maintenant développé une nouvelle méthodologie qui répond à ces deux défis, tout en améliorant la capacité du ViT à identifier, classer et segmenter les objets dans les images.

Les transformateurs font partie des modèles d’IA existants les plus puissants. Par exemple, ChatGPT est une IA qui utilise une architecture de transformateur, mais les entrées utilisées pour l’entraîner sont le langage. Les ViT sont des IA basées sur des transformateurs qui sont formées à l’aide d’entrées visuelles. Par exemple, les ViT peuvent être utilisés pour détecter et catégoriser des objets dans une image, comme identifier toutes les voitures ou tous les piétons dans une image.

Cependant, les ViT sont confrontés à deux défis.

Premièrement, les modèles de transformateurs sont très complexes. Par rapport à la quantité de données connectées à l’IA, les modèles de transformateur nécessitent une puissance de calcul importante et utilisent une grande quantité de mémoire. Ceci est particulièrement problématique pour les ViT, car les images contiennent beaucoup de données.

Deuxièmement, il est difficile pour les utilisateurs de comprendre exactement comment les ViT prennent leurs décisions. Par exemple, vous avez peut-être entraîné un ViT à identifier les chiens sur une image. Mais il n’est pas tout à fait clair comment le ViT détermine ce qui est un chien et ce qui ne l’est pas. Selon l’application, la compréhension du processus de prise de décision du ViT, également connu sous le nom d’interprétabilité de son modèle, peut être très importante.

La nouvelle méthodologie ViT, appelée « Patch-to-Cluster attention » (PaCa), répond à ces deux défis.

« Nous relevons le défi lié aux demandes de calcul et de mémoire en utilisant des techniques de regroupement, qui permettent à l’architecture du transformateur de mieux identifier et se concentrer sur les objets d’une image », explique Tianfu Wu, auteur correspondant d’un article sur le travail et professeur agrégé de génie électrique et informatique à la North Carolina State University.

« Le clustering, c’est quand l’IA regroupe des sections de l’image, en fonction des similitudes qu’elle trouve dans les données d’image. Cela réduit considérablement les demandes de calcul sur le système. Avant le clustering, les demandes de calcul pour un ViT sont quadratiques. Par exemple, si le système tombe en panne une image en 100 unités plus petites, il faudrait comparer les 100 unités les unes aux autres, ce qui représenterait 10 000 fonctions complexes. »

« En regroupant, nous sommes en mesure d’en faire un processus linéaire, où chaque unité plus petite n’a besoin d’être comparée qu’à un nombre prédéterminé de clusters. Disons que vous dites au système d’établir 10 clusters ; ce ne serait que 1 000 fonctions complexes,  » dit Wu.

« Le clustering nous permet également d’aborder l’interprétabilité du modèle, car nous pouvons voir comment il a créé les clusters en premier lieu. Quelles fonctionnalités a-t-il décidé d’être importantes lors du regroupement de ces sections de données ? Et parce que l’IA ne crée qu’un petit nombre de grappes, nous pouvons les examiner assez facilement. »

Les chercheurs ont effectué des tests complets de PaCa, en le comparant à deux ViT de pointe appelés SWin et PVT.

« Nous avons constaté que PaCa surpassait SWin et PVT à tous points de vue », déclare Wu. « PaCa était meilleur pour classer les objets dans les images, mieux pour identifier les objets dans les images et meilleur pour la segmentation, définissant essentiellement les limites des objets dans les images. Il était également plus efficace, ce qui signifie qu’il était capable d’effectuer ces tâches plus rapidement que le autres ViT. »

« La prochaine étape pour nous consiste à faire évoluer PaCa en nous formant sur des ensembles de données fondamentaux plus vastes. »

L’article, « PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers », sera présenté à la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes, qui se tiendra du 18 au 22 juin à Vancouver, au Canada.

Il est publié sur le arXiv serveur de préimpression.