Un cadre de reconnaissance faciale basé sur des transformateurs de vision

19 décembre 2022
caractéristique

Illustration du ViT partiel de l’équipe pour la reconnaissance faciale. Une image faciale est traitée par un repère CNN léger qui produit un ensemble de repères faciaux. Les points de repère sont utilisés pour échantillonner des parties du visage à partir de l’image d’entrée qui sont ensuite utilisées comme entrée dans un ViT pour l’extraction et la reconnaissance des caractéristiques. L’ensemble du système est formé de bout en bout sans supervision de point de repère. Des exemples de points de repère détectés par le point de repère CNN sont présentés. Crédit : Sun & Tzimiropoulos.

Les outils de reconnaissance faciale sont des modèles informatiques qui peuvent identifier des personnes spécifiques dans des images, ainsi que des séquences vidéo ou de vidéosurveillance. Ces outils sont déjà utilisés dans un large éventail de contextes réels, par exemple pour aider les forces de l’ordre et les agents de contrôle aux frontières dans leurs enquêtes criminelles et leurs efforts de surveillance, ainsi que pour les applications d’authentification et biométriques. Bien que la plupart des modèles existants fonctionnent remarquablement bien, il reste encore beaucoup à faire.

Des chercheurs de l’Université Queen Mary de Londres ont récemment créé une nouvelle architecture prometteuse pour la reconnaissance faciale. Cette architecture, présentée dans un article prépublié sur arXivrepose sur une stratégie d’extraction des traits du visage à partir d’images qui diffère de la plupart de celles proposées jusqu’à présent.

« Les méthodes holistiques utilisant les réseaux de neurones convolutionnels (CNN) et les pertes basées sur les marges ont dominé la recherche sur la reconnaissance faciale », ont déclaré Zhonglin Sun et Georgios Tzimiropoulos, les deux chercheurs qui ont mené l’étude, à TechXplore.

« Dans ce travail, nous nous éloignons de ce cadre de deux manières : (a) nous utilisons le transformateur de vision comme architecture pour former une base de référence très solide pour la reconnaissance faciale, simplement appelée fViT, qui dépasse déjà la plupart des technologies de pointe. méthodes de reconnaissance faciale. (b) Deuxièmement, nous capitalisons sur la propriété inhérente du transformateur pour traiter les informations (jetons visuels) extraites de grilles irrégulières pour concevoir un pipeline de reconnaissance faciale qui rappelle les méthodes de reconnaissance faciale basées sur les parties.

Les approches de reconnaissance faciale les plus répandues sont basées sur les CNN, une classe de réseaux de neurones artificiels (CNN) qui peuvent apprendre de manière autonome à trouver des modèles dans les images, par exemple en identifiant des objets ou des personnes spécifiques. Si certaines de ces méthodes atteignaient de très bonnes performances, des travaux récents ont mis en évidence le potentiel d’une autre classe d’algorithmes pour la reconnaissance faciale, les transformateurs de vision (ViTs).

Contrairement aux CNN, qui analysent généralement les images dans leur intégralité, les ViT divisent une image en patchs d’une taille spécifique, puis ajoutent des incorporations à ces patchs. La séquence de vecteurs résultante est ensuite transmise à un transformateur standard, un modèle d’apprentissage en profondeur qui pèse de manière différentielle différentes parties des données qu’il analyse.

« Le ViT, contrairement aux CNN, peut en fait fonctionner sur des patchs extraits de grilles irrégulières et ne nécessite pas la grille d’échantillonnage uniformément espacée utilisée pour les convolutions », expliquent les chercheurs dans leur article. « Comme le visage humain est un objet structuré composé de parties (par exemple, les yeux, le nez, les lèvres), et inspiré par des travaux fondateurs sur la reconnaissance faciale basée sur les parties avant l’apprentissage en profondeur, nous proposons d’appliquer ViT sur des patchs représentant des parties du visage. »

L’architecture du transformateur de vision créée par Sun et Tzimiropoulos, baptisée partie fViT, est composée d’un réseau léger et d’un transformateur de vision. Le réseau prédit les coordonnées des repères faciaux (par exemple, le nez, la bouche, etc.), tandis que le transformateur analyse les patchs contenant les repères prédits.

Les chercheurs ont formé différents transformateurs de visage à l’aide de deux ensembles de données bien connus, à savoir le MS1MV3, qui contient des images de 93 431 personnes et le VGGFace2, avec 3,1 millions d’images et 8 600 identités. Par la suite, ils ont effectué une série de tests pour évaluer leurs modèles, modifiant également certaines de leurs fonctionnalités pour tester comment cela affectait leurs performances.

Leur architecture a atteint des précisions remarquables pour tous les ensembles de données sur lesquels elle a été testée, comparables à celles de nombreux autres modèles de reconnaissance faciale à la pointe de la technologie. De plus, leurs modèles semblaient réussir à délimiter les repères faciaux sans être spécifiquement formés pour cela.

À l’avenir, cette étude récente pourrait inspirer le développement d’autres modèles de reconnaissance faciale basés sur des transformateurs de vision. De plus, l’architecture des chercheurs pourrait être implémentée dans des applications ou des outils logiciels qui pourraient bénéficier de l’analyse sélective de différents repères faciaux.