Comment savoir si ChatGPT peut reconnaître un visage ?
Au cours de la dernière année, ChatGPT a pu analyser des images ainsi que du texte grâce à sa dernière version : GPT-4V(ision).
Par exemple, si vous téléchargez une photo du contenu de votre réfrigérateur, ChatGPT peut décrire le contenu de la photo, puis recommander des idées de repas potentielles basées sur ces ingrédients, ainsi que des recettes adaptées. Ou vous pouvez photographier un croquis dessiné à la main de l'apparence que vous souhaitez donner à votre nouveau site Web et ChatGPT prendra cette image et vous fournira le code HTML pour créer le site.
Vous pouvez également télécharger une image fixe à mi-chemin d’un film. ChatGPT peut identifier le film et résumer l'intrigue jusqu'à ce point seulement. La liste des applications est pratiquement infinie.
En tant que chercheur intéressé par la perception des visages, je suis particulièrement curieux de savoir comment ChatGPT gère les images de visages, en faisant correspondre deux images différentes de la même personne, par exemple. Mais comment juger de l’efficacité du chatbot dans la reconnaissance des visages ? Pour explorer les performances des gens avec les visages, les psychologues ont mis au point de nombreux tests qui évaluent différentes capacités. J'ai donc décidé d'essayer ChatGPT sur certains d'entre eux.
Tout d'abord, je l'ai essayé avec le test « lire dans les yeux ». Dans cette tâche, seules les régions des yeux des photographies sont présentées, ainsi que quatre mots descriptifs comme options concernant ce que la personne sur la photo pense ou ressent (l'un d'eux étant la bonne réponse).
Le test, que vous pouvez essayer vous-même, est considéré comme une mesure de la « théorie de l'esprit ». Cela fait référence à la capacité d’une personne à interpréter le comportement d’une autre personne en fonction de son état mental. Les gens obtiennent généralement un score compris entre 26 et 31 sur 36 possibles. ChatGPT a répondu correctement à 29 questions, soit un peu plus que dans une étude récente dans laquelle d'autres chercheurs lui ont soumis le même test.
Au-delà des expressions faciales, j'ai ensuite testé ChatGPT sur une tâche appelée « Test de correspondance de visage de Glasgow », dans laquelle les participants se voient présenter 40 paires d'images de visage. La moitié des binômes sont constitués de deux photos montrant la même personne, prises avec des appareils photo différents. Pour l’autre moitié, les deux photos montrent deux personnes différentes mais se ressemblant.
Lorsqu'on leur demande si les images montrent ou non la même personne, le score moyen des participants est de 81,3 %. Lorsque j'ai soumis ChatGPT au test, il a obtenu un score de 92,5 %.
Enfin, je voulais envisager la reconnaissance faciale. Pour éviter les utilisations portant atteinte à la vie privée des personnes, ChatGPT a été conçu pour refuser lorsqu'on lui demande d'identifier des personnes dans des images. Cependant, lorsqu'on lui a demandé sa meilleure « hypothèse », il a été disposé à fournir des réponses lorsque je lui ai présenté ce que l'on appelle le « test des sosies des visages célèbres ».
Une paire de visages est présentée sur chacun des 40 essais, ainsi que le nom d'une célébrité, et les participants sont invités à identifier quel visage est cette célébrité particulière (gauche ou droite). On leur demande également s’ils connaissent ou non la célébrité.
La tâche est rendue difficile car l’autre visage ressemble beaucoup à la célébrité, en d’autres termes, un sosie. Les gens obtiennent généralement un score d'environ 81,5 % pour les essais dans lesquels la célébrité est connue de la personne. (S’ils ne savent pas qui est la célébrité, leur choix ne serait qu’une supposition.)
De manière impressionnante, ChatGPT a obtenu un score correct à 100 % dans tous les essais de ce test.
Mettre tout cela ensemble
D'après mon expérience, ChatGPT semble bien équipé pour effectuer des tâches liées à la reconnaissance et à l'identification des visages humains, y compris leurs expressions. Il a fonctionné aussi bien, voire mieux, que les gens pour ces trois tests, au moins.
Bien sûr, il s’agissait de mes premières explorations plutôt que d’une étude évaluée par des pairs, donc davantage de travail est nécessaire pour établir fermement ses capacités. Mais cela suggère que ChatGPT peut gérer les images de visage.
ChatGPT est basé sur un type de programme d'intelligence artificielle (IA) appelé grand modèle de langage (LLM), ce qui signifie qu'il a été formé sur une grande quantité de données textuelles (et désormais images). Cela lui permet d'apprendre la structure et les modèles qui existent dans les données, et de générer ensuite des réponses sensées à presque toutes les questions ou demandes de l'utilisateur.
ChatGPT affirme que les images de visages constituaient également une partie importante de ses données d'entraînement, bien qu'il ne stocke ni ne rappelle d'images spécifiques. Au lieu de cela, il semble s’appuyer sur les schémas généraux et les associations qu’il a appris au cours de sa formation. D'autres sources semblent le confirmer.
Vraisemblablement, grâce à l’exposition de nombreuses images de visages accompagnées d’un texte incluant le mot « suspect », par exemple, il a pu développer une représentation de cette expression faciale qui était distincte d’autres expressions comme « sarcastique ».
De même, affiner sa représentation du visage d'une célébrité grâce à de multiples expositions signifiait qu'il pouvait ensuite les différencier d'autres visages d'apparence similaire. Cependant, encore une fois, il s’agit certes d’une spéculation éclairée de ma part.
Sur la base de mes résultats et d'autres démonstrations de cette dernière version du chatbot, il semble probable que les performances déjà remarquables de ChatGPT sur une grande variété de tâches continueront de s'améliorer à chaque nouvelle version publiée.