Les machines peuvent-elles repérer des visages dans des objets inanimés ?

En 1994, la créatrice de bijoux de Floride Diana Duyser a découvert ce qu'elle croyait être l'image de la Vierge Marie dans un sandwich au fromage grillé, qu'elle a conservé puis vendu aux enchères pour 28 000 $. Mais que savons-nous vraiment de la paréidolie, le phénomène qui consiste à voir des visages et des motifs dans des objets alors qu'ils ne sont pas vraiment là ?

Une nouvelle étude du Laboratoire d'informatique et d'intelligence artificielle (CSAIL) du MIT se penche sur ce phénomène, en introduisant un vaste ensemble de données étiquetées par l'homme de 5 000 images paréidoliques, dépassant de loin les collections précédentes. En utilisant cet ensemble de données, l'équipe a découvert plusieurs résultats surprenants sur les différences entre la perception humaine et celle de la machine, et sur la façon dont la capacité de voir des visages sur une tranche de pain grillé aurait pu sauver la vie de vos proches éloignés.

L'étude est publiée sur le arXiv serveur de préimpression.

« La paréidolie du visage fascine depuis longtemps les psychologues, mais elle est largement inexplorée dans la communauté de la vision par ordinateur, » déclare Mark Hamilton, Ph.D. du MIT. étudiant en génie électrique et informatique, affilié au CSAIL et chercheur principal des travaux. « Nous voulions créer une ressource qui pourrait nous aider à comprendre comment les humains et les systèmes d’IA traitent ces visages illusoires. »

Alors, que révèlent tous ces faux visages ? D’une part, les modèles d’IA ne semblent pas reconnaître les visages paréidoliques comme nous. Étonnamment, l’équipe a découvert que ce n’est qu’après avoir entraîné des algorithmes à reconnaître les visages d’animaux qu’ils sont devenus nettement meilleurs dans la détection des visages paréidoliques. Cette connexion inattendue fait allusion à un possible lien évolutif entre notre capacité à repérer les visages d’animaux – cruciale pour la survie – et notre tendance à voir des visages dans des objets inanimés.

« Un résultat comme celui-ci semble suggérer que la paréidolie pourrait ne pas provenir du comportement social humain, mais de quelque chose de plus profond : comme repérer rapidement un tigre qui se cache, ou identifier dans quelle direction regarde un cerf pour que nos ancêtres primordiaux puissent chasser, » dit Hamilton.

Une autre découverte fascinante est ce que les chercheurs appellent le « Zone Boucle d'Or de Paréidolie, » une classe d'images où la paréidolie est la plus susceptible de se produire.

« Il existe une gamme spécifique de complexité visuelle dans laquelle les humains et les machines sont plus susceptibles de percevoir des visages dans des objets autres que des visages, » William T. Freeman, professeur de génie électrique et d'informatique au MIT et chercheur principal du projet, déclare. « Trop simple et il n'y a pas assez de détails pour former un visage. Trop complexe, et cela devient du bruit visuel. »

Pour découvrir cela, l’équipe a développé une équation qui modélise la manière dont les personnes et les algorithmes détectent les visages illusoires. En analysant cette équation, ils ont trouvé une claire « pic paréidolique » où la probabilité de voir des visages est la plus élevée, correspondant aux images qui ont « juste la bonne quantité » de complexité. Cela prédit « Zone Boucle d’or » a ensuite été validé par des tests avec de vrais sujets humains et des systèmes de détection de visages IA.

Ce nouvel ensemble de données, « Visages dans les choses, » éclipse ceux des études précédentes qui utilisaient généralement seulement 20 à 30 stimuli. Cette échelle a permis aux chercheurs d'explorer le comportement des algorithmes de détection de visages de pointe après un réglage fin sur des visages paréidoliques, montrant que non seulement ces algorithmes pouvaient être modifiés pour détecter ces visages, mais qu'ils pouvaient également agir comme un silicium. remplace notre propre cerveau, permettant à l’équipe de poser et de répondre à des questions sur les origines de la détection des visages paréidoliques qui sont impossibles à poser chez l’homme.

Pour créer cet ensemble de données, l’équipe a sélectionné environ 20 000 images candidates de l’ensemble de données LAION-5B, qui ont ensuite été méticuleusement étiquetées et jugées par des annotateurs humains. Ce processus impliquait de dessiner des cadres de délimitation autour des visages perçus et de répondre à des questions détaillées sur chaque visage, telles que l'émotion perçue, l'âge et si le visage était accidentel ou intentionnel.

« Rassembler et annoter des milliers d'images était une tâche monumentale, » dit Hamilton. « Une grande partie de l'ensemble de données doit son existence à ma mère, » un banquier à la retraite, « qui a passé d'innombrables heures à étiqueter avec amour les images pour notre analyse. »

L’étude a également des applications potentielles dans l’amélioration des systèmes de détection des visages en réduisant les faux positifs, ce qui pourrait avoir des implications dans des domaines tels que les voitures autonomes, l’interaction homme-machine et la robotique. L'ensemble de données et les modèles pourraient également aider dans des domaines tels que la conception de produits, où la compréhension et le contrôle de la paréidolie pourraient créer de meilleurs produits.

« Imaginez pouvoir modifier automatiquement le design d'une voiture ou d'un jouet d'enfant pour le rendre plus convivial, ou garantir qu'un dispositif médical ne semble pas menaçant par inadvertance, » dit Hamilton.

« Il est fascinant de voir comment les humains interprètent instinctivement les objets inanimés avec des traits semblables à ceux des humains. Par exemple, lorsque vous regardez une prise électrique, vous pouvez immédiatement l'imaginer chanter, et vous pouvez même imaginer comment elle « bougerait ses lèvres ». Cependant, les algorithmes ne reconnaissent pas naturellement ces visages caricaturaux de la même manière que nous. » dit Hamilton.

« Cela soulève des questions intrigantes : qu’est-ce qui explique cette différence entre la perception humaine et l’interprétation algorithmique ? La paréidolie est-elle bénéfique ou néfaste ? Pourquoi les algorithmes ne ressentent-ils pas cet effet comme nous ? Ces questions ont déclenché notre enquête, car ce phénomène psychologique classique chez l’homme n’avait pas été exploré en profondeur par les algorithmes. »

Alors que les chercheurs se préparent à partager leurs données avec la communauté scientifique, ils regardent déjà vers l’avenir. Les travaux futurs pourraient impliquer la formation de modèles de langage visuel pour comprendre et décrire les visages paréidoliques, ce qui pourrait conduire à des systèmes d'IA capables d'interagir avec des stimuli visuels de manière plus humaine.

« C'est un papier délicieux ! C'est agréable à lire et ça me fait réfléchir. Hamilton et coll. proposer une question alléchante : Pourquoi voyons-nous des visages dans les choses ? » » déclare Pietro Perona, professeur Allen E. Puckett de génie électrique à Caltech, qui n'a pas participé aux travaux.

« Comme ils le soulignent, apprendre des exemples, notamment des visages d’animaux, ne contribue qu’à moitié à expliquer le phénomène. Je parie que réfléchir à cette question nous apprendra quelque chose d’important sur la manière dont notre système visuel se généralise au-delà de l’entraînement qu’il reçoit tout au long de la vie. »

Les co-auteurs de Hamilton et Freeman comprennent Simon Stent, chercheur scientifique au Toyota Research Institute ; Ruth Rosenholtz, chercheuse scientifique principale au Département des sciences du cerveau et des sciences cognitives, chercheuse scientifique NVIDIA et ancienne membre du CSAIL ; et les postdoctorants affiliés au CSAIL Vasha DuTell, Anne Harrington MEng '23 et la chercheuse scientifique Jennifer Corbett.

Ces travaux sont présentés cette semaine à la Conférence européenne sur la vision par ordinateur.