Les réseaux de neurones profonds ne voient pas le monde comme nous
Les systèmes sensoriels humains sont très efficaces pour reconnaître les objets que nous voyons ou les mots que nous entendons, même si l’objet est à l’envers ou si le mot est prononcé par une voix que nous n’avons jamais entendue.
Des modèles informatiques connus sous le nom de réseaux de neurones profonds peuvent être entraînés pour faire la même chose, en identifiant correctement l’image d’un chien quelle que soit la couleur de sa fourrure, ou un mot quelle que soit la hauteur de la voix de l’orateur. Cependant, une nouvelle étude menée par des neuroscientifiques du MIT a révélé que ces modèles réagissent souvent de la même manière à des images ou à des mots qui n’ont aucune ressemblance avec la cible.
Lorsque ces réseaux neuronaux étaient utilisés pour générer une image ou un mot auquel ils répondaient de la même manière qu’un signal naturel spécifique, comme l’image d’un ours, la plupart d’entre eux généraient des images ou des sons méconnaissables pour les observateurs humains. Cela suggère que ces modèles construisent leurs propres « invariances » idiosyncratiques, ce qui signifie qu’ils répondent de la même manière à des stimuli présentant des caractéristiques très différentes.
Les résultats offrent aux chercheurs une nouvelle façon d’évaluer dans quelle mesure ces modèles imitent l’organisation de la perception sensorielle humaine, explique Josh McDermott, professeur agrégé de sciences du cerveau et des sciences cognitives au MIT et membre du McGovern Institute for Brain Research et du Center for Brains du MIT. , esprits et machines.
« Cet article montre que vous pouvez utiliser ces modèles pour dériver des signaux non naturels qui finissent par être très diagnostiques des représentations dans le modèle », explique McDermott, auteur principal de l’étude. « Ce test devrait faire partie d’une batterie de tests que nous utilisons en tant que domaine pour évaluer les modèles. »
Jenelle Feather Ph.D. ’22, qui est maintenant chercheur au Flatiron Institute Center for Computational Neuroscience, est l’auteur principal de l’article en libre accès, qui paraît dans Neurosciences naturelles. Guillaume Leclerc, étudiant diplômé du MIT, et Aleksander Mądry, professeur d’informatique Cadence Design Systems au MIT, sont également les auteurs de l’article.
Différentes perceptions
Ces dernières années, les chercheurs ont formé des réseaux neuronaux profonds capables d’analyser des millions d’entrées (sons ou images) et d’apprendre des caractéristiques communes qui leur permettent de classer un mot ou un objet cible avec autant de précision que les humains. Ces modèles sont actuellement considérés comme les principaux modèles de systèmes sensoriels biologiques.
On pense que lorsque le système sensoriel humain effectue ce type de classification, il apprend à ignorer les caractéristiques qui ne sont pas pertinentes pour l’identité fondamentale d’un objet, comme la quantité de lumière qui l’éclaire ou l’angle sous lequel il est vu. C’est ce qu’on appelle l’invariance, ce qui signifie que les objets sont perçus comme étant identiques même s’ils présentent des différences dans les caractéristiques les moins importantes.
« Classiquement, la façon dont nous avons pensé aux systèmes sensoriels est qu’ils créent des invariances par rapport à toutes les sources de variation que peuvent avoir différents exemples de la même chose », explique Feather. « Un organisme doit reconnaître qu’il s’agit de la même chose, même s’ils se manifestent par des signaux sensoriels très différents. »
Les chercheurs se sont demandés si les réseaux de neurones profonds entraînés à effectuer des tâches de classification pourraient développer des invariances similaires. Pour tenter de répondre à cette question, ils ont utilisé ces modèles pour générer des stimuli qui produisent le même type de réponse au sein du modèle qu’un exemple de stimulus donné au modèle par les chercheurs.
Ils appellent ces stimuli des « métamères modèles », renouant avec une idée issue de la recherche classique sur la perception selon laquelle des stimuli impossibles à distinguer d’un système peuvent être utilisés pour diagnostiquer ses invariances. Le concept de métamères a été développé à l’origine dans l’étude de la perception humaine pour décrire des couleurs qui semblent identiques même si elles sont constituées de longueurs d’onde de lumière différentes.
À leur grande surprise, les chercheurs ont constaté que la plupart des images et des sons produits de cette manière ne ressemblaient en rien aux exemples donnés à l’origine aux modèles. La plupart des images étaient un fouillis de pixels d’apparence aléatoire et les sons ressemblaient à du bruit inintelligible. Lorsque les chercheurs ont montré les images à des observateurs humains, dans la plupart des cas, les humains n’ont pas classé les images synthétisées par les modèles dans la même catégorie que l’exemple cible d’origine.
« Ils ne sont vraiment pas du tout reconnaissables par les humains. Ils n’ont pas l’air ou ne semblent pas naturels et ils n’ont pas de caractéristiques interprétables qu’une personne pourrait utiliser pour classer un objet ou un mot », explique Feather.
Les résultats suggèrent que les modèles ont développé d’une manière ou d’une autre leurs propres invariances, différentes de celles trouvées dans les systèmes de perception humains. Cela amène les modèles à percevoir les paires de stimuli comme étant identiques, même s’ils sont très différents de ceux d’un humain.
Invariances idiosyncrasiques
Les chercheurs ont constaté le même effet sur de nombreux modèles visuels et auditifs différents. Cependant, chacun de ces modèles semble développer ses propres invariances. Lorsque les métamères d’un modèle étaient montrés à un autre modèle, ils étaient tout aussi méconnaissables pour le deuxième modèle que pour les observateurs humains.
« La conclusion clé de cela est que ces modèles semblent avoir ce que nous appelons des invariances idiosyncratiques », explique McDermott. « Ils ont appris à être invariants par rapport à ces dimensions particulières dans l’espace du stimulus, et c’est spécifique au modèle, donc les autres modèles n’ont pas ces mêmes invariances. »
Les chercheurs ont également découvert qu’ils pouvaient rendre les métamères d’un modèle plus reconnaissables par les humains en utilisant une approche appelée entraînement contradictoire. Cette approche a été développée à l’origine pour lutter contre une autre limitation des modèles de reconnaissance d’objets, à savoir que l’introduction de changements minuscules, presque imperceptibles, dans une image peut entraîner une mauvaise reconnaissance du modèle.
Les chercheurs ont découvert que l’entraînement contradictoire, qui consiste à inclure certaines de ces images légèrement modifiées dans les données d’entraînement, a produit des modèles dont les métamères étaient plus reconnaissables par les humains, même s’ils n’étaient toujours pas aussi reconnaissables que les stimuli d’origine. Selon les chercheurs, cette amélioration semble indépendante de l’effet de la formation sur la capacité des modèles à résister aux attaques adverses.
« Cette forme particulière d’entraînement a un effet important, mais nous ne savons pas vraiment pourquoi elle a cet effet », explique Feather. « C’est un domaine de recherche future. »
L’analyse des métamères produits par les modèles informatiques pourrait être un outil utile pour évaluer dans quelle mesure un modèle informatique imite l’organisation sous-jacente des systèmes de perception sensorielle humaine, affirment les chercheurs.
« Il s’agit d’un test comportemental que vous pouvez exécuter sur un modèle donné pour voir si les invariances sont partagées entre le modèle et les observateurs humains », explique Feather. « Cela pourrait également être utilisé pour évaluer le caractère idiosyncrasique des invariances au sein d’un modèle donné, ce qui pourrait aider à découvrir des moyens potentiels d’améliorer nos modèles à l’avenir. »