Lorsque la vision par ordinateur fonctionne plus comme un cerveau, elle voit plus comme les gens

Lorsque la vision par ordinateur fonctionne plus comme un cerveau, elle voit plus comme les gens

La similarité neuronale informatique est corrélée à l’amélioration de la robustesse contradictoire de la boîte blanche. A) tenu à l’écart de l’animal et de l’image, la similarité neuronale informatique est tracée par rapport à la précision contradictoire de la boîte blanche (PGD L ϵ = 1/1020) sur l’ensemble d’images HVM mesuré sur plusieurs points de temps de formation pour toutes les conditions de taux de perte neuronale, les conditions de matrice cible informatique gaussiennes aléatoires et les conditions de matrice cible informatique mélangées d’images. B) Comme en A mais pour les images COCO. Dans les deux graphiques, la croix noire représente la position moyenne du modèle de base, le X noir marque un CORnet-S formé de manière contradictoire sur des images HVM, et la ligne bleue épaisse est une moyenne glissante X, Y de toutes les conditions simplement pour mettre en évidence visuellement les tendances. Cinq graines pour chaque condition sont tracées. Crédit : L’alignement des représentations du modèle et du cortex temporel inférieur du macaque améliore l’alignement comportemental du modèle sur l’homme et la robustesse de l’adversaire. https://openreview.net/attachment?id=SMYdcXjJh1q&name=pdf

Des caméras aux voitures autonomes, de nombreuses technologies d’aujourd’hui dépendent de l’intelligence artificielle pour extraire le sens des informations visuelles. La technologie d’intelligence artificielle d’aujourd’hui repose sur des réseaux de neurones artificiels, et la plupart du temps, nous pouvons faire confiance à ces systèmes de vision par ordinateur IA pour voir les choses comme nous le faisons, mais parfois ils échouent. Selon les chercheurs du MIT et d’IBM, une façon d’améliorer la vision par ordinateur consiste à demander aux réseaux de neurones artificiels sur lesquels ils s’appuient d’imiter délibérément la façon dont le réseau de neurones biologiques du cerveau traite les images visuelles.

Des chercheurs dirigés par le professeur du MIT James DiCarlo, directeur de Quest for Intelligence du MIT et membre du MIT-IBM Watson AI Lab, ont rendu un modèle de vision par ordinateur plus robuste en l’entraînant à fonctionner comme une partie du cerveau que les humains et les autres primates s’appuyer sur la reconnaissance d’objet. En mai dernier, lors de la Conférence internationale sur les représentations de l’apprentissage, l’équipe a rapporté que lorsqu’elle entraînait un réseau de neurones artificiels à l’aide de schémas d’activité neuronale dans le cortex temporal inférieur (IT) du cerveau, le réseau de neurones artificiels était plus solidement capable d’identifier des objets dans des images que un modèle qui manquait de cet entraînement neuronal. Et les interprétations des images par le modèle correspondaient plus étroitement à ce que les humains voyaient, même lorsque les images comportaient des distorsions mineures qui rendaient la tâche plus difficile.

Comparer les circuits neuronaux

De nombreux réseaux de neurones artificiels utilisés pour la vision par ordinateur ressemblent déjà aux circuits cérébraux multicouches qui traitent les informations visuelles chez les humains et les autres primates. Comme le cerveau, ils utilisent des unités semblables à des neurones qui travaillent ensemble pour traiter l’information. Au fur et à mesure qu’ils sont entraînés pour une tâche particulière, ces composants en couches traitent collectivement et progressivement les informations visuelles pour accomplir la tâche, en déterminant, par exemple, qu’une image représente un ours, une voiture ou un arbre.

DiCarlo et d’autres ont précédemment découvert que lorsque de tels systèmes de vision par ordinateur à apprentissage en profondeur établissent des moyens efficaces de résoudre des problèmes visuels, ils se retrouvent avec des circuits artificiels qui fonctionnent de la même manière que les circuits neuronaux qui traitent les informations visuelles dans notre propre cerveau. Autrement dit, ils se révèlent être des modèles scientifiques étonnamment bons des mécanismes neuronaux sous-jacents à la vision des primates et des humains.

Cette ressemblance aide les neuroscientifiques à approfondir leur compréhension du cerveau. En démontrant comment les informations visuelles peuvent être traitées pour donner un sens aux images, les modèles informatiques suggèrent des hypothèses sur la façon dont le cerveau pourrait accomplir la même tâche. Alors que les développeurs continuent d’affiner les modèles de vision par ordinateur, les neuroscientifiques ont trouvé de nouvelles idées à explorer dans leur propre travail.

« Alors que les systèmes de vision deviennent plus performants dans le monde réel, certains d’entre eux se révèlent plus humains dans leur traitement interne. C’est utile du point de vue de la compréhension de la biologie », explique DiCarlo, qui est également professeur de sciences du cerveau et cognitives et chercheur au McGovern Institute for Brain Research.

Concevoir une IA plus cérébrale

Bien que leur potentiel soit prometteur, les systèmes de vision par ordinateur ne sont pas encore des modèles parfaits de la vision humaine. DiCarlo soupçonnait qu’une façon d’améliorer la vision par ordinateur pourrait être d’incorporer des caractéristiques spécifiques de type cérébral dans ces modèles.

Pour tester cette idée, lui et ses collaborateurs ont construit un modèle de vision par ordinateur en utilisant des données neuronales précédemment collectées à partir de neurones de traitement de la vision dans le cortex informatique du singe – un élément clé de la voie visuelle ventrale des primates impliquée dans la reconnaissance des objets – pendant que les animaux regardaient images diverses. Plus précisément, Joel Dapello, étudiant diplômé de l’Université de Harvard et ancien stagiaire du MIT-IBM Watson AI Lab ; et Kohitij Kar, professeur adjoint et chaire de recherche du Canada (neurosciences visuelles) à l’Université York et chercheur invité au MIT; en collaboration avec David Cox, vice-président d’IBM Research pour les modèles d’IA et directeur IBM du MIT-IBM Watson AI Lab ; et d’autres chercheurs d’IBM Research et du MIT ont demandé à un réseau de neurones artificiels d’émuler le comportement de ces neurones de traitement de la vision des primates pendant que le réseau apprenait à identifier des objets dans une tâche de vision par ordinateur standard.

« En effet, nous avons dit au réseau, ‘s’il vous plaît, résolvez cette tâche de vision par ordinateur standard, mais s’il vous plaît également, faites en sorte que la fonction de l’une de vos couches neurales simulées à l’intérieur soit aussi similaire que possible à la fonction de la couche neurale biologique correspondante' » explique DiCarlo. « Nous lui avons demandé de faire ces deux choses du mieux qu’il pouvait. » Cela a forcé les circuits neuronaux artificiels à trouver une autre façon de traiter les informations visuelles que l’approche standard de la vision par ordinateur, dit-il.

Après avoir formé le modèle artificiel avec des données biologiques, l’équipe de DiCarlo a comparé son activité à un modèle de réseau neuronal de taille similaire formé sans données neuronales, en utilisant l’approche standard de la vision par ordinateur. Ils ont découvert que la nouvelle couche informatique du modèle biologiquement informé était, comme indiqué, une meilleure correspondance avec les données neuronales informatiques. Autrement dit, pour chaque image testée, la population de neurones informatiques artificiels du modèle a répondu de manière plus similaire à la population correspondante de neurones informatiques biologiques.

Les chercheurs ont également découvert que le modèle informatique correspondait également mieux aux données neuronales informatiques collectées auprès d’un autre singe, même si le modèle n’avait jamais vu de données provenant de cet animal, et même lorsque cette comparaison était évaluée sur les réponses informatiques de ce singe à de nouvelles images. Cela a indiqué que le nouveau modèle informatique « neuralement aligné » de l’équipe pourrait être un modèle amélioré de la fonction neurobiologique du cortex informatique des primates – une découverte intéressante, étant donné qu’on ignorait auparavant si la quantité de données neuronales pouvant être actuellement collectées à partir de le système visuel du primate est capable de guider directement le développement du modèle.

Avec leur nouveau modèle informatique en main, l’équipe a demandé si la procédure « d’alignement neuronal informatique » entraînait également des changements dans les performances comportementales globales du modèle. En effet, ils ont découvert que le modèle à alignement neuronal ressemblait davantage à un comportement humain – il avait tendance à réussir à catégoriser correctement les objets dans des images pour lesquelles les humains réussissaient également, et il avait tendance à échouer lorsque les humains échouaient également.

Attaques contradictoires

L’équipe a également découvert que le modèle à alignement neuronal était plus résistant aux « attaques contradictoires » que les développeurs utilisent pour tester la vision par ordinateur et les systèmes d’IA. En vision par ordinateur, les attaques contradictoires introduisent de petites distorsions dans les images destinées à induire en erreur un réseau de neurones artificiels.

« Disons que vous avez une image que le modèle identifie comme un chat. Parce que vous avez la connaissance du fonctionnement interne du modèle, vous pouvez alors concevoir de très petits changements dans l’image pour que le modèle pense soudainement que ce n’est plus un chat,  » explique DiCarlo.

Ces distorsions mineures ne trompent généralement pas les humains, mais les modèles de vision par ordinateur ont du mal à faire face à ces altérations. Une personne qui regarde le chat subtilement déformé rapporte toujours de manière fiable et robuste qu’il s’agit d’un chat. Mais les modèles de vision par ordinateur standard sont plus susceptibles de confondre le chat avec un chien, voire un arbre.

« Il doit y avoir des différences internes dans la façon dont notre cerveau traite les images qui rendent notre vision plus résistante à ce type d’attaques », explique DiCarlo. Et en effet, l’équipe a constaté que lorsqu’elle rendait son modèle plus aligné sur le plan neuronal, il devenait plus robuste, identifiant correctement plus d’images face aux attaques adverses. Le modèle pourrait toujours être trompé par des « attaques » plus fortes, mais les gens le peuvent aussi, dit DiCarlo. Son équipe explore maintenant les limites de la robustesse contradictoire chez l’homme.

Il y a quelques années, l’équipe de DiCarlo a découvert qu’elle pouvait également améliorer la résistance d’un modèle aux attaques adverses en concevant la première couche du réseau artificiel pour imiter la première couche de traitement visuel dans le cerveau. Une prochaine étape clé consiste à combiner ces approches, en créant de nouveaux modèles qui sont simultanément alignés neuronalement sur plusieurs couches de traitement visuel.

Le nouveau travail est une preuve supplémentaire qu’un échange d’idées entre les neurosciences et l’informatique peut conduire à des progrès dans les deux domaines. « Tout le monde tire quelque chose du cercle vertueux passionnant entre l’intelligence naturelle/biologique et l’intelligence artificielle », déclare DiCarlo. « Dans ce cas, les chercheurs en vision par ordinateur et en IA obtiennent de nouvelles façons d’atteindre la robustesse, et les neuroscientifiques et les scientifiques cognitifs obtiennent des modèles mécanistes plus précis de la vision humaine. »