Un nouvel outil explique comment l'IA "voit" les images et pourquoi elle peut confondre un astronaute avec une pelle

Crédit : Université Brown

Pourquoi les systèmes d’intelligence artificielle peuvent-ils surpasser les humains sur certaines tâches visuelles, comme la reconnaissance faciale, mais faire des erreurs flagrantes sur d’autres, comme classer l’image d’un astronaute comme une pelle ?

Comme le cerveau humain, les systèmes d’IA s’appuient sur des stratégies de traitement et de classification des images. Et comme le cerveau humain, on sait peu de choses sur la nature précise de ces processus. Les scientifiques du Carney Institute for Brain Science de l’Université Brown progressent dans la compréhension des deux systèmes, publiant un article récent qui aide à expliquer la vision par ordinateur d’une manière qui, selon les chercheurs, est accessible et plus utile que les modèles précédents.

« Le cerveau humain et les réseaux de neurones profonds qui alimentent les systèmes d’IA sont appelés boîtes noires parce que nous ne savons pas exactement ce qui s’y passe », a déclaré Thomas Serre, professeur Brown de sciences cognitives, linguistiques et psychologiques et d’informatique. . « Le travail que nous effectuons au Carney’s Center for Computational Brain Science tente de comprendre et de caractériser les mécanismes cérébraux liés à l’apprentissage, à la vision et à toutes sortes de choses, et de mettre en évidence les similitudes et les différences avec les systèmes d’IA. »

Les réseaux de neurones profonds utilisent des algorithmes d’apprentissage pour traiter les images, a déclaré Serre. Ils sont formés sur des ensembles massifs de données, comme ImageNet, qui contient plus d’un million d’images extraites du Web organisées en milliers de catégories d’objets. La formation consiste principalement à fournir des données au système d’IA, a-t-il expliqué.

« Nous ne disons pas aux systèmes d’IA comment traiter les images, par exemple, quelles informations extraire des images pour pouvoir les classer », a déclaré Serre. « Le système d’IA découvre sa propre stratégie. Ensuite, les informaticiens évaluent la précision de ce qu’ils font après avoir été formés. Par exemple, peut-être que le système atteint une précision de 90 % en discriminant entre mille catégories d’images. »

Serre a collaboré avec Brown Ph.D. le candidat Thomas Fel et d’autres informaticiens pour développer un outil qui permet aux utilisateurs d’ouvrir le couvercle de la boîte noire des réseaux de neurones profonds et d’éclairer les types de stratégies que les systèmes d’IA utilisent pour traiter les images. Le projet, appelé CRAFT – pour Concept Recursive Activation FacTorization for Explainability – était un projet conjoint avec l’Institut d’Intelligence Artificielle et Naturelle de Toulouse, où Fel est actuellement basé. Il a été présenté ce mois-ci à la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes à Vancouver, au Canada.

Serre a partagé comment CRAFT révèle comment l’IA « voit » les images et a expliqué l’importance cruciale de comprendre en quoi le système de vision par ordinateur diffère du système humain.

Que montre CRAFT sur la façon dont l’IA traite les images ?

CRAFT fournit une interprétation des représentations visuelles complexes et de grande dimension des objets appris par les réseaux de neurones, en tirant parti des outils d’apprentissage automatique modernes pour les rendre plus compréhensibles pour les humains. Cela conduit à une représentation des concepts visuels clés utilisés par les réseaux de neurones pour classer les objets. Prenons l’exemple d’un type de poisson d’eau douce appelé tanche. Nous avons construit un site Web qui permet aux gens de parcourir et de visualiser ces concepts. En utilisant le site Web, on peut voir que le concept de tanche du système d’IA comprend des ensembles de nageoires, de têtes, de queues, de globes oculaires et plus encore.

Ces concepts révèlent également que les réseaux profonds détectent parfois des biais dans les ensembles de données. L’un des concepts associés à la tanche, par exemple, est le visage d’un homme blanc, car il existe de nombreuses photos en ligne de pêcheurs sportifs tenant des poissons qui ressemblent à des tanches. (Pourtant, le système peut toujours distinguer un homme d’un poisson.) Dans un autre exemple, le concept prédominant associé à un ballon de football dans les réseaux de neurones est la présence de joueurs de football sur le terrain. Cela est probablement dû au fait que la majorité des images Internet présentant des ballons de football incluent également des joueurs individuels plutôt que uniquement le ballon lui-même.

En quoi la méthode CRAFT diffère-t-elle des autres façons de comprendre la vision par ordinateur ?

Une façon d’expliquer la vision de l’IA consiste à utiliser ce qu’on appelle les méthodes d’attribution, qui utilisent des cartes thermiques pour identifier les régions les plus influentes d’une image qui ont un impact sur les décisions de l’IA. Cependant, ces méthodes se concentrent principalement sur les régions les plus importantes d’une image, révélant « où » le modèle regarde, mais n’expliquant pas « ce que » le modèle voit dans ces zones.

L’amélioration par rapport aux méthodes précédentes que Thomas Fel a introduite avec CRAFT consiste non seulement à identifier les concepts que le système utilise pour reconstituer une image ou ce que le modèle voit dans ces zones, mais également comment le système classe ces concepts. Dans l’exemple de la tanche, le torse du poisson correspond à 60% du poids total du concept de tanche. Nous pouvons donc savoir quel poids le système d’IA accorde à ces sous-concepts. En d’autres termes, il est plus probable de classer une image avec un torse de tanche comme un poisson que de classer une image avec un mâle blanc comme un poisson.

Comment CRAFT peut-il expliquer pourquoi les systèmes de vision IA font parfois des erreurs bizarres ?

Dans notre article, nous utilisons CRAFT pour expliquer une erreur classique de l’IA : comment une image d’un astronaute a été incorrectement classée comme une pelle par un système d’IA formé sur ImageNet. Voici ce qui s’est passé : une carte thermique générée par une méthode d’attribution classique a montré que le système regardait le milieu de l’image en forme de pelle. L’approche CRAFT a mis en évidence les deux concepts les plus influents qui ont motivé la décision ainsi que leurs emplacements correspondants.

CRAFT a suggéré que le réseau de neurones a pris sa décision parce qu’il a identifié le concept de « saleté » que l’on trouve couramment dans les membres de la classe d’images « pelle » et le concept de « pantalon de ski » généralement porté par les personnes déneigeant leur allée avec une pelle . Il aurait dû identifier le concept correct de pantalon d’astronaute, mais cette image de pantalon n’a probablement jamais été vue pendant le processus de formation, de sorte que le système n’a pas été en mesure d’établir cette connexion.

Pourquoi est-il si important de comprendre les détails de la façon dont un ordinateur voit les images ?

Tout d’abord, il contribue à améliorer la précision et les performances des outils basés sur la vision tels que la reconnaissance faciale. Cela rend les systèmes d’IA plus fiables car nous pouvons comprendre la stratégie visuelle qu’ils utilisent. Et cela contribue également à les rendre plus sûrs contre les cyberattaques. Prenons, par exemple, le concept d’attaques contradictoires. Le fait est que l’on peut apporter de minuscules modifications aux images, par exemple en modifiant l’intensité des pixels d’une manière à peine perceptible pour les humains, mais qui suffira à tromper complètement le système d’IA.

Dans un exemple d’une importance cruciale, les chercheurs ont montré qu’en ajoutant simplement quelques autocollants dans un motif particulier à un panneau d’arrêt, ils peuvent tromper un véhicule autonome pour le traiter comme un panneau de limitation de vitesse afin qu’il accélère au lieu de ralentir. vers le bas et arrêtez-vous. Cela créerait un chaos complet. Nous devons donc être en mesure de comprendre pourquoi et comment ces types d’attaques fonctionnent sur l’IA afin de pouvoir nous protéger contre elles.

Que peuvent nous apprendre les systèmes de vision IA sur les systèmes de vision humaine ?

Nous avons appris qu’il y a quelque chose de fondamentalement différent de la façon dont ces réseaux de neurones traitent les images par rapport au cerveau humain – le cerveau humain ne traiterait pas un panneau d’arrêt avec des autocollants noirs dessus comme un panneau de limitation de vitesse. Pourtant, ce sont des systèmes incroyablement bien conçus qui surpassent parfois même les humains, comme dans les tâches de reconnaissance faciale. Une grande partie du travail que nous effectuons dans notre laboratoire consiste à comparer ce qui est similaire et ce qui est différent dans ces systèmes.

Chaque fois que nous sommes en mesure de trouver les limites des systèmes d’IA, nous nous tournons vers les neurosciences et demandons : « Quel est le mécanisme cérébral qui manque dans les systèmes d’IA dont nous savons qu’il joue un rôle clé dans la capacité des humains à résoudre cette tâche de manière robuste et efficacement ? » Et puis nous construisons des abstractions d’apprentissage automatique de ce mécanisme et les injectons dans un système d’IA du réseau de neurones. Nous constatons qu’une fois que nous avons doté les systèmes d’IA de mécanismes inspirés du cerveau humain, ils fonctionnent beaucoup mieux : ils sont plus robustes, plus efficaces pour l’apprentissage et plus précis avec moins de formation.

Du côté des neurosciences, cette recherche nous aide à mieux comprendre le cerveau humain et comment ces différences entre les humains et les systèmes d’IA aident les humains, et nous pouvons également valider nos idées plus facilement et de manière plus sûre que nous ne le pourrions dans un cerveau humain. Il est très difficile de comprendre comment le cerveau traite les informations visuelles. Des méthodes ont été développées pour comprendre comment les neurones fonctionnent et ce qu’ils font, et avec les systèmes d’IA, nous pouvons maintenant tester ces théories et voir si nous avons raison.

Les synergies vont dans les deux sens : les neurosciences nous donnent une bonne inspiration pour améliorer l’IA. Mais le fait que nous améliorons l’IA à partir de ces mécanismes de neurosciences est également un moyen de valider les découvertes faites en neurosciences et d’identifier les mécanismes clés de l’intelligence générale, de l’intelligence visuelle et plus encore.

Nous entendons beaucoup parler des inquiétudes concernant les systèmes d’IA trop humains. Mais on dirait que quand il s’agit de vision, c’est une bonne chose, n’est-ce pas ?

Dans de nombreux cas, nous avons constaté des avantages très importants pour les humains en alignant le système de vision de l’IA et le système de vision humaine : les modèles qui sont conçus pour ressembler davantage à l’humain deviennent plus dignes de confiance, plus fiables, plus résistants aux attaques et moins susceptibles de faire ce que vous faites. Je ne veux pas qu’ils le fassent.

Quelles sont les prochaines étapes de cette recherche ?

Il est intéressant de voir comment les systèmes d’IA catégorisent les objets naturels, mais je pense que la prochaine étape consistera à utiliser ce que nous avons appris sur l’IA et la vision humaine pour aider les systèmes d’IA à résoudre de gros problèmes scientifiques que les humains sont incapables de résoudre en ce moment, comme dans diagnostic du cancer, par exemple, ou dans la reconnaissance des fossiles, ou dans l’exploration spatiale. Ce sera vraiment excitant.