Un agent multimodal peut concevoir de manière itérative des expériences pour mieux comprendre les différents composants des systèmes d'IA
Les modèles d’intelligence artificielle sont de plus en plus répandus et intégrés dans des secteurs aussi divers que la santé, la finance, l’éducation, les transports et le divertissement. Il est donc essentiel de comprendre leur fonctionnement. L’interprétation des mécanismes sous-jacents aux modèles d’IA nous permet de les auditer pour en vérifier la sécurité et les biais, avec le potentiel d’approfondir notre compréhension de la science qui se cache derrière l’intelligence elle-même.
Imaginez que nous puissions étudier directement le cerveau humain en manipulant chacun de ses neurones individuels pour examiner leur rôle dans la perception d’un objet particulier. Bien qu’une telle expérience soit excessivement invasive dans le cerveau humain, elle est plus réalisable dans un autre type de réseau neuronal : artificiel. Cependant, à l’instar du cerveau humain, les modèles artificiels contenant des millions de neurones sont trop grands et complexes pour être étudiés à la main, ce qui rend l’interprétation à grande échelle très difficile.
Pour résoudre ce problème, les chercheurs du laboratoire d'informatique et d'intelligence artificielle du MIT (CSAIL) ont décidé d'adopter une approche automatisée pour interpréter les modèles de vision artificielle qui évaluent différentes propriétés des images. Ils ont développé « MAIA » (Multimodal Automated Interpretability Agent), un système qui automatise une variété de tâches d'interprétation de réseaux neuronaux à l'aide d'un modèle de langage visuel doté d'outils permettant d'expérimenter sur d'autres systèmes d'IA.
La recherche est publiée sur le arXiv serveur de préimpression.
« Notre objectif est de créer un chercheur en IA capable de mener des expériences d'interprétabilité de manière autonome. Les méthodes d'interprétabilité automatisées existantes se contentent d'étiqueter ou de visualiser les données dans un processus unique. D'autre part, MAIA peut générer des hypothèses, concevoir des expériences pour les tester et affiner sa compréhension grâce à une analyse itérative », explique Tamar Rott Shaham, postdoctorante en génie électrique et informatique (EECS) du MIT au CSAIL et co-auteur d'un nouvel article sur la recherche.
« En combinant un modèle vision-langage pré-entraîné avec une bibliothèque d'outils d'interprétabilité, notre méthode multimodale peut répondre aux requêtes des utilisateurs en composant et en exécutant des expériences ciblées sur des modèles spécifiques, en affinant continuellement son approche jusqu'à ce qu'elle puisse fournir une réponse complète. »
Il a été démontré que l'agent automatisé s'attaque à trois tâches clés : il étiquette les composants individuels à l'intérieur des modèles de vision et décrit les concepts visuels qui les activent, il nettoie les classificateurs d'images en supprimant les fonctionnalités non pertinentes pour les rendre plus robustes aux nouvelles situations, et il recherche les biais cachés dans les systèmes d'IA pour aider à découvrir les problèmes potentiels d'équité dans leurs résultats.
« Mais l'un des principaux avantages d'un système comme MAIA est sa flexibilité », explique Sarah Schwettmann, Ph.D., chercheuse scientifique au CSAIL et co-responsable de l'étude. « Nous avons démontré l'utilité de MAIA sur quelques tâches spécifiques, mais étant donné que le système est construit à partir d'un modèle de base doté de larges capacités de raisonnement, il peut répondre à de nombreux types de requêtes d'interprétation des utilisateurs et concevoir des expériences à la volée pour les étudier. »
Neurone par neurone
Dans un exemple de tâche, un utilisateur humain demande à MAIA de décrire les concepts qu'un neurone particulier à l'intérieur d'un modèle de vision est chargé de détecter. Pour étudier cette question, MAIA utilise d'abord un outil qui récupère des « exemples de jeux de données » à partir du jeu de données ImageNet, qui activent au maximum le neurone. Pour cet exemple de neurone, ces images montrent des personnes en tenue de soirée, ainsi que des gros plans de leur menton et de leur cou. MAIA émet diverses hypothèses sur ce qui motive l'activité du neurone : expressions faciales, mentons ou cravates. MAIA utilise ensuite ses outils pour concevoir des expériences afin de tester chaque hypothèse individuellement en générant et en modifiant des images synthétiques. Dans une expérience, l'ajout d'un nœud papillon à une image d'un visage humain augmente la réponse du neurone.
« Cette approche nous permet de déterminer la cause spécifique de l’activité du neurone, un peu comme une véritable expérience scientifique », explique Rott Shaham.
Les explications de MAIA sur les comportements des neurones sont évaluées de deux manières principales. Tout d'abord, des systèmes synthétiques dont les comportements sont connus sont utilisés pour évaluer l'exactitude des interprétations de MAIA. Ensuite, pour les neurones « réels » à l'intérieur de systèmes d'IA entraînés sans descriptions de vérité, les auteurs conçoivent un nouveau protocole d'évaluation automatisé qui mesure dans quelle mesure les descriptions de MAIA prédisent le comportement des neurones sur des données invisibles.
La méthode CSAIL a surpassé les méthodes de base décrivant les neurones individuels dans une variété de modèles de vision tels que ResNet, CLIP et le transformateur de vision DINO. MAIA a également obtenu de bons résultats sur le nouvel ensemble de données de neurones synthétiques avec des descriptions de vérité fondamentale connues. Pour les systèmes réels et synthétiques, les descriptions étaient souvent comparables aux descriptions rédigées par des experts humains.
En quoi les descriptions des composants du système d’IA, comme les neurones individuels, sont-elles utiles ?
« Comprendre et localiser les comportements au sein des grands systèmes d’IA est un élément clé de l’audit de sécurité de ces systèmes avant leur déploiement. Dans certaines de nos expériences, nous montrons comment MAIA peut être utilisé pour trouver des neurones présentant des comportements indésirables et supprimer ces comportements d’un modèle », explique Schwettmann. « Nous évoluons vers un écosystème d’IA plus résilient dans lequel les outils de compréhension et de surveillance des systèmes d’IA suivent le rythme de la mise à l’échelle du système, ce qui nous permet d’enquêter et, espérons-le, de comprendre les défis imprévus introduits par de nouveaux modèles. »
Un coup d’œil à l’intérieur des réseaux neuronaux
Le domaine naissant de l'interprétabilité est en passe de devenir un domaine de recherche à part entière, parallèlement à l'essor des modèles d'apprentissage automatique de type « boîte noire ». Comment les chercheurs peuvent-ils décrypter ces modèles et comprendre leur fonctionnement ?
Les méthodes actuelles d’analyse interne sont généralement limitées, soit en termes d’échelle, soit en termes de précision des explications qu’elles peuvent produire. De plus, les méthodes existantes ont tendance à s’adapter à un modèle particulier et à une tâche spécifique. Cela a amené les chercheurs à se demander : comment pouvons-nous créer un système générique pour aider les utilisateurs à répondre aux questions d’interprétabilité des modèles d’IA tout en combinant la flexibilité de l’expérimentation humaine avec l’évolutivité des techniques automatisées ?
L’un des aspects critiques que ce système devait prendre en compte était celui des biais. Pour déterminer si les classificateurs d’images présentaient des biais par rapport à certaines sous-catégories d’images, l’équipe a examiné la dernière couche du flux de classification (dans un système conçu pour trier ou étiqueter des éléments, à la manière d’une machine qui identifie si une photo représente un chien, un chat ou un oiseau) et les scores de probabilité des images d’entrée (niveaux de confiance que la machine attribue à ses suppositions).
Pour comprendre les biais potentiels dans la classification des images, MAIA a été chargé de trouver un sous-ensemble d'images appartenant à des classes spécifiques (par exemple « labrador retriever ») susceptibles d'être mal étiquetées par le système. Dans cet exemple, MAIA a découvert que les images de labradors noirs étaient susceptibles d'être mal classées, ce qui suggère un biais dans le modèle en faveur des retrievers à fourrure jaune.
Comme MAIA s’appuie sur des outils externes pour concevoir des expériences, ses performances sont limitées par la qualité de ces outils. Mais, à mesure que la qualité des outils tels que les modèles de synthèse d’images s’améliore, MAIA s’améliore également. MAIA présente également parfois un biais de confirmation, où il confirme parfois à tort son hypothèse initiale. Pour atténuer ce problème, les chercheurs ont créé un outil de conversion d’image en texte, qui utilise une instance différente du modèle de langage pour résumer les résultats expérimentaux. Un autre mode d’échec est le surajustement à une expérience particulière, où le modèle tire parfois des conclusions prématurées sur la base de preuves minimales.
« Je pense que la prochaine étape logique pour notre laboratoire consiste à aller au-delà des systèmes artificiels et à appliquer des expériences similaires à la perception humaine », explique Rott Shaham. « Pour tester ce procédé, il faut traditionnellement concevoir et tester manuellement des stimuli, ce qui demande beaucoup de travail. Grâce à notre agent, nous pouvons étendre ce processus en concevant et en testant simultanément de nombreux stimuli. Cela pourrait également nous permettre de comparer la perception visuelle humaine à celle des systèmes artificiels. »
« Il est difficile pour les humains de comprendre les réseaux neuronaux, car ils sont constitués de centaines de milliers de neurones, chacun ayant des schémas comportementaux complexes. MAIA contribue à combler ce fossé en développant des agents d’intelligence artificielle capables d’analyser automatiquement ces neurones et de transmettre aux humains des résultats condensés de manière compréhensible », explique Jacob Steinhardt, professeur adjoint à l’Université de Californie à Berkeley, qui n’a pas participé à la recherche. « L’extension de ces méthodes pourrait être l’une des voies les plus importantes pour comprendre et superviser en toute sécurité les systèmes d’IA. »