Un défi inédit qui déconcerte l'IA d'aujourd'hui

Imaginez que vous faites défiler les photos sur votre téléphone et que vous tombez sur une image que vous ne parvenez pas à reconnaître au début. Cela ressemble peut-être à quelque chose de flou sur le canapé ; ça pourrait être un oreiller ou un manteau ? Après quelques secondes, il y a un clic, bien sûr ! Cette boule de peluches est le chat de ton ami, Mocha. Alors que certaines de vos photos pouvaient être comprises en un instant, pourquoi cette photo de chat était-elle beaucoup plus difficile ?

Les chercheurs du Laboratoire d’informatique et d’intelligence artificielle du MIT (CSAIL) ont été surpris de constater que malgré l’importance cruciale de la compréhension des données visuelles dans des domaines clés allant des soins de santé aux transports en passant par les appareils ménagers, la notion de difficulté de reconnaissance d’une image pour les humains a été presque entièrement ignoré.

L’un des principaux moteurs de progrès dans l’IA basée sur l’apprentissage profond a été les ensembles de données, mais nous savons peu de choses sur la manière dont les données stimulent les progrès dans l’apprentissage profond à grande échelle, au-delà du fait que plus c’est gros, mieux c’est.

Dans les applications du monde réel qui nécessitent la compréhension de données visuelles, les humains surpassent les modèles de reconnaissance d’objets, même si ces derniers fonctionnent bien sur les ensembles de données actuels, y compris ceux explicitement conçus pour défier les machines avec des images biaisées ou des changements de distribution.

Ce problème persiste, en partie parce que nous n’avons aucune indication sur la difficulté absolue d’une image ou d’un ensemble de données. Sans tenir compte de la difficulté des images utilisées pour l’évaluation, il est difficile d’évaluer objectivement les progrès vers des performances au niveau humain, de couvrir l’éventail des capacités humaines et d’augmenter le défi posé par un ensemble de données.

Pour combler ce manque de connaissances, David Mayo, titulaire d’un doctorat au MIT. étudiant en génie électrique et informatique et affilié au CSAIL, s’est plongé dans le monde profond des ensembles de données d’images, explorant pourquoi certaines images sont plus difficiles à reconnaître que d’autres par les humains et les machines.

« Certaines images prennent intrinsèquement plus de temps à reconnaître, et il est essentiel de comprendre l’activité du cerveau au cours de ce processus et sa relation avec les modèles d’apprentissage automatique. Il existe peut-être des circuits neuronaux complexes ou des mécanismes uniques manquant dans nos modèles actuels, visibles uniquement lorsqu’ils sont testés avec des images visuelles difficiles. Cette exploration est cruciale pour comprendre et améliorer les modèles de vision industrielle », déclare Mayo, auteur principal d’un nouvel article sur le travail.

Cela a conduit au développement d’une nouvelle mesure, la « durée minimale de visualisation » (MVT), qui quantifie la difficulté de reconnaître une image en fonction du temps dont une personne a besoin pour la visualiser avant de procéder à une identification correcte.

À l’aide d’un sous-ensemble d’ImageNet, un ensemble de données populaire en apprentissage automatique, et d’ObjectNet, un ensemble de données conçu pour tester la robustesse de la reconnaissance d’objets, l’équipe a montré des images aux participants pendant des durées variables allant de 17 millisecondes à 10 secondes et leur a demandé de choisissez le bon objet parmi un ensemble de 50 options.

Après plus de 200 000 essais de présentation d’images, l’équipe a constaté que les ensembles de tests existants, y compris ObjectNet, semblaient orientés vers des images MVT plus simples et plus courtes, la grande majorité des performances de référence étant dérivées d’images faciles à utiliser pour les humains.

Le projet a identifié des tendances intéressantes dans les performances des modèles, notamment en ce qui concerne la mise à l’échelle. Les modèles plus grands ont montré une amélioration considérable sur les images plus simples, mais ont réalisé moins de progrès sur les images plus difficiles. Les modèles CLIP, qui intègrent à la fois le langage et la vision, se sont démarqués en évoluant vers une reconnaissance plus humaine.

« Traditionnellement, les ensembles de données de reconnaissance d’objets étaient orientés vers des images moins complexes, une pratique qui a conduit à une inflation des mesures de performances des modèles, qui ne reflète pas vraiment la robustesse d’un modèle ou sa capacité à s’attaquer à des tâches visuelles complexes. Nos recherches révèlent que les images plus difficiles posent un défi plus aigu, provoquant un changement de distribution qui n’est souvent pas pris en compte dans les évaluations standards », explique Mayo.

« Nous avons publié des ensembles d’images étiquetés par difficulté ainsi que des outils pour calculer automatiquement MVT, permettant d’ajouter MVT aux benchmarks existants et de l’étendre à diverses applications. Ceux-ci incluent la mesure de la difficulté des ensembles de tests avant de déployer des systèmes du monde réel, la découverte de corrélats neuronaux de difficulté d’image, et faire progresser les techniques de reconnaissance d’objets pour combler l’écart entre les performances de référence et les performances du monde réel.

« L’un de mes principaux points à retenir est que nous disposons désormais d’une autre dimension sur laquelle évaluer les modèles. Nous voulons des modèles capables de reconnaître n’importe quelle image même si, et peut-être surtout si, elle est difficile à reconnaître pour un humain. Nous sommes les premiers à quantifier Ce que cela signifierait. Nos résultats montrent que non seulement ce n’est pas le cas avec l’état actuel de la technique, mais aussi que nos méthodes d’évaluation actuelles n’ont pas la capacité de nous dire quand c’est le cas parce que les ensembles de données standards sont tellement biaisés. vers des images faciles », déclare Jesse Cummings, étudiant diplômé du MIT en génie électrique et informatique et co-premier auteur avec Mayo sur l’article.

D’ObjectNet à MVT

Il y a quelques années, l’équipe à l’origine de ce projet a identifié un défi important dans le domaine de l’apprentissage automatique : les modèles rencontraient des difficultés avec des images non distribuées ou mal représentées dans les données d’entraînement. Entrez ObjectNet, un ensemble de données composé d’images collectées à partir de paramètres réels.

L’ensemble de données a permis d’éclairer l’écart de performances entre les modèles d’apprentissage automatique et les capacités de reconnaissance humaine en éliminant les fausses corrélations présentes dans d’autres benchmarks, par exemple entre un objet et son arrière-plan. ObjectNet a mis en lumière l’écart entre les performances des modèles de vision industrielle sur des ensembles de données et dans des applications du monde réel, encourageant ainsi leur utilisation par de nombreux chercheurs et développeurs, ce qui a par la suite amélioré les performances des modèles.

Avance rapide jusqu’à aujourd’hui, et l’équipe a poussé ses recherches encore plus loin avec MVT. Contrairement aux méthodes traditionnelles axées sur les performances absolues, cette nouvelle approche évalue les performances des modèles en comparant leurs réponses aux images les plus simples et les plus difficiles.

L’étude a en outre exploré comment la difficulté de l’image pouvait être expliquée et testée pour déterminer sa similitude avec le traitement visuel humain. En utilisant des mesures telles que le score C, la profondeur de prédiction et la robustesse contradictoire, l’équipe a découvert que les images plus difficiles sont traitées différemment par les réseaux. « Bien qu’il existe des tendances observables, telles que des images plus simples qui sont plus prototypiques, une explication sémantique complète de la difficulté des images continue d’échapper à la communauté scientifique », explique Mayo.

Dans le domaine des soins de santé, par exemple, la pertinence de comprendre la complexité visuelle devient encore plus prononcée. La capacité des modèles d’IA à interpréter des images médicales, telles que les rayons X, dépend de la diversité et de la difficulté de répartition des images. Les chercheurs préconisent une analyse méticuleuse de la répartition des difficultés adaptée aux professionnels, garantissant que les systèmes d’IA sont évalués sur la base de normes d’experts plutôt que d’interprétations de profanes.

Mayo et Cummings étudient actuellement les fondements neurologiques de la reconnaissance visuelle, en cherchant à déterminer si le cerveau présente une activité différentielle lors du traitement d’images faciles ou difficiles. L’étude vise à déterminer si les images complexes recrutent des zones cérébrales supplémentaires qui ne sont généralement pas associées au traitement visuel, aidant ainsi à démystifier la façon dont notre cerveau décode avec précision et efficacité le monde visuel.

Vers une performance à l’échelle humaine

Pour l’avenir, les chercheurs ne se concentrent pas uniquement sur l’exploration des moyens d’améliorer les capacités prédictives de l’IA concernant la difficulté des images. L’équipe travaille à identifier les corrélations avec la difficulté du temps de visionnage afin de générer des versions d’images plus difficiles ou plus faciles.

Malgré les avancées significatives de l’étude, les chercheurs reconnaissent des limites, notamment en termes de séparation entre la reconnaissance d’objets et les tâches de recherche visuelle. La méthodologie actuelle se concentre sur la reconnaissance des objets, laissant de côté les complexités introduites par des images encombrées.

« Cette approche globale relève le défi de longue date consistant à évaluer objectivement les progrès vers des performances au niveau humain en matière de reconnaissance d’objets et ouvre de nouvelles voies pour comprendre et faire progresser ce domaine », déclare Mayo.

« Avec la possibilité d’adapter la mesure de difficulté du temps de visualisation minimum à une variété de tâches visuelles, ce travail ouvre la voie à des performances plus robustes et plus proches de celles des humains en matière de reconnaissance d’objets, garantissant que les modèles sont véritablement mis à l’épreuve et sont prêts pour le complexités de la compréhension visuelle du monde réel.

« Il s’agit d’une étude fascinante sur la manière dont la perception humaine peut être utilisée pour identifier les faiblesses de la manière dont les modèles de vision de l’IA sont généralement comparés, qui surestiment les performances de l’IA en se concentrant sur des images simples », déclare Alan L. Yuille, professeur émérite de sciences cognitives et de sciences cognitives chez Bloomberg. Informatique à l’Université Johns Hopkins, qui n’a pas participé à l’article.

« Cela aidera à développer des critères plus réalistes conduisant non seulement à des améliorations de l’IA, mais également à des comparaisons plus justes entre l’IA et la perception humaine. »

« Il est largement admis que les systèmes de vision par ordinateur surpassent désormais les humains, et c’est vrai sur certains ensembles de données de référence », déclare Simon Kornblith, Ph.D., membre du personnel technique d’Anthropic. ’17, qui n’a pas non plus été impliqué dans ce travail.

« Cependant, une grande partie de la difficulté de ces critères vient de l’obscurité de ce qu’il y a dans les images ; la personne moyenne n’en sait tout simplement pas assez pour classer différentes races de chiens. Ce travail se concentre plutôt sur des images que les gens ne peuvent obtenir correctement que si avec suffisamment de temps. Ces images sont généralement beaucoup plus difficiles pour les systèmes de vision par ordinateur, mais les meilleurs systèmes ne sont qu’un peu pires que ceux des humains.