Une nouvelle étude identifie comment l’IA ne parvient pas à reproduire la vision humaine
Lorsqu’un être humain repère un visage familier ou un véhicule venant en sens inverse, il ne faut que 100 millisecondes (environ un dixième de seconde) au cerveau pour l’identifier et, plus important encore, le placer dans le bon contexte afin qu’il puisse être compris, et le l’individu peut réagir en conséquence.
Sans surprise, les ordinateurs peuvent être capables de le faire plus rapidement, mais sont-ils aussi précis que les humains dans le monde réel ? Pas toujours, et c’est un problème, selon une étude menée par l’expert occidental en neuroimagerie Marieke Mur.
Les ordinateurs peuvent apprendre à traiter les données entrantes, comme l’observation des visages et des voitures, en utilisant l’intelligence artificielle connue sous le nom de réseaux de neurones profonds ou d’apprentissage en profondeur. Ce type de processus d’apprentissage automatique utilise des nœuds ou des neurones interconnectés dans une structure en couches qui ressemble au cerveau humain.
Le mot clé est « ressemble » car les ordinateurs, malgré la puissance et la promesse de l’apprentissage en profondeur, n’ont pas encore maîtrisé les calculs humains et, surtout, la communication et la connexion trouvées entre le corps et le cerveau, en particulier en ce qui concerne la reconnaissance visuelle.
« Bien que prometteurs, les réseaux de neurones profonds sont loin d’être des modèles informatiques parfaits de la vision humaine », a déclaré Mur, un professeur occidental nommé conjointement dans les départements de psychologie et d’informatique.
Des études antérieures ont montré que l’apprentissage en profondeur ne peut pas reproduire parfaitement la reconnaissance visuelle humaine, mais peu ont tenté d’établir quels aspects de la vision humaine l’apprentissage en profondeur ne parvient pas à imiter.
L’équipe a utilisé un test médical non invasif appelé magnétoencéphalographie (MEG) qui mesure les champs magnétiques produits par les courants électriques du cerveau. En utilisant les données MEG acquises auprès d’observateurs humains lors de la visualisation d’objets, Mur et ses collaborateurs internationaux ont détecté un point de défaillance clé. Ils ont découvert que des parties d’objets facilement nommables, telles que «l’œil», la «roue» et le «visage», peuvent expliquer la variance de la dynamique neuronale humaine au-delà de ce que l’apprentissage en profondeur peut apporter.
« Ces résultats suggèrent que les réseaux de neurones profonds et les humains peuvent en partie s’appuyer sur différentes caractéristiques d’objets pour la reconnaissance visuelle et fournir des lignes directrices pour l’amélioration du modèle », a déclaré Mur.
L’étude montre que les réseaux de neurones profonds ne peuvent pas pleinement tenir compte des réponses neuronales mesurées chez les observateurs humains pendant que les individus regardent des photos d’objets, y compris des visages et des animaux, et a des implications majeures pour l’utilisation de modèles d’apprentissage en profondeur dans des contextes réels, tels que l’auto- conduire des véhicules.
« Cette découverte fournit des indices sur ce que les réseaux de neurones ne parviennent pas à comprendre dans les images, à savoir les caractéristiques visuelles qui indiquent des catégories d’objets écologiquement pertinentes telles que les visages et les animaux », a déclaré Mur. « Nous suggérons que les réseaux neuronaux peuvent être améliorés en tant que modèles du cerveau en leur donnant une expérience d’apprentissage plus humaine, comme un régime d’entraînement qui met davantage l’accent sur les pressions comportementales auxquelles les humains sont soumis au cours du développement. »
Par exemple, il est important pour les humains d’identifier rapidement si un objet est un animal qui s’approche ou non, et si c’est le cas, de prédire son prochain mouvement conséquent. L’intégration de ces pressions pendant la formation peut bénéficier à la capacité des approches d’apprentissage en profondeur à modéliser la vision humaine.
L’ouvrage est publié dans Le Journal des neurosciences.