Des chercheurs étudiant la manière dont l’IA catégorise les images découvrent des similitudes avec les systèmes visuels naturels

Des chercheurs étudiant la manière dont l’IA catégorise les images découvrent des similitudes avec les systèmes visuels naturels

Des chercheurs de la TU Wien ont étudié comment une intelligence artificielle catégorise les images. Les résultats montrent des similitudes étonnantes avec les systèmes visuels naturels.

Comment apprendre à une machine à reconnaître des objets dans des images ? D’énormes progrès ont été réalisés dans ce domaine ces dernières années. À l’aide de réseaux neuronaux, par exemple, des images d’animaux peuvent être attribuées aux espèces respectives avec un taux de réussite très élevé. Ceci est réalisé en entraînant un réseau neuronal à l’aide de nombreux exemples d’images. Le réseau est adapté étape par étape jusqu'à ce qu'il fournisse finalement les bonnes réponses aussi précisément que possible.

Cependant, il reste généralement un mystère quant aux structures qui se forment au cours du processus et aux mécanismes qui se développent dans le réseau neuronal qui mènent finalement à l'objectif.

Une équipe de la TU Wien, dirigée par le professeur Radu Grosu, et une équipe du MIT, dirigée par le professeur Daniela Rus, ont étudié précisément cette question et sont parvenues à des résultats étonnants : des structures se forment dans le réseau neuronal artificiel qui portent un ressemblance frappante avec les structures présentes dans le système nerveux des animaux ou des humains.

L'équipe a présenté ses recherches à la Conférence internationale sur les représentations d'apprentissage (ICLR 2024) à Vienne en mai.

Les machines voient-elles comme nous ?

Plusieurs couches de neurones

« Nous travaillons avec des réseaux de neurones dits convolutifs. Ce sont des réseaux de neurones artificiels qui sont souvent utilisés pour traiter des données d'image », explique Zahra Babaiee de l'Institut de génie informatique de la TU Wien. Elle est la première auteure de l'article et a réalisé une partie de son travail avec Daniela Rus au MIT et une partie de son travail avec Peyman M. Kiasari et Radu Grosu à la TU Wien.

La conception de ces réseaux s’inspire des réseaux de neurones biologiques présents dans nos yeux et notre cerveau. Là, les impressions visuelles sont traitées par plusieurs couches de neurones. Certains neurones deviennent actifs, par exemple, lorsqu'ils sont activés par des signaux lumineux dans l'œil et transmettent des signaux aux neurones situés derrière eux.

Dans les réseaux de neurones artificiels, ce principe est imité numériquement sur un ordinateur : l'entrée souhaitée, par exemple une image numérique, est transférée pixel par pixel vers la première couche des réseaux de neurones artificiels. L’activité des neurones de cette première couche dépend simplement du fait qu’on leur présente un pixel plus clair ou plus sombre.

Ces valeurs d'activité des neurones de la première couche sont ensuite utilisées pour déterminer l'activité des neurones de la couche suivante : Chacun des neurones de la couche suivante combine les signaux de la première couche selon un modèle individuel très spécifique (selon une formule très spécifique), et cela donne une valeur qui est ensuite utilisée pour déterminer l’activité du neurone dans la couche suivante.

Une similitude étonnante avec les réseaux de neurones biologiques

« Dans les réseaux de neurones convolutifs, tous les neurones d'une couche ne jouent pas un rôle pour chaque neurone de la couche suivante », explique Zahra Babaiee. « Même dans le cerveau, tous les neurones d'une couche ne sont pas connectés à tous les neurones de la couche précédente sans exception, mais uniquement aux neurones voisins dans une zone très spécifique. »

Dans les réseaux de neurones convolutifs, ce que l'on appelle des « filtres » sont donc utilisés pour décider quels neurones ont une influence sur un neurone ultérieur particulier et lesquels n'en ont pas. Ces filtres ne sont pas prédéterminés, mais sont mis en forme automatiquement lors de l'entraînement du réseau neuronal.

« Pendant que le réseau est formé avec plusieurs milliers d'images, ces filtres et autres paramètres sont constamment ajustés. L'algorithme teste quelle pondération des neurones de la couche précédente conduit au meilleur résultat jusqu'à ce que les images soient affectées à la bonne catégorie. avec la plus grande fiabilité possible », déclare Zahra Babaiee. « L'algorithme le fait automatiquement, nous n'avons aucune influence directe dessus. »

Cependant, à la fin de la formation, il est possible d'analyser quels filtres se sont ainsi développés. Et cela révèle des modèles intéressants : les filtres ne prennent pas des formes complètement aléatoires, mais se répartissent en plusieurs catégories simples.

« Parfois, les filtres se développent de telle manière qu'un neurone est particulièrement fortement influencé par le neurone situé directement devant lui et pratiquement pas par les autres », explique Zahra Babaiee.

D'autres filtres ont une forme de croix ou présentent deux zones opposées : une dont les neurones ont une influence fortement positive sur l'activité du neurone de la couche suivante et une autre dont les neurones ont une influence fortement négative.

« Ce qui est étonnant, c'est que ces schémas ont déjà été observés dans le système nerveux biologique, par exemple chez les singes ou les chats », explique Zahra Babaiee. Chez l’humain, le traitement des données visuelles fonctionnera probablement de la même manière.

Ce n’est probablement pas une coïncidence si l’évolution biologique a produit les mêmes fonctions de filtrage que celles qui apparaissent dans un processus d’apprentissage automatique automatisé. « Si vous savez que précisément ces structures se forment encore et encore lors de l'apprentissage visuel, vous pouvez déjà en tenir compte dans le processus de formation et développer des algorithmes d'apprentissage automatique qui atteignent le résultat souhaité beaucoup plus rapidement qu'auparavant », explique Zahra Babaiee.