La technique d'IA inspirée du cerveau imite le traitement visuel humain pour améliorer la vision machine

La technique d’IA inspirée du cerveau imite le traitement visuel humain pour améliorer la vision machine

Une équipe de chercheurs de l’Institut des sciences fondamentales, de l’Université Yonsei et de l’Institut Max Planck a développé une nouvelle technique d’intelligence artificielle (IA) qui rapproche la vision de la machine de la façon dont le cerveau humain traite les images. Appelée LP-Convolution, cette méthode améliore la précision et l’efficacité des systèmes de reconnaissance d’image tout en réduisant la charge de calcul des modèles d’IA existants.

Le cerveau humain est remarquablement efficace pour identifier les détails clés dans des scènes complexes, une capacité que les systèmes d’IA traditionnels ont eu du mal à reproduire. Réseaux de neurones convolutionnels (CNNS) – Le modèle d’IA le plus utilisé pour la reconnaissance d’image – procédure des images utilisant de petits filtres en forme carrée. Bien que efficace, cette approche rigide limite leur capacité à capturer des modèles plus larges dans les données fragmentées.

Plus récemment, les transformateurs de vision ont montré des performances supérieures en analysant des images entières à la fois, mais elles nécessitent une puissance de calcul massive et de grands ensembles de données, ce qui les rend impraticables pour de nombreuses applications du monde réel.

Inspiré par la façon dont le cortex visuel du cerveau traite sélectivement les informations par le biais de connexions circulaires et clairsemées, l’équipe de recherche a recherché un terrain d’entente: une approche en forme de cerveau pourrait-elle rendre les CNN efficaces et puissants?

Présentation de LP-Convolution: une façon plus intelligente de voir

Pour répondre à cela, l’équipe a développé LP-Convolution, une nouvelle méthode qui utilise une distribution normale P-généralisée multivariée (MPND) pour remodeler les filtres CNN dynamiquement. Contrairement aux CNN traditionnels, qui utilisent des filtres carrés fixes, la convolution LP permet aux modèles d’IA d’adapter leurs formes de filtre – éloignant horizontalement ou verticalement en fonction de la tâche, un peu comme la façon dont le cerveau humain se concentre sélectivement sur les détails pertinents.

Cette percée résout un défi de longue date dans la recherche sur l’IA, connue sous le nom de problème du grand noyau. La simple augmentation des tailles de filtres dans CNNS (par exemple, en utilisant 7 × 7 ou plus de noyaux) n’améliore généralement pas les performances, malgré l’ajout de paramètres. LP-Convolution surmonte cette limitation en introduisant des modèles de connectivité flexibles et biologiquement inspirés.

Percée IA inspirée du cerveau: faire des ordinateurs à voir plus comme des humains

Performance du monde réel: IA plus forte, plus intelligente et plus robuste

Dans les tests sur les ensembles de données de classification d’images standard (CIFAR-100, TinyImagenet), LP-Convolution a considérablement amélioré la précision sur les modèles classiques comme AlexNet et les architectures modernes comme Replknet. La méthode s’est également avérée très robuste contre les données corrompues, un défi majeur dans les applications d’IA du monde réel.

De plus, les chercheurs ont constaté que lorsque les masques LP utilisés dans leur méthode ressemblaient à une distribution gaussienne, les modèles de traitement internes de l’IA correspondaient étroitement à l’activité neuronale biologique, comme confirmé par des comparaisons avec les données cérébrales de souris.

« Nous, les humains, aperçus rapidement ce qui compte dans une scène surpeuplée », a déclaré le Dr C. Justin Lee, directeur du Center for Cognition and Socialialité au sein de l’Institut des sciences fondamentales. « Notre convolution LP imite cette capacité, permettant à l’IA de se concentrer de manière flexible sur les parties les plus pertinentes d’une image – tout comme le cerveau. »

Impact et applications futures

Contrairement aux efforts précédents qui reposaient sur de petits filtres rigides ou des transformateurs lourds requis, LP-Convolution offre une alternative pratique et efficace. Cette innovation pourrait révolutionner des domaines tels que:

  • Conduite autonome, où l’IA doit détecter rapidement les obstacles en temps réel
  • Imagerie médicale, améliorant les diagnostics basés sur l’IA en mettant en évidence des détails subtils
  • Robotique, permettant une vision machine plus intelligente et plus adaptable dans des conditions changeantes

« Ce travail est une contribution puissante à la fois à l’IA et aux neurosciences », a déclaré le directeur Lee. « En alignant l’IA plus étroitement avec le cerveau, nous avons débloqué un nouveau potentiel de CNN, les rendant plus intelligents, plus adaptables et plus réalistes biologiquement. »

Pour l’avenir, l’équipe prévoit d’affiner davantage cette technologie, explorant ses applications dans des tâches de raisonnement complexes telles que la résolution de puzzle (par exemple, Sudoku) et le traitement d’image en temps réel.

L’étude sera présentée à la Conférence internationale sur les représentations de l’apprentissage (ICLR 2025), et l’équipe de recherche a rendu son code et ses modèles accessibles au public sur GitHub et OpenReview.net.