Les scientifiques développent un nouveau modèle mathématique pour l’apprentissage du transfert dans les réseaux de neurones
Alessandro Ingrosso, chercheur de l’Institut des neurosciences du Donders, a développé une nouvelle méthode mathématique en collaboration avec des collègues de deux institutions de recherche italiennes, ce qui permet la prédiction de l’efficacité de l’apprentissage du transfert dans les réseaux neuronaux.
Le document est publié dans la revue Lettres d’examen physique.
Le problème des données limitées
Les systèmes d’IA sont généralement formés avec de grandes quantités de données. Considérez un système de reconnaissance d’image formé pour identifier un chien sur une image. En entraînant ce réseau avec de grandes quantités de photos de chiens, le réseau apprend à identifier un chien à haute précision dans de nouvelles images.
Cependant, pour certaines applications, des données de formation suffisantes ne sont pas disponibles. « Dans le secteur médical, par exemple, lors du diagnostic du cancer par échographie, il n’y a pas suffisamment d’exemples disponibles pour former correctement un réseau neuronal », explique Ingrosso.
« Cela conduit à un« sur-ajustement », lorsque le réseau échoue à généraliser sur de nouveaux cas invisibles. Le nombre de faux positifs et de faux négatifs peut alors devenir très important. »
Pour résoudre ce problème, les chercheurs se sont concentrés sur «l’apprentissage du transfert», une technique où les connaissances d’un réseau formé sur un grand ensemble de données (la «source») sont transférées sur un nouveau réseau (la «cible») formée sur des données limitées.
« Nous avons étudié le modèle le plus simple pour cette approche d’apprentissage du transfert et développé une théorie mathématique pour les réseaux avec une couche cachée », explique Ingrosso.
Combinaison innovante de méthodes analytiques
Dans cette théorie, les chercheurs ont combiné deux méthodes analytiques différentes: l’approche récemment développée « Renormalisation du noyau » et le formalisme classique « Franz-Parisi » de la théorie des lunettes de spin. La fusion de tels outils permet de travailler avec des ensembles de données réels spécifiques au lieu de modèles ou d’approximations statistiques.
INGROSSO ajoute: « Notre nouvelle méthode peut prédire directement et avec précision l’efficacité du réseau cible pour généraliser les données lorsqu’elle adopte les connaissances du réseau source. »
Cette recherche fournit de nouvelles informations importantes pour la formation efficace des systèmes d’IA dans les domaines où les données sont rares, telles que les diagnostics médicaux et d’autres applications spécialisées.