Nouvelles perspectives sur la dynamique de formation des classificateurs profonds
Une nouvelle étude menée par des chercheurs du MIT et de l’Université Brown caractérise plusieurs propriétés qui émergent lors de la formation de classificateurs profonds, un type de réseau de neurones artificiels couramment utilisé pour des tâches de classification telles que la classification d’images, la reconnaissance vocale et le traitement du langage naturel.
L’article, « Dynamics in Deep Classifierstrained with the Square Loss: Normalization, Low Rank, Neural Collapse and Generalization Bounds », publié aujourd’hui dans la revue Rechercheest le premier du genre à explorer théoriquement la dynamique de la formation de classificateurs profonds avec la perte au carré et comment des propriétés telles que la minimisation des rangs, l’effondrement neuronal et les dualités entre l’activation des neurones et les poids des couches sont entrelacées.
Dans l’étude, les auteurs se sont concentrés sur deux types de classificateurs profonds : les réseaux profonds entièrement connectés et les réseaux de neurones convolutifs (CNN).
UN étude précédente avait examiné les propriétés structurelles qui se développent dans les grands réseaux de neurones aux dernières étapes de la formation. Cette étude s’est concentrée sur la dernière couche du réseau et a révélé que les réseaux profonds entraînés pour s’adapter à un ensemble de données d’entraînement finiront par atteindre un état connu sous le nom d' »effondrement neuronal ». Lorsqu’un effondrement neuronal se produit, le réseau mappe plusieurs exemples d’une classe particulière (comme des images de chats) à un modèle unique de cette classe. Idéalement, les modèles de chaque classe doivent être aussi éloignés que possible les uns des autres, permettant au réseau de classer avec précision les nouveaux exemples.
Un groupe du MIT basé au MIT Center for Brains, Minds and Machines a étudié les conditions dans lesquelles les réseaux peuvent provoquer un effondrement neuronal. Les réseaux profonds qui ont les trois ingrédients de la descente de gradient stochastique (SGD), de la régularisation de la décroissance du poids (WD) et de la normalisation du poids (WN) afficheront un effondrement neuronal s’ils sont entraînés pour s’adapter à leurs données d’entraînement. Le groupe MIT a adopté une approche théorique – par rapport à l’approche empirique de l’étude précédente – prouvant que l’effondrement neuronal émerge de la minimisation de la perte carrée à l’aide de SGD, WD et WN.
Le co-auteur et post-doctorant du MIT McGovern Institute Akshay Rangamani déclare : « Notre analyse montre que l’effondrement neuronal émerge de la minimisation de la perte carrée avec des réseaux de neurones profonds très expressifs. Il met également en évidence les rôles clés joués par la régularisation de la décroissance du poids et la descente de gradient stochastique dans conduire des solutions vers l’effondrement neuronal. »
La décroissance des poids est une technique de régularisation qui empêche le réseau de sur-ajuster les données d’apprentissage en réduisant l’ampleur des poids. La normalisation des poids met à l’échelle les matrices de poids d’un réseau afin qu’elles aient une échelle similaire. Le rang bas fait référence à une propriété d’une matrice où elle a un petit nombre de valeurs singulières non nulles. Les bornes de généralisation offrent des garanties sur la capacité d’un réseau à prédire avec précision de nouveaux exemples qu’il n’a pas vus pendant la formation.
Les auteurs ont constaté que la même observation théorique qui prédit un biais de rang bas prédit également l’existence d’un bruit SGD intrinsèque dans les matrices de pondération et dans la sortie du réseau. Ce bruit n’est pas généré par le caractère aléatoire de l’algorithme SGD mais par un compromis dynamique intéressant entre la minimisation des rangs et l’ajustement des données, qui fournit une source intrinsèque de bruit similaire à ce qui se passe dans les systèmes dynamiques en régime chaotique. Une telle recherche de type aléatoire peut être bénéfique pour la généralisation car elle peut empêcher le sur-ajustement.
« Il est intéressant de noter que ce résultat valide la théorie classique de la généralisation montrant que les limites traditionnelles sont significatives. Il fournit également une explication théorique de la performance supérieure dans de nombreuses tâches des réseaux clairsemés, tels que les CNN, par rapport aux réseaux denses », commente le co-auteur. et Tomer Galanti, postdoctorant au MIT McGovern Institute. En fait, les auteurs prouvent de nouvelles bornes de généralisation basées sur des normes pour les CNN avec des noyaux localisés, c’est-à-dire un réseau avec une connectivité clairsemée dans leurs matrices de poids.
Dans ce cas, la généralisation peut être des ordres de grandeur mieux que les réseaux densément connectés. Ce résultat valide la théorie classique de la généralisation, montrant que ses limites sont significatives, et va à l’encontre d’un certain nombre d’articles récents exprimant des doutes sur les approches passées de la généralisation. Il fournit également une explication théorique des performances supérieures des réseaux clairsemés, tels que les CNN, par rapport aux réseaux denses. Jusqu’à présent, le fait que les CNN et non les réseaux denses représentent la réussite des réseaux profonds a été presque complètement ignoré par la théorie de l’apprentissage automatique. Au lieu de cela, la théorie présentée ici suggère qu’il s’agit d’un aperçu important de la raison pour laquelle les réseaux profonds fonctionnent aussi bien qu’eux.
« Cette étude fournit l’une des premières analyses théoriques couvrant l’optimisation, la généralisation et l’approximation dans les réseaux profonds et offre de nouvelles perspectives sur les propriétés qui émergent pendant la formation », déclare le co-auteur Tomaso Poggio, professeur Eugene McDermott au Département de cerveau et Sciences cognitives au MIT et co-directeur du Center for Brains, Minds and Machines. « Nos résultats ont le potentiel de faire progresser notre compréhension des raisons pour lesquelles l’apprentissage en profondeur fonctionne aussi bien. »