La théorie des répliques montre que les réseaux de neurones profonds se ressemblent
Comment savoir que vous regardez un chien ? Quelles sont les chances que vous ayez raison ? Si vous êtes un algorithme d'apprentissage automatique, vous passez au crible des milliers d'images (et des millions de probabilités) pour arriver à la « vraie » réponse, mais différents algorithmes empruntent des chemins différents pour y arriver.
Une collaboration entre des chercheurs de Cornell et de l'Université de Pennsylvanie a trouvé un moyen de réduire cette quantité ahurissante de données et de montrer que les réseaux neuronaux profonds les plus performants suivent une trajectoire similaire dans le même espace « de faible dimension ».
« Certains réseaux de neurones empruntent des chemins différents. Ils vont à des vitesses différentes. Mais ce qui est frappant, c'est qu'ils vont tous dans le même sens », a déclaré James Sethna, professeur de physique au Collège des Arts et des Sciences, qui a dirigé l'équipe Cornell.
La technique de l'équipe pourrait potentiellement devenir un outil permettant de déterminer quels réseaux sont les plus efficaces.
L'article du groupe, « Le processus de formation de nombreux réseaux profonds explore le même collecteur à faible dimension », est publié dans le Actes de l'Académie nationale des sciences. L'auteur principal est Jialin Mao de l'Université de Pennsylvanie.
Le projet trouve ses racines dans un algorithme développé par Katherine Quinn qui peut être utilisé pour imager un vaste ensemble de données de probabilités et trouver les modèles les plus essentiels, également connu sous le nom de prise de la limite des données nulles.
Sethna et Quinn ont précédemment utilisé cette « théorie de la réplique » pour passer au peigne fin les données du fond de micro-ondes cosmique, c'est-à-dire les rayonnements laissés par les premiers jours de l'univers, et cartographier les qualités de notre univers par rapport aux caractéristiques possibles de différents univers.
La « méthode sournoise » de Quinn, comme l'appelait Sethna, produisait une visualisation tridimensionnelle « pour voir les véritables motifs sous-jacents de basse dimension dans cet espace de très haute dimension ».
Après la publication de ces résultats, Sethna a été approchée par Pratik Chaudhari de l'Université de Pennsylvanie, qui lui a proposé une collaboration.
« Pratik avait réalisé que la méthode que nous avions développée pouvait être utilisée pour analyser la manière dont les réseaux neuronaux profonds apprennent », a déclaré Sethna.
Pendant plusieurs années, les chercheurs ont collaboré étroitement. Le groupe de Chaudhari, avec ses vastes connaissances et ressources dans l'exploration des réseaux neuronaux profonds, a pris les devants et a trouvé des méthodes rapides pour calculer la visualisation, et avec le groupe de Sethna, ils ont travaillé pour visualiser, analyser et interpréter cette nouvelle fenêtre sur l'apprentissage automatique.
Les chercheurs se sont concentrés sur six types d’architectures de réseaux neuronaux, dont le transformateur, base de ChatGPT. Au total, l’équipe a formé 2 296 configurations de réseaux neuronaux profonds avec différentes architectures, tailles, méthodes d’optimisation, hyper-paramètres, mécanismes de régularisation, augmentation des données et initialisations aléatoires de poids.
« Cela reflète vraiment l'étendue de ce qui existe aujourd'hui en matière de normes d'apprentissage automatique », a déclaré Itay Griniasty, co-auteur et chercheur postdoctoral.
Pour la formation elle-même, les réseaux de neurones ont examiné 50 000 images et ont déterminé, pour chaque image, la probabilité qu'elle rentre dans l'une des 10 catégories : avion, automobile, oiseau, chat, cerf, chien, grenouille, cheval, bateau ou camion. Chaque nombre de probabilité est considéré comme un paramètre ou une dimension. Par conséquent, la combinaison de 50 000 images et de 10 catégories a donné lieu à un demi-million de dimensions.
Malgré cet espace « de grande dimension », la visualisation de l'algorithme de Quinn a montré que la plupart des réseaux de neurones suivaient une trajectoire géodésique de prédiction similaire – menant de l'ignorance totale d'une image à la certitude totale de sa catégorie – dans la même dimension relativement basse. En effet, la capacité d’apprentissage des réseaux a suivi le même parcours, même avec des approches différentes.
« Maintenant, nous ne pouvons pas prouver que cela doit se produire. C'est quelque chose de surprenant. Mais c'est parce que nous n'y travaillons que depuis deux décennies », a déclaré Sethna. « Cela nous incite à faire davantage de travaux théoriques sur les réseaux de neurones. Peut-être que notre méthode sera un outil permettant aux personnes qui comprennent les différents algorithmes de deviner ce qui fonctionnera le mieux. »
Les co-auteurs comprennent le doctorant Han Kheng Teoh et des chercheurs de l’Université de Pennsylvanie et de l’Université Brigham Young.