Ce qu'une règle pliante peut nous dire sur les réseaux de neurones
Les réseaux de neurones profonds sont au cœur de l'intelligence artificielle, allant de la reconnaissance des modèles à des modèles de grande langue et de raisonnement comme Chatgpt. Le principe: Au cours d'une phase de formation, les paramètres des neurones artificiels du réseau sont optimisés de telle manière qu'ils peuvent effectuer des tâches spécifiques, telles que la découverte d'objets ou les caractéristiques caractéristiques des images.
Comment cela fonctionne exactement et pourquoi certains réseaux de neurones sont plus puissants que d'autres, ce n'est pas facile à comprendre. Une description mathématique rigoureuse semble hors de portée des techniques actuelles. Cependant, une telle compréhension est importante si l'on veut construire l'intelligence artificielle tout en minimisant les ressources.
Une équipe de chercheurs dirigée par le professeur Ivan Dokmanić au Département des mathématiques et de l'informatique de l'Université de Bâle a maintenant développé un modèle étonnamment simple qui reproduit les principales caractéristiques des réseaux de neurones profonds et qui permet d'optimiser leurs paramètres. Ils ont publié leurs résultats en Lettres d'examen physique.
Division du travail dans un réseau neuronal
Les réseaux de neurones profonds se composent de plusieurs couches de neurones. Lorsque vous apprenez à classer les objets dans les images, le réseau s'approche de la couche de réponse par calque. Cette approche progressive, au cours de laquelle deux classes – par exemple, « chat » et « chien » – sont de plus en plus clairement distinguées, est appelée séparation des données.
« Habituellement, chaque couche d'un réseau performant contribue également à la séparation des données, mais parfois la plupart des travaux se font par des couches plus profondes ou moins profondes », explique Dokmanić.
Cela dépend, entre autres, de la façon dont le réseau est construit: les neurones multiplient-ils simplement les données entrantes avec un facteur particulier, que les experts appelleraient-ils « linéaire »? Ou effectuent-ils des calculs plus complexes – en d'autres termes, le réseau est-il «non linéaire»?
Une autre considération: dans la plupart des cas, la phase de formation des réseaux de neurones contient également un élément de hasard ou de bruit. Par exemple, dans chaque formation, un sous-ensemble aléatoire de neurones peut simplement être ignoré quelle que soit leur entrée. Étrangement, ce bruit peut améliorer les performances du réseau.
« L'interaction entre la non-linéarité et le bruit se traduit par un comportement très complexe, ce qui est difficile à comprendre et à prédire », explique Dokmanić.
« Là encore, nous savons qu'une distribution égalisée de la séparation des données entre les couches augmente les performances des réseaux. »
Ainsi, pour pouvoir faire des progrès, Dokmanić et ses collaborateurs se sont inspirés des théories physiques et développé des modèles mécaniques macroscopiques du processus d'apprentissage qui peuvent être intuitivement compris.
Tirer et secouer la règle pliante
Un de ces modèles est une règle pliante dont les sections individuelles correspondent aux couches du réseau neuronal et qui s'ouvre à une extrémité. Dans ce cas, la non-linéarité provient du frottement mécanique entre les sections. Le bruit peut être ajouté en tremblant de façon erratique l'extrémité de la règle de pliage pendant le tirage.
Le résultat de cette expérience simple: si l'on tire la règle lentement et régulièrement, les premières sections se déroulent tandis que le reste reste largement fermé.
« Cela correspond à un réseau neuronal dans lequel la séparation des données se produit principalement dans les couches peu profondes », explique Cheng Shi, un doctorat. Étudiant du groupe de Dokmanić et premier auteur de l'étude. À l'inverse, si l'on tire vite tout en le tremblant un peu, la règle de pliage se termine bien et se dérouler uniformément. Dans un réseau, ce serait une séparation uniforme des données.
« Nous avons simulé et analysé mathématiquement des modèles similaires avec des blocs connectés par des ressorts, et l'accord entre les résultats et ceux des réseaux » réels « est presque étrange », explique Shi.
Les chercheurs de Bâle envisagent d'appliquer leur méthode à de grands modèles de langue. En général, de tels modèles mécaniques pourraient être utilisés à l'avenir pour améliorer la formation de réseaux de neurones profonds à haute performance sans l'approche d'essai et d'erreur qui est traditionnellement utilisée pour déterminer les valeurs optimales de paramètres tels que le bruit et la non-linéarité.
