Les chercheurs explorent comment rapprocher les réseaux neuronaux plus vastes de l’efficacité énergétique des cerveaux biologiques

Les chercheurs explorent comment rapprocher les réseaux neuronaux plus vastes de l’efficacité énergétique des cerveaux biologiques

Plus vous achetez de billets de loterie, plus vos chances de gagner sont élevées, mais dépenser plus que ce que vous gagnez n’est évidemment pas une stratégie judicieuse. Quelque chose de similaire se produit dans l'IA alimentée par l'apprentissage profond : nous savons que plus un réseau neuronal est grand (c'est-à-dire plus il possède de paramètres), mieux il peut apprendre la tâche que nous lui avons assignée.

Cependant, la stratégie consistant à le rendre infiniment grand pendant la formation est non seulement impossible mais aussi extrêmement inefficace. Les scientifiques ont tenté d'imiter la façon dont les cerveaux biologiques apprennent, qui est très économe en ressources, en fournissant aux machines un processus de formation progressif qui commence par des exemples plus simples et progresse vers des exemples plus complexes – un modèle connu sous le nom d'« apprentissage par programme ».

Étonnamment, cependant, ils ont constaté que cette stratégie apparemment judicieuse n’est pas pertinente pour les réseaux surparamétrés (très grands).

Une étude dans le Journal of Statistical Mechanics : théorie et expérience a cherché à comprendre pourquoi cet « échec » se produit, suggérant que ces réseaux surparamétrés sont si « riches » qu'ils ont tendance à apprendre en suivant un chemin basé davantage sur la quantité (de ressources) que sur la qualité (entrée organisée par difficulté croissante).

Cela pourrait en fait être une bonne nouvelle, car cela suggère qu’en ajustant soigneusement la taille initiale du réseau, l’apprentissage curriculaire pourrait toujours être une stratégie viable, potentiellement prometteuse pour créer des réseaux neuronaux plus économes en ressources, et donc moins consommateurs d’énergie.

L’IA basée sur les réseaux neuronaux comme ChatGPT suscite un grand enthousiasme : chaque jour, un nouveau robot ou une nouvelle fonctionnalité apparaît que tout le monde veut essayer, et le phénomène se développe également dans la recherche scientifique et les applications industrielles. Cela nécessite une augmentation de la puissance de calcul – et donc de la consommation d’énergie – et les préoccupations concernant à la fois les sources d’énergie nécessaires et les émissions produites par ce secteur sont croissantes. Rendre cette technologie capable de faire plus avec moins est donc crucial.

Les réseaux de neurones sont des modèles informatiques constitués de nombreux « nœuds » effectuant des calculs, avec une ressemblance lointaine avec les réseaux de neurones des cerveaux biologiques, capables d'apprendre de manière autonome en fonction des informations qu'ils reçoivent. Par exemple, ils « voient » un grand nombre d’images et apprennent à catégoriser et à reconnaître le contenu sans instruction directe.

Parmi les experts, il est bien connu que plus un réseau neuronal est grand pendant la phase d'entraînement (c'est-à-dire plus il utilise de paramètres), plus il peut effectuer les tâches requises avec précision. Cette stratégie est connue dans le jargon technique sous le nom d' »hypothèse du ticket de loterie » et présente l'inconvénient majeur de nécessiter une quantité massive de ressources informatiques, avec tous les problèmes associés (il faut des ordinateurs de plus en plus puissants, qui demandent de plus en plus d'énergie).

Pour trouver une solution, de nombreux scientifiques se sont penchés sur le domaine où ce type de problème semble avoir été, au moins partiellement, résolu : le cerveau biologique. Notre cerveau, avec seulement deux ou trois repas par jour, peut effectuer des tâches qui nécessitent des superordinateurs et une énorme quantité d'énergie pour un réseau neuronal. Comment font-ils ?

L’ordre dans lequel nous apprenons les choses pourrait être la réponse. « Si quelqu'un n'a jamais joué du piano et que vous le mettez devant une pièce de Chopin, il est peu probable qu'il fasse beaucoup de progrès dans son apprentissage », explique Luca Saglietti, physicien à l'université Bocconi de Milan, qui a coordonné l'étude. « Normalement, il y a tout un parcours d'apprentissage qui s'étend sur plusieurs années, commençant par jouer « Twinkle Twinkle Little Star » et menant finalement à Chopin. »

Lorsque les informations sont fournies aux machines par ordre de difficulté croissante, on parle alors d'« apprentissage du programme ». Cependant, le moyen le plus courant de former des réseaux de neurones consiste à les alimenter de manière aléatoire dans des réseaux très puissants et surparamétrés.

Une fois que le réseau a appris, il est possible de réduire le nombre de paramètres, même inférieur à 10 % du nombre initial, car ils ne sont plus utilisés. Cependant, si vous démarrez avec seulement 10 % des paramètres, le réseau ne parvient pas à apprendre. Ainsi, même si une IA peut éventuellement s'intégrer dans notre téléphone, pendant la formation, elle nécessite des serveurs massifs.

Les scientifiques se demandent si l’apprentissage curriculaire pourrait économiser des ressources. Mais les recherches menées jusqu’à présent suggèrent que pour les réseaux très surparamétrés, l’apprentissage du programme semble peu pertinent : les performances lors de la phase de formation ne semblent pas améliorées.

Les nouveaux travaux de Saglietti et de ses collègues tentent de comprendre pourquoi.

« Ce que nous avons vu, c'est qu'un réseau neuronal surparamétré n'a pas besoin de ce chemin car, au lieu d'être guidé par l'apprentissage par des exemples, il est guidé par le fait qu'il a tellement de paramètres, des ressources déjà proches de ce dont il a besoin. « , explique Saglietti.

En d’autres termes, même si vous lui proposez des données d’apprentissage optimisées, le réseau préfère s’appuyer sur ses vastes ressources de traitement, trouvant en lui-même des éléments qui, avec quelques ajustements, peuvent déjà accomplir la tâche.

Il s’agit en fait d’une bonne nouvelle, car cela ne signifie pas que les réseaux ne peuvent pas tirer parti de l’apprentissage curriculaire, mais que, compte tenu du nombre élevé de paramètres initiaux, ils sont poussés dans une direction différente. En principe, on pourrait donc trouver un moyen de commencer avec des réseaux plus petits et d’adopter l’apprentissage curriculaire.

« C'est une partie de l'hypothèse explorée dans notre étude », explique Saglietti.

« Au moins dans les expériences que nous avons menées, nous avons observé que si nous commençons avec des réseaux plus petits, l'effet du programme – montrant des exemples dans un ordre organisé – commence à montrer une amélioration des performances par rapport à lorsque l'entrée est fournie de manière aléatoire. Cette amélioration est plus grand que lorsque vous continuez à augmenter les paramètres jusqu'au point où l'ordre de l'entrée n'a plus d'importance.