Une nouvelle technique de formation ouvre la porte à des réseaux de neurones qui nécessitent beaucoup moins d'énergie

Les applications d’IA comme ChatGPT sont basées sur des réseaux de neurones artificiels qui, à bien des égards, imitent les cellules nerveuses de notre cerveau. Ils sont formés avec de grandes quantités de données sur des ordinateurs hautes performances, engloutissant ainsi d’énormes quantités d’énergie.

Le dopage des neurones, beaucoup moins gourmands en énergie, pourrait être une solution à ce problème. Dans le passé, cependant, les techniques normales utilisées pour les former ne fonctionnaient qu’avec des limites significatives.

Une étude récente de l’Université de Bonn présente une nouvelle réponse possible à ce dilemme, ouvrant potentiellement la voie à de nouvelles méthodes d’IA beaucoup plus économes en énergie. Les résultats ont été publiés dans Lettres d’examen physique.

Notre cerveau est un organe extraordinaire. Il consomme autant d’énergie que trois ampoules LED et pèse moins qu’un ordinateur portable. Et pourtant, il peut composer des morceaux de musique, concevoir quelque chose d’aussi complexe que la théorie quantique et philosopher sur l’au-delà.

Bien que les applications d’IA telles que ChatGPT soient également étonnamment puissantes, elles dévorent d’énormes quantités d’énergie lorsqu’elles luttent contre un problème. Comme le cerveau humain, ils reposent sur un réseau neuronal dans lequel plusieurs milliards de « cellules nerveuses » échangent des informations. Les neurones artificiels standards, cependant, le font sans aucune interruption, comme une clôture en treillis métallique à travers laquelle l’électricité ne cesse de circuler.

« Les neurones biologiques font les choses différemment », explique le professeur Raoul-Martin Memmesheimer de l’Institut de génétique de l’université de Bonn. « Ils communiquent à l’aide de courtes impulsions de tension, appelées potentiels d’action ou pointes. Celles-ci se produisent assez rarement, de sorte que les réseaux fonctionnent avec beaucoup moins d’énergie. » Le développement de réseaux de neurones artificiels qui « augmentent » également de cette manière constitue donc un domaine important dans la recherche sur l’IA.

Réseaux de pointe : efficaces mais difficiles à former

Les réseaux de neurones doivent être entraînés pour pouvoir accomplir certaines tâches. Imaginez que vous ayez une IA et que vous souhaitiez qu’elle apprenne la différence entre une chaise et une table. Alors vous lui montrez des photographies de meubles et vous voyez s’il obtient la bonne ou la mauvaise réponse. Certaines connexions du réseau neuronal seront renforcées et d’autres affaiblies en fonction des résultats, avec pour effet que le taux d’erreur diminue d’un cycle d’entraînement à l’autre.

Après chaque cycle, cet entraînement modifie quels neurones influencent quels autres et dans quelle mesure. « Dans les réseaux neuronaux conventionnels, les signaux de sortie changent progressivement », explique Memmesheimer, qui est également membre du domaine de recherche transdisciplinaire vie et santé. « Par exemple, le signal de sortie peut chuter de 0,9 à 0,8. Avec les neurones à pointe, cependant, c’est différent : les pointes sont là ou elles ne le sont pas. Vous ne pouvez pas avoir la moitié d’une pointe. »

On pourrait peut-être dire que chaque connexion dans un réseau neuronal est livrée avec un contrôleur qui permet d’augmenter ou de diminuer légèrement le signal de sortie d’un neurone. Les réglages de toutes les commandes sont ensuite optimisés jusqu’à ce que le réseau puisse distinguer avec précision les chaises des tables.

Cependant, dans les réseaux à pointe, les cadrans de contrôle sont incapables de modifier progressivement la force des signaux de sortie. « Cela signifie qu’il n’est pas non plus si facile d’affiner la pondération des connexions », souligne le Dr Christian Klos, collègue de Memmesheimer et premier auteur de l’étude.

Alors qu’on pensait auparavant que la méthode de formation habituelle (que les chercheurs appellent « apprentissage par descente graduelle ») s’avérerait très problématique pour les réseaux de pointe, la dernière étude a maintenant montré que ce n’était pas le cas.

« Nous avons constaté que, dans certains modèles de neurones standards, les pointes ne peuvent pas simplement apparaître ou disparaître comme ça. Au lieu de cela, tout ce qu’elles peuvent faire, c’est être avancées ou repoussées dans le temps », explique Klos. Les moments auxquels les pics apparaissent peuvent ensuite être ajustés – en continu, en fin de compte – en utilisant la force des connexions.

Affiner les pondérations des connexions dans les réseaux de pointe

Les différents schémas temporels des pointes influencent le comportement de réponse des neurones vers lesquels elles sont dirigées. En termes simples, plus un neurone biologique ou artificiel reçoit des signaux de plusieurs autres neurones « simultanément », plus la probabilité qu’il génère lui-même un pic augmente. En d’autres termes, l’influence exercée par un neurone sur un autre peut être ajustée à la fois par la force des connexions et par le timing des pointes.

« Et nous pouvons utiliser la même méthode de formation conventionnelle très efficace pour les deux dans les réseaux neuronaux de pointe que nous avons étudiés », explique Klos.

Les chercheurs ont déjà pu démontrer que leur technique fonctionne dans la pratique, en entraînant avec succès un réseau neuronal de pointe pour distinguer avec précision les nombres manuscrits les uns des autres.

Pour l’étape suivante, ils souhaitent lui confier une tâche beaucoup plus complexe, à savoir la compréhension de la parole, explique Memmesheimer. « Bien que nous ne sachions pas encore quel rôle notre méthode jouera dans la formation des réseaux de dopage à l’avenir, nous pensons qu’elle a beaucoup de potentiel, simplement parce qu’elle est exacte et qu’elle reflète précisément la méthode qui fonctionne extrêmement bien avec les réseaux sans dopage. réseaux de neurones. »