Un système intégrant des réseaux de neurones à graphe d'état d'écho et des matrices de mémoire résistives aléatoires analogiques

Un système intégrant des réseaux de neurones à graphe d’état d’écho et des matrices de mémoire résistives aléatoires analogiques

40,37 fois de l’efficacité énergétique d’inférence (et une réduction d’environ 91,40 % de la complexité de la passe en arrière). Crédit : Nature Machine Intelligence (2023). DOI : 10.1038/s42256-023-00609-5″ width= »800″ height= »530″>

Classification des nœuds d’un réseau de citations. a, Une illustration du réseau de citations à grande échelle CORA. Chaque nœud du graphique est un article scientifique, tandis qu’un bord indique une citation entre deux articles. Il existe au total sept catégories d’articles, indiquées par des couleurs de nœuds, selon leur discipline. b, Le schéma de classification des nœuds. Le graphique d’entrée est d’abord intégré à l’aide de l’ESGNN conformément au protocole illustré à la Fig. 1f et aux méthodes, suivi d’une couche de convolution de graphique servant de lecture pour produire un vecteur de classification pour chaque nœud. c, Une illustration des encastrements de nœuds simulés. Les cases colorées sur la gauche sont le zoom avant des détails d’intégration des nœuds. d, Un nœud intégré mappé à un espacement 2D à l’aide de t-SNE, montrant un regroupement clair des nœuds des mêmes catégories. e, La précision de dix tests aléatoires pour la classification des nœuds et la ligne de base du logiciel. La précision moyenne est de 87,12 %, comparable aux algorithmes de pointe. f, Les matrices de confusion normalisées des résultats de classification simulés. g, une répartition des OP estimés (barres rouges) et de la consommation d’énergie associée (barres bleu clair pour un GPU à la pointe de la technologie ; barres bleu foncé pour un système hybride analogique-numérique hybride basé sur une mémoire résistive aléatoire projeté ). Dans un passage vers l’avant (vers l’arrière), le modèle entièrement entraînable sur un GPU de pointe et ESGNN sur un système analogique-numérique hybride basé sur une mémoire résistive aléatoire projetée consomment environ 24,20 mJ (environ 63,18 GOP) et environ 599,47 μJ (environ 5,43 GOP), respectivement, révélant une amélioration > 40,37 fois de l’efficacité énergétique d’inférence (et une réduction d’environ 91,40 % de la complexité de la passe en arrière). Crédit: Intelligence des machines naturelles (2023). DOI : 10.1038/s42256-023-00609-5

Les réseaux de neurones graphiques (GNN) sont des architectures d’apprentissage automatique prometteuses conçues pour analyser des données pouvant être représentées sous forme de graphiques. Ces architectures ont obtenu des résultats très prometteurs sur une variété d’applications réelles, y compris la découverte de médicaments, la conception de réseaux sociaux et les systèmes de recommandation.

Comme les données structurées en graphes peuvent être très complexes, les architectures d’apprentissage automatique basées sur des graphes doivent être conçues avec soin et efficacité. De plus, ces architectures devraient idéalement être exécutées sur du matériel efficace qui prend en charge leurs exigences de calcul sans consommer trop d’énergie.

Des chercheurs de l’Université de Hong Kong, de l’Académie chinoise des sciences, des centres InnoHK et d’autres instituts du monde entier ont récemment développé un système logiciel-matériel qui combine une architecture GNN avec une mémoire résistive, une solution de mémoire qui stocke les données sous la forme d’un état résistif. Leur article, publié dans Intelligence des machines naturellesdémontre le potentiel de nouvelles solutions matérielles basées sur des mémoires résistives pour exécuter efficacement des techniques d’apprentissage automatique de graphes.

« L’efficacité des ordinateurs numériques est limitée par le goulot d’étranglement de von-Neumann et le ralentissement de la loi de Moore », a déclaré Shaocong Wang, l’un des chercheurs qui a mené l’étude, à Tech Xplore. « Le premier est le résultat de la séparation physique des unités de mémoire et de traitement qui entraîne d’importants frais généraux d’énergie et de temps en raison de la navette fréquente et massive de données entre ces unités lors de l’exécution de l’apprentissage des graphes. Le second est dû au fait que la mise à l’échelle des transistors approche de sa limite physique à l’époque. du nœud technologique 3nm. »

Les mémoires résistives sont essentiellement des résistances accordables, qui sont des dispositifs qui résistent au passage du courant électrique. Ces solutions de mémoire à base de résistance se sont avérées très prometteuses pour faire fonctionner des réseaux de neurones artificiels (ANN). En effet, les cellules de mémoire résistives individuelles peuvent à la fois stocker des données et effectuer des calculs, en abordant les limites du goulot d’étranglement dit de Naumann.

« Les mémoires résistives sont également hautement évolutives, conservant la loi de Moore », a déclaré Wang. « Mais les mémoires résistives ordinaires ne sont toujours pas assez bonnes pour l’apprentissage des graphes, car l’apprentissage des graphes modifie fréquemment la résistance de la mémoire résistive, ce qui entraîne une grande consommation d’énergie par rapport à l’ordinateur numérique conventionnel utilisant SRAM et DRAM. De plus, la résistance le changement est inexact, ce qui entrave la mise à jour précise du gradient et l’écriture du poids. Ces lacunes peuvent annuler les avantages de la mémoire résistive pour un apprentissage efficace des graphes.

L’objectif clé des travaux récents de Wang et de ses collègues était de surmonter les limites des solutions de mémoire résistive conventionnelles. Pour ce faire, ils ont conçu un accélérateur d’apprentissage de graphes basé sur la mémoire résistive qui élimine le besoin de programmation de mémoire résistive, tout en conservant une efficacité élevée.

Ils ont spécifiquement utilisé des réseaux d’état d’écho, une architecture de calcul de réservoir basée sur un réseau neuronal récurrent avec une couche cachée peu connectée. La plupart des paramètres de ces réseaux (c’est-à-dire les poids) peuvent être des valeurs aléatoires fixes. Cela signifie qu’ils peuvent permettre à la mémoire résistive d’être immédiatement applicable, sans avoir besoin de programmation.

« Dans notre étude, nous avons vérifié expérimentalement ce concept pour l’apprentissage des graphes, qui est très important et en fait assez général », a déclaré Wang. « En fait, les images et les données séquentielles, telles que les fichiers audio et les textes, peuvent également être représentées sous forme de graphiques. Même les transformateurs, les modèles d’apprentissage en profondeur les plus avancés et les plus dominants, peuvent être représentés sous forme de réseaux de neurones graphiques. »

Les réseaux de neurones du graphe d’état d’écho développés par Wang et ses collègues sont composés de deux composants distincts, connus sous le nom d’état d’écho et de couche de lecture. Les pondérations de la couche d’état d’écho sont fixes et aléatoires, elles doivent donc être formées ou mises à jour de manière répétée au fil du temps.

« La couche d’état d’écho fonctionne comme une couche convolutionnelle de graphe qui met à jour l’état caché de tous les nœuds du graphe de manière récursive », a déclaré Wang. « L’état caché de chaque nœud est mis à jour en fonction de sa propre fonctionnalité et des états cachés de ses nœuds voisins au pas de temps précédent, tous deux extraits avec les poids d’état d’écho. Ce processus est répété quatre fois, et les états cachés de tous les nœuds sont ensuite additionnés dans un vecteur pour représenter l’ensemble du graphique, qui est classé à l’aide de la couche de lecture. Ce processus est répété quatre fois, puis les états cachés de tous les nœuds sont additionnés dans un vecteur, comme la représentation de l’ensemble du graphique, qui est le classé par la couche de lecture. »

La conception logiciel-matériel proposée par Wang et ses collègues présente deux avantages notables. Premièrement, le réseau de neurones à état d’écho sur lequel il est basé nécessite beaucoup moins de formation. Deuxièmement, ce réseau de neurones est efficacement implémenté sur une mémoire résistive aléatoire et fixe qui n’a pas besoin d’être programmée.

« La réalisation la plus remarquable de notre étude est l’intégration de la mémoire résistive aléatoire et des réseaux de neurones à graphe d’état d’écho (ESGNN), qui conservent l’augmentation de l’efficacité énergétique de l’informatique en mémoire tout en utilisant la stochasticité intrinsèque de la rupture diélectrique pour fournir à faible coût et la randomisation matérielle à l’échelle nanométrique de l’ESGNN », a déclaré Wang. « Plus précisément, nous proposons un schéma de co-optimisation matériel-logiciel pour l’apprentissage des graphes. Un tel codedesign peut inspirer d’autres applications informatiques en aval de la mémoire résistive. »

En termes de logiciel, Wang et ses collègues ont introduit un ESGNN composé d’un grand nombre de neurones avec des interconnexions aléatoires et récurrentes. Ce réseau de neurones utilise des projections aléatoires itératives pour intégrer des nœuds et des données basées sur des graphiques. Ces projections génèrent des trajectoires à la limite du chaos, permettant une extraction efficace des caractéristiques tout en éliminant la formation ardue associée au développement des réseaux de neurones de graphes conventionnels.

« Sur le plan matériel, nous tirons parti de la stochasticité intrinsèque de la rupture diélectrique dans la commutation résistive pour implémenter physiquement les projections aléatoires dans ESGNN », a déclaré Wang. « En polarisant toutes les cellules résistives à la médiane de leurs tensions de claquage, certaines cellules subiront une panne diélectrique si leurs tensions de claquage sont inférieures à la tension appliquée, formant des réseaux de résistances aléatoires pour représenter l’entrée et la matrice récursive de l’ESGNN. Par rapport à la pseudo -génération de nombres aléatoires à l’aide de systèmes numériques, la source du caractère aléatoire ici est les réactions redox stochastiques et les migrations d’ions qui résultent de l’inhomogénéité de composition des cellules de mémoire résistives, offrant des réseaux de résistances aléatoires à faible coût et hautement évolutifs pour le calcul en mémoire.

Lors des premières évaluations, le système créé par Wang et ses collègues a obtenu des résultats prometteurs, exécutant les ESGNN plus efficacement que les solutions de mémoire résistive numériques et conventionnelles. À l’avenir, il pourrait être mis en œuvre pour divers problèmes du monde réel nécessitant l’analyse de données pouvant être représentées sous forme de graphiques.

Wang et ses collègues pensent que leur système logiciel-matériel pourrait être appliqué à un large éventail de problèmes d’apprentissage automatique, ils prévoient donc maintenant de continuer à explorer son potentiel. Par exemple, ils souhaitent évaluer ses performances dans des tâches d’analyse de séquences, où leur réseau d’état d’écho implémenté sur des réseaux memristifs pourrait supprimer le besoin de programmation, tout en garantissant une faible consommation d’énergie et une grande précision.

« Le prototype démontré dans ce travail a été testé sur des ensembles de données relativement petits, et nous visons à repousser ses limites avec des tâches plus complexes », a ajouté Wang. « Par exemple, l’ESN peut servir d’encodeur graphique universel pour l’extraction de caractéristiques, augmenté de mémoire pour effectuer un apprentissage en quelques prises de vue, ce qui le rend utile pour les applications de pointe. Nous sommes impatients d’explorer ces possibilités et d’étendre les capacités de l’ESN et memristive baies à l’avenir. »