Les mathématiques préparent le calcul haute performance à l'ère de l'IA

Les mathématiques préparent le calcul haute performance à l’ère de l’IA

Pour surmonter les goulots d’étranglement du calcul haute performance, l’équipe de recherche du PNNL a proposé d’utiliser la théorie des graphes, un domaine mathématique qui explore les relations et les connexions entre un nombre, ou un groupe, de points dans un espace. Crédit : Shannon Colson, Laboratoire national du nord-ouest du Pacifique

Selon des scientifiques du Pacific Northwest National Laboratory (PNNL), l’augmentation de la congestion du trafic dans la région de Seattle est une bonne analogie pour une augmentation similaire de la congestion sur les systèmes de calcul haute performance (HPC).

Des charges de travail plus complexes, telles que la formation de modèles d’intelligence artificielle (IA), sont à l’origine des goulots d’étranglement du HPC, affirment les scientifiques dans un article publié dans La prochaine vaguel’examen par la National Security Agency des technologies émergentes.

« Nous pouvons résoudre la congestion grâce à la façon dont nous créons le réseau », a déclaré Sinan Aksoy, scientifique principal des données et chef d’équipe au PNNL, spécialisé dans le domaine mathématique de la théorie des graphes et des réseaux complexes.

Dans les systèmes HPC, des centaines de serveurs informatiques individuels, appelés nœuds, fonctionnent comme un seul supercalculateur. La disposition des nœuds et des liens entre eux constitue la topologie du réseau.

La congestion HPC se produit lorsque l’échange de données entre les nœuds se dirige vers le même lien, créant un goulot d’étranglement.

Les goulots d’étranglement des systèmes HPC sont plus fréquents aujourd’hui qu’ils ne l’étaient lorsque les systèmes ont été conçus, comme l’expliquent Aksoy et ses collègues Roberto Gioiosa, informaticien du groupe HPC du PNNL, et Stephen Young, mathématicien du groupe de mathématiques du PNNL. La prochaine vague.

C’est parce que la façon dont les gens utilisent les systèmes HPC aujourd’hui est différente de la façon dont ils le faisaient lorsque les systèmes ont été développés.

« C’est un artefact qui change la vie », a déclaré Gioiosa. « Nous n’avions pas Facebook il y a 20 ans, nous n’avions pas ces mégadonnées, nous n’avions pas de grands modèles d’IA, nous n’avions pas ChatGPT. »

La grande technologie se développe

À partir des années 1990, l’industrie de la technologie informatique a commencé à fleurir. De nouvelles entreprises ont perturbé l’économie de la région de Seattle et où les gens vivent et travaillent. Les modèles de trafic qui en ont résulté sont devenus moins prévisibles, moins structurés et plus encombrés, en particulier le long de l’axe est-ouest qui limite le trafic à deux ponts traversant le lac Washington.

Selon les chercheurs du PNNL, les topologies de réseau HPC traditionnelles ressemblent au réseau routier de la région de Seattle. Les topologies sont optimisées pour les simulations physiques de choses telles que les interactions entre les molécules ou les systèmes climatiques régionaux, et non pour les charges de travail modernes de l’IA.

Dans les simulations physiques, les calculs sur un serveur informent les calculs sur les serveurs adjacents. Par conséquent, les topologies de réseau optimisent l’échange de données entre serveurs voisins.

Par exemple, dans une simulation physique d’un système climatique régional, un serveur peut simuler le climat de Seattle et un autre le climat des eaux du Puget Sound à l’ouest de Seattle.

« Le modèle climatique de Puget Sound n’affectera pas ce qui se passe à New York – je veux dire, c’est finalement le cas – mais il doit vraiment parler au modèle de Seattle, donc je pourrais aussi bien accrocher l’ordinateur de Puget Sound et le Seattle ordinateur juste à côté l’un de l’autre », a déclaré Young, un mathématicien du groupe de mathématiques computationnelles du PNNL.

Les modèles de communication dans les applications d’analyse de données et d’IA sont irréguliers et imprévisibles. Les calculs sur un serveur peuvent éclairer les calculs sur un ordinateur à l’autre bout de la pièce. Selon Gioiosa, exécuter ces charges de travail sur des réseaux HPC traditionnels s’apparente à conduire aujourd’hui dans la grande région de Seattle lors d’une chasse au trésor à l’heure de pointe.

Extension du réseau

Pour surmonter les goulots d’étranglement du HPC, l’équipe de recherche du PNNL a proposé d’utiliser la théorie des graphes, un domaine mathématique qui explore les relations et les connexions entre un certain nombre, ou groupe, de points dans un espace.

Young et Aksoy sont des experts en extenseurs, une classe de graphes capables de répartir le trafic réseau de sorte qu' »il y aura toujours beaucoup d’options pour aller d’un point A à un point B », a expliqué Aksoy.

Leur réseau, appelé SpectralFly, présente une symétrie mathématique parfaite : chaque nœud est connecté au même nombre d’autres nœuds, et les connexions de chaque nœud sont identiques sur tout le réseau.

Les options pour passer d’un nœud à un autre, chaque option étant identique à n’importe quel nœud du réseau, signifient également qu’il est plus facile pour les programmeurs informatiques d’acheminer les informations via le réseau, a ajouté Aksoy.

« C’est la même feuille de route, peu importe où vous vous trouvez, il est donc beaucoup moins coûteux en calcul de comprendre comment acheminer les informations sur ce réseau », a-t-il déclaré, notant que cette fonctionnalité est comme être dans une ville où les directions de n’importe quel quartier à tous les quartiers de destination sont les mêmes pour tout point de départ.

Résultats de la simulation

L’équipe de recherche du PNNL a effectué des simulations de son réseau SpectralFly sur des charges de travail allant des simulations traditionnelles basées sur la physique aux modèles d’IA de formation et a comparé les résultats à ceux d’autres types de topologies de réseau HPC.

Ils ont constaté que SpectralFly surpassait les autres topologies de réseau sur les charges de travail d’IA modernes et obtenait des performances comparables sur les charges de travail traditionnelles, indiquant qu’il pourrait servir de topologie hybride pour les personnes cherchant à faire de la science traditionnelle et de l’IA sur le même système HPC.

« Nous essayons de fusionner les deux mondes, le traditionnel et l’émergent d’une manière que nous pouvons toujours faire de la science et nous pouvons aussi faire de l’IA et du big data », a déclaré Gioiosa.