la mémoire ne veut plus vivre dans chaque machine

Pour beaucoup d’entre nous, la pénurie de mémoire peut d’abord ressembler à un problème proche de la consommation domestique : les modules, composants et appareils RAM conditionnés par une demande de plus en plus forte. Mais le phénomène décrit par The Next Platform pointe également vers l’autre bout de la chaîne. Il atteint les grandes entreprises technologiques qui forment, déploient et proposent des modèles d’intelligence artificielle dans les centres de données. Le cloud n’est pas une abstraction, et son appétit pour la mémoire nous oblige à réfléchir à quelque chose qui, jusqu’à récemment, semblait peu intuitif : peut-être que chaque machine ne devrait pas dépendre uniquement de la RAM qu’elle contient.

La mémoire change de place. L’idée sous-jacente est de transférer en mémoire une logique qui nous est déjà familière avec le stockage. Aujourd’hui, les données peuvent résider sur l’ordinateur lui-même, sur une autre machine du réseau ou sur un système partagé accessible par plusieurs serveurs. La prochaine génération de serveurs pourrait traiter la RAM de la même manière : en conserver une partie locale sur chaque machine, mais en apporter une bien plus grande partie à de grands systèmes externes capables de répartir la capacité selon les besoins du moment. De là vient ce que certains appellent la « memory godbox » : une grande boîte ou un cluster de mémoire qui n’est plus lié à une seule machine.

Le moment CXL. Pendant des années, Compute Express Link a progressé lentement, presque comme une promesse d’architectures plus flexibles. La technologie a été introduite il y a plusieurs années, mais les pressions actuelles sur la mémoire lui confèrent un contexte beaucoup plus favorable. CXL fournit une interface cohérente pour faire communiquer les processeurs, la mémoire, les accélérateurs et autres périphériques, en s’appuyant sur PCIe. L’idée finale est simple à énoncer, bien que complexe à mettre en œuvre : séparer les ressources sans rompre le sentiment qu’elles travaillent ensemble.

CXL n’est pas arrivé d’un seul coup. Il a d’abord été utilisé pour étendre la mémoire d’un serveur à l’aide de modules connectés à des emplacements PCIe compatibles. Puis, avec CXL 2.0, est apparu le pooling, c’est-à-dire la possibilité de mutualiser la mémoire dans un pool commun et de l’attribuer à différentes machines selon les besoins. La limite était que cette mémoire pouvait être réaffectée, mais pas véritablement partagée entre deux systèmes travaillant sur les mêmes données. CXL 3.0 marque le point où cette frontière commence à bouger, car elle introduit des topologies plus larges et une mémoire partagée entre les machines, bien qu’avec certaines limitations techniques.

Le problème sous-jacent. Selon The Next Platform, l’IA échoue non seulement à cause d’un manque de calcul, mais aussi à cause d’un manque de mémoire. Le HBM qui accompagne les GPU est très rapide et est conçu pour alimenter ces puces à haut débit, mais sa capacité est limitée et son coût est élevé. En formation, le grand défi consiste généralement à traiter d’énormes quantités de données pour construire le modèle. En inférence, cependant, nous parlons d’autre chose : utiliser ce modèle déjà formé pour répondre à une demande.

Le souvenir de la conversation. Chaque réponse d’un modèle de langage se construit petit à petit, jeton par jeton. Afin de ne pas recalculer tout ce qui précède à chaque étape, les systèmes sauvegardent un type de mémoire de travail appelé cache KV. La Next Platform explique que les vecteurs d’attention antérieurs y sont préservés, ce qui aide le modèle à continuer à prendre en compte le contexte tout en générant la réponse. Le problème est que dans les services comptant de nombreux utilisateurs, ce cache peut croître jusqu’à occuper d’énormes quantités de mémoire, encore plus que le modèle lui-même.

Ce n’est plus seulement de la théorie. Cette idée ne vit plus seulement dans des documents techniques ou des promesses architecturales. Le Registre mentionne Panmnesia, Liqid et UnifabriX comme sociétés travaillant sur des systèmes permettant d’éloigner la mémoire du serveur et de la mettre à la portée de plusieurs machines. Certains le font avec des commutateurs CXL, d’autres avec de grandes réserves de DDR5 pouvant être réparties entre différents hôtes. The Next Platform ajoute le cas d’Enfabrica et de son système Emfasys, conçu pour l’inférence et capable, selon les médias, d’atteindre 18 To de DDR5 par serveur mémoire et 144 To dans un rack complet. La conclusion est simple : l’industrie ne recherche pas seulement plus de mémoire, elle cherche à la placer d’une autre manière afin que l’IA puisse mieux en tirer parti.

Images | Simseo avec Nano Banane

À Simseo | Le « Netflix chinois » a conçu un plan pour que l’IA génère la majorité de son contenu d’ici cinq ans. Cela semble risqué