Qu'est-ce qu'un GPU ? Un expert explique les puces qui alimentent le boom de l'IA et pourquoi elles valent des milliers de milliards
Alors que le monde se précipite pour utiliser la dernière vague de technologies d’IA, un élément matériel de haute technologie est devenu un produit étonnamment populaire : l’unité de traitement graphique, ou GPU.
Un GPU haut de gamme peut se vendre pour des dizaines de milliers de dollars, et le fabricant leader NVIDIA a vu sa valorisation boursière dépasser les 2 000 milliards de dollars alors que la demande pour ses produits augmente.
Les GPU ne sont pas non plus de simples produits d’IA haut de gamme. Il existe également des GPU moins puissants dans les téléphones, les ordinateurs portables et les consoles de jeux.
À présent, vous vous demandez probablement : qu’est-ce qu’un GPU, vraiment ? Et qu’est-ce qui les rend si spéciaux ?
Qu'est-ce qu'un GPU ?
Les GPU ont été initialement conçus principalement pour générer et afficher rapidement des scènes et des objets 3D complexes, tels que ceux impliqués dans les jeux vidéo et les logiciels de conception assistée par ordinateur. Les GPU modernes gèrent également des tâches telles que la décompression des flux vidéo.
Le « cerveau » de la plupart des ordinateurs est une puce appelée unité centrale de traitement (CPU). Les processeurs peuvent être utilisés pour générer des scènes graphiques et décompresser des vidéos, mais ils sont généralement beaucoup plus lents et moins efficaces sur ces tâches que les GPU. Les processeurs sont mieux adaptés aux tâches de calcul générales, telles que le traitement de texte et la navigation sur des pages Web.
En quoi les GPU sont-ils différents des CPU ?
Un processeur moderne typique est composé de 8 à 16 « cœurs », chacun pouvant traiter des tâches complexes de manière séquentielle.
Les GPU, en revanche, possèdent des milliers de cœurs relativement petits, conçus pour fonctionner tous en même temps (« en parallèle ») afin d'obtenir un traitement global rapide. Cela les rend bien adaptés aux tâches qui nécessitent un grand nombre d’opérations simples pouvant être effectuées en même temps plutôt que les unes après les autres.
Les GPU traditionnels se déclinent en deux versions principales.
Premièrement, il existe des puces autonomes, souvent fournies sous forme de cartes d'extension pour les grands ordinateurs de bureau. Deuxièmement, les GPU combinés à un processeur dans le même boîtier de puces, que l'on trouve souvent dans les ordinateurs portables et les consoles de jeux telles que la PlayStation 5. Dans les deux cas, le processeur contrôle ce que fait le GPU.
Pourquoi les GPU sont-ils si utiles pour l’IA ?
Il s’avère que les GPU peuvent être réutilisés pour faire plus que générer des scènes graphiques.
De nombreuses techniques d'apprentissage automatique à la base de l'intelligence artificielle (IA), telles que les réseaux neuronaux profonds, reposent largement sur diverses formes de « multiplication matricielle ».
Il s’agit d’une opération mathématique dans laquelle de très grands ensembles de nombres sont multipliés et additionnés. Ces opérations sont bien adaptées au traitement parallèle et peuvent donc être effectuées très rapidement par les GPU.
Quelle est la prochaine étape pour les GPU ?
Les prouesses numériques des GPU ne cessent de croître, en raison de l’augmentation du nombre de cœurs et de leurs vitesses de fonctionnement. Ces améliorations sont principalement dues aux améliorations de la fabrication de puces par des entreprises telles que TSMC à Taiwan.
La taille des transistors individuels – les composants de base de toute puce informatique – diminue, ce qui permet de placer davantage de transistors dans le même espace physique.
Cependant, l’histoire ne s’arrête pas là. Bien que les GPU traditionnels soient utiles pour les tâches de calcul liées à l’IA, ils ne sont pas optimaux.
Tout comme les GPU ont été initialement conçus pour accélérer les ordinateurs en fournissant un traitement spécialisé pour les graphiques, il existe des accélérateurs conçus pour accélérer les tâches d'apprentissage automatique. Ces accélérateurs sont souvent appelés « GPU de centre de données ».
Certains des accélérateurs les plus populaires, fabriqués par des sociétés telles qu'AMD et NVIDIA, ont commencé comme des GPU traditionnels. Au fil du temps, leurs conceptions ont évolué pour mieux gérer diverses tâches d'apprentissage automatique, par exemple en prenant en charge le format numérique « cerveau flottant » plus efficace.
D'autres accélérateurs, tels que les Tensor Processing Units de Google et les Tensix Cores de Tenstorrent, ont été conçus dès le départ pour accélérer les réseaux neuronaux profonds.
Les GPU des centres de données et autres accélérateurs d’IA sont généralement dotés de beaucoup plus de mémoire que les cartes d’extension GPU traditionnelles, ce qui est crucial pour la formation de grands modèles d’IA. Plus le modèle d’IA est grand, plus il est performant et précis.
Pour accélérer davantage la formation et gérer des modèles d’IA encore plus volumineux, tels que ChatGPT, de nombreux GPU de centres de données peuvent être regroupés pour former un supercalculateur. Cela nécessite un logiciel plus complexe afin d’exploiter correctement la puissance de traitement des chiffres disponible. Une autre approche consiste à créer un seul accélérateur de très grande taille, tel que le « processeur à l'échelle d'une tranche » produit par Cerebras.
Les puces spécialisées sont-elles l’avenir ?
Les processeurs ne sont pas restés immobiles non plus. Les processeurs récents d'AMD et d'Intel intègrent des instructions de bas niveau qui accélèrent les calculs requis par les réseaux neuronaux profonds. Cette fonctionnalité supplémentaire aide principalement aux tâches « d'inférence », c'est-à-dire à l'utilisation de modèles d'IA déjà développés ailleurs.
Pour former les modèles d’IA, de grands accélérateurs de type GPU sont encore nécessaires.
Il est possible de créer des accélérateurs toujours plus spécialisés pour des algorithmes d’apprentissage automatique spécifiques. Récemment, par exemple, une société appelée Groq a produit une « unité de traitement du langage » (LPU) spécialement conçue pour exécuter de grands modèles de langage sur le modèle de ChatGPT.
Cependant, la création de ces processeurs spécialisés nécessite des ressources d'ingénierie considérables. L’histoire montre que l’utilisation et la popularité d’un algorithme d’apprentissage automatique donné ont tendance à atteindre leur apogée puis à décliner, de sorte que du matériel spécialisé coûteux peut devenir rapidement obsolète.
Toutefois, pour le consommateur moyen, cela ne devrait pas poser de problème. Les GPU et autres puces des produits que vous utilisez sont susceptibles de continuer à s'accélérer.