Nvidia

NVIDIA, qui n’a toujours pas de rival matériel pour l’IA, vient d’annoncer « le GPU le plus puissant du monde » : il s’agit du H200

La plupart d’entre nous reconnaissent NVIDIA pour ses cartes graphiques de jeu, comme les ambitieuses GeForce RTX 4090 et GeForce RTX 4080. La firme américaine propose cependant une gamme de produits axée sur calcul haute performance qui s’est considérablement développé avec l’essor de l’intelligence artificielle (IA).

Actuellement, ceux dirigés par Jen-Hsun Huang, PDG de Leather Jacket, sont les leaders sur ce marché. Si une entreprise a besoin de former des modèles d’IA, il est très probable qu’elle opte pour le matériel NVIDIA. Désormais, visant apparemment à conserver cette position de leader, le constructeur vient d’annoncer un nouveau GPU pour l’IA : le NVIDIA H200.

Un GPU bestial pour entraîner les modèles d’IA du futur

Chaque fois que nous utilisons ChatGPT Plus ou Bing Chat, par exemple, nous bénéficions des capacités de GPT-4, un modèle formé dans les centres de données Microsoft Azure équipés de graphismes puissants NVIDIA A100 et NVIDIA H100. L’annonce de ce lundi apporte l’évolution de ce dernier.

Nous envisageons un GPU à architecture Hopper avec 141 Go de VRAM HBM3E (le premier à atteindre une telle capacité) avec une bande passante jusqu’à 4,8 To/s. Ce que NVIDIA a fait, c’est faire un bond notable par rapport à la génération précédente. Le H100 dispose de 80 Go de VRAM HBM3E avec une bande passante de 3,35 To/s.

Au niveau performances, le NVIDIA H200 sous l’interface SXM promet d’atteindre 3 958 téraFLOPS en FP8 (virgule flottante 8 bits pour Transformer Engine). Qu’est-ce que cela se traduit ? Au moins sur le papier, les tâches d’inférence dans les modèles de langage long (LLM) ainsi utilisées aujourd’hui doublent les performances par rapport au H100.

Plus précisément, les tests effectués avec le nouveau GPU pour l’IA indiquent que les tâches d’inférence dans Llama 2 70B peuvent être effectuées jusqu’à 1,9 fois plus rapidement. La même chose dans GPT-3 175B est 1,6 fois plus rapide. L’inférence est le moment où le modèle compare la requête des utilisateurs avec sa formation.

Les améliorations au niveau de la bande passante, expliquent-ils, entraîneront une réduction des goulots d’étranglement dans les scénarios de traitement complexes. De même, cela ouvrira la porte à l’amélioration des performances des cartes graphiques dans une grande variété de tâches exigeantes qui vont au-delà de l’IA, comme les simulations.

Rappelons que NVIDIA proposera sa solution matérielle H100 de différentes manières. D’une part nous avons le CPU individuellement, comme nous l’avons vu dans l’article, mais nous aurons aussi le système HGX H200. C’est bien plus que le GPU. C’est une solution qui intègre plusieurs technologies.

Intelligence artificielle Nvidia

Le NVIDIA HGX H200 combine la puissance du GPU en question avec les interconnexions NVLink et NVIDIA InfiniBand haut débit pour les applications dans les centres de données. Le NVIDIA HGX H200 arrivera dans des configurations à quatre et huit voies et sera compatible avec le matériel HGX H100 existant.

Par exemple, un HGX H200 à huit voies promet de fournir plus de 32 pétaFLOPS à FP8 et jusqu’à 1,1 To de mémoire à large bande passante. Nous sommes confrontés à un une énorme puissance de calcul qui, combinés à d’autres systèmes HGX, forment des superordinateurs capables de gérer les plus grands modèles d’IA.

OpenAI est en promotion : son API est désormais beaucoup moins chère, mais ChatGPT Plus coûtera toujours le même prix

Des divisions d’entreprises telles qu’Amazon Web Services, Google Cloud, Microsoft Azure et Oracle Cloud Infrastructure ont déjà réservé leur HGX H200 pour alimenter leur infrastructure et former les modèles du futur. Ils devront attendre pour commencer à les utiliser. NVIDIA commencera à commercialiser son nouveau produit l’année prochaine.