L’industrie est devenue obsédée par la formation de modèles d’IA, tandis que Google préparait son coup de maître : les puces d’inférence

Ces dernières années, ce qui était vraiment pertinent était de former les modèles d’IA pour les améliorer. Maintenant qu’ils ont mûri et que la formation n’évolue plus aussi sensiblement, ce qui compte le plus est l’inférence : lorsque nous utilisons des chatbots IA, ils travaillent rapidement et efficacement. Google a pris conscience de ce changement d'orientation et a préparé des puces précisément pour cela.

Bois de fer. C'est le nom des nouvelles puces de la célèbre famille des Tensor Processing Units (TPU) de Google. L'entreprise, qui a commencé à les développer en 2015 et a lancé les premières en 2018, tire aujourd'hui de tous ces efforts des fruits particulièrement intéressants : des puces vraiment prometteuses, non pas pour entraîner des modèles d'IA, mais pour que nous puissions les utiliser plus rapidement et plus efficacement que jamais.

Inférence, inférence, inférence. Ces « TPUv7 » seront disponibles dans les semaines à venir et pourront être utilisés pour entraîner des modèles d'IA, mais ils ont surtout pour objectif de « servir » ces modèles aux utilisateurs afin qu'ils puissent les utiliser. C’est l’autre grande étape des puces IA, la plus visible : une chose est d’entraîner les modèles et une autre de les « exécuter » pour qu’ils répondent aux demandes des utilisateurs.

Efficacité et puissance par drapeau. L’avancée des performances de ces puces IA est énorme, du moins selon Google. La société affirme qu'Ironwood offre des performances quatre fois supérieures à celles de la génération précédente en termes de formation et d'inférence, et qu'il s'agit du « silicium personnalisé le plus puissant et le plus économe en énergie à ce jour ». Google a déjà conclu un accord avec Anthropic afin que ce dernier ait accès à jusqu'à un million de TPU pour faire fonctionner Claude et le servir à ses utilisateurs.

Les supercalculateurs IA de Google. Ces puces sont les composants clés de ce que l'on appelle AI Hypercomputer, un système de supercalcul intégré qui, selon Google, permet aux clients de réduire leurs coûts informatiques de 28 % et d'obtenir un retour sur investissement de 353 % en trois ans. Ou ce qui revient au même : ils promettent que si vous utilisez ces puces, le retour sur investissement sera multiplié par plus de quatre au cours de cette période.

Près de 10 000 puces interconnectées. Les nouveaux Ironwoods sont également dotés de la capacité d’unir leurs forces de manière importante. Il est possible d’en combiner jusqu’à 9 216 dans un seul nœud ou pod, ce qui fait théoriquement disparaître les goulots d’étranglement des modèles les plus exigeants. La taille de ce type de cluster est énorme et permet jusqu'à 1,77 pétaoctets de mémoire HBM partagée tandis que ces puces communiquent avec une bande passante de 9,6 Tbps grâce à ce que l'on appelle Inter-Chip Interconnect (ICI).

Plus de FLOPS que quiconque. La société affirme également qu'un « pod Ironwood » (un cluster avec ces 9 216 TPU Ironwood) offre 118 fois plus d'ExaFLOPS FP8 que son meilleur concurrent. Les FLOPS mesurent le nombre d'opérations mathématiques à virgule flottante que ces puces peuvent résoudre par seconde, garantissant ainsi que pratiquement toute charge de travail d'IA s'exécutera en des temps records.

NVIDIA a de plus en plus de concurrence (et c'est une bonne chose). Les puces Google démontrent la vocation claire des entreprises à éviter une trop grande dépendance à l'égard de tiers. Google a tous les ingrédients pour y parvenir, et son TPUv7 en est la preuve. Ce n’est pas le seul, et de nombreuses autres sociétés d’IA cherchent depuis longtemps à créer leurs propres puces. La domination de NVIDIA reste claire, mais l'entreprise a un léger problème.

En conclusion, CUDA n'est plus aussi vital. Une fois le modèle d’IA entraîné, l’inférence fonctionne selon des règles de jeu différentes de celles de l’entraînement. La prise en charge de CUDA est toujours un facteur pertinent, mais son importance dans l'inférence est bien moindre. L'inférence se concentre sur l'obtention de la réponse la plus rapide possible. Ici, les modèles sont « compilés » et peuvent fonctionner de manière optimale sur le matériel cible. Cela pourrait faire perdre à NVIDIA sa pertinence par rapport à des alternatives comme Google.

À Simseo | Quand vous êtes OpenAI et que vous n'arrivez pas à acheter suffisamment de GPU, la solution est évidente : créez le vôtre