Les puces AI d'AMD sont meilleures que celles de NVIDIA. Le problème n'est pas le matériel, c'est le logiciel

Les puces AI d'AMD sont meilleures que celles de NVIDIA. Le problème n'est pas le matériel, c'est le logiciel

Il semble qu’aujourd’hui, NVIDIA soit la seule véritable option si quelqu’un souhaite entraîner des modèles d’IA à pleine vitesse. En réalité, il existe plusieurs alternatives de plus en plus prometteuses, et l'une d'elles est celle que propose AMD avec ses puces MI300X. Ces cartes accélératrices d'IA peuvent-elles vraiment surpasser la proposition de NVIDIA ?

Un de chaux, un autre de sable. La réponse a deux visages contradictoires. Ils l'expliquent dans SemiAnalisys, où ils ont réalisé une analyse approfondie du MI300X par rapport aux H100 et H200 de NVIDIA. Comme ils l'expliquent, en théorie le MI300X devrait avoir un grand avantage sur ces propositions NVIDIA, car sur le papier les spécifications sont supérieures dans des domaines aussi importants que la quantité de mémoire qu'ils intègrent, leur bande passante ou leurs performances en TFLOPS.

Mi300x

La fiche technique des puces AMD précise que sur le papier cette option est plus intéressante que celle de NVIDIA. Source : SemiAnalyse

Le matériel gagne, pas le logiciel. Le problème d'AMD ne réside pas dans ses puces IA, mais dans la plate-forme logicielle qui tente de tirer parti de ces puces. Selon SemiAnalysis, « l'expérience logicielle est truffée d'erreurs qui rendent impossible la formation (de modèles d'IA) avec AMD ». Bien que les responsables de ces analyses aient collaboré avec AMD pour signaler des bugs et que cela ait permis à la situation de s'améliorer considérablement, le logiciel AMD disponible pour les développeurs d'IA est actuellement inférieur à celui de NVIDIA.

Les TFLOPS comptent autant que les Mpixels. Dans une analogie intéressante, les experts indiquent que comparer les TFLOPS n’est pas d’une grande utilité dans ce domaine, et revient à comparer les Mpixels des caméras de téléphones portables. Plus ne signifie pas nécessairement mieux.

Comparer simplement les TFLOPS n'est pas très utile dans ce domaine, et revient à comparer les Mpixels des caméras de téléphones portables. Plus ne signifie pas nécessairement mieux.

Le coût total de possession est pire. Les tests et benchmarks effectués ont montré comment la charge logicielle rend le coût total de possession (TCO) du MI300X supérieur à celui de NVIDIA : il est moins cher pour une entreprise d'utiliser des puces et des logiciels NVIDIA, même si cela pourrait changer si AMD parvient à résoudre tous les problèmes actuels.

Ils ont besoin de beaucoup plus de tests internes. Après analyse, l'une des conclusions de ces experts est qu'AMD doit faire du « dogfooding », c'est-à-dire beaucoup plus de tests et d'utilisation réelle en interne. Cela permettrait aux ingénieurs et développeurs d'AMD de résoudre les problèmes avant de lancer ces puces à l'avenir. En fait, ils affirment que le MI300 « n’est pas utilisable immédiatement et nécessite une quantité considérable de travail et d’ajustements » pour être utilisé dans le domaine de l’IA.

CUDA, c'est beaucoup de CUDA. Le gros atout actuel de NVIDIA avec ses puces IA ne se concentre pas vraiment sur les puces, mais plutôt sur CUDA, qui est devenu le standard de facto dans l'industrie de l'IA. Entreprises et développeurs travaillent avec cette plateforme qui évolue depuis des années – nous en parlions déjà en 2008 – et s'améliore avec de nouvelles bibliothèques et fonctions. L'expérience ici est un diplôme, et NVIDIA profite beaucoup de cette circonstance.

(Presque) tout le monde contre CUDA. Pendant ce temps, les concurrents de NVIDIA sont clairs sur le fait que cette plate-forme est effectivement la véritable rivale à battre. Intel dirige en effet une alliance qui cherche à arracher la domination du marché de l'IA à NVIDIA, et Pat Gelsinger a déjà déclaré cette ambition fin 2013, même s'il faudra maintenant voir ce que fera Intel après son départ. Jensen Huang, cependant, semble être clair sur le fait que personne ne les fera tomber de leur piédestal.

À Simseo | La course aux puces de 2 nm débutera en 2025. Et ce sera la plus féroce de toutes