fait des chips qui les font voler
Le 9 novembre, Jonathon Ross a écrit un article sur le blog de son entreprise. Il l’a intitulé « Bienvenue dans la galaxie de Groq, Elon« . Musk venait de présenter son chatbot, Grok.
Il s’est avéré que ce nom était déjà pris depuis longtemps – quoiqu’avec un « q » à la fin au lieu d’un « k » – par cette entreprise méconnue qui est aujourd’hui devenue le nouveau phénomène dans le monde de l’IA.
Groq ne fait pas de LLM. Il n’a pas de modèle qui rivalise avec GPT-4, PaLM 2 ou Llama 2. Il n’a pas non plus son propre chatbot qui rivalise avec ChatGPT, Gemini ou Copilot. Non. Il fait quelque chose de très différent, mais tout aussi important que cela… ou peut-être plus.
Groq fabrique des puces d’intelligence artificielle. Ils les appellent Language Processing Units (LPU), et avec eux ils réalisent quelque chose de spectaculaire : ils permettent à la génération de texte de ces chatbots d’être beaucoup plus rapide que celle obtenue avec n’importe quelle autre puce, y compris les puissants GPU VIDIA.
Ross – qui a lancé le projet en 2016 et a précédemment créé la première unité de traitement tensoriel chez Google – a démontré les capacités de ses puces il y a quelques jours dans une interview sur CNN. Il y explique comment Groq rend les conversations – textuelles ou parlées – avec le chatbot beaucoup plus naturelles et beaucoup plus attrayantes pour ceux qui interagissent avec les machines.
Vitesse vertigineuse = conversations naturelles
La clé est la vitesse. Les humains ne sont généralement pas très patients et les chatbots tardent à nous répondre car pour cela, ils ont besoin d’accéder à une énorme puissance de calcul. Jusqu’à présent, les GPU NVIDIA étaient la meilleure option pour obtenir des conversations plus ou moins fluides, mais Groq laisse ces GPU à la hauteur du bitume.
Nous l’avons vérifié en faisant un petit test que tout le monde peut reproduire : il suffit d’ouvrir deux fenêtres, une avec ChatGPT ou tout autre chatbot sur une partie de l’écran et la démo Groq sur l’autre partie. La vitesse de réponse du chatbot Mistral (mais il peut s’appliquer à n’importe quel autre) grâce à Groq est tout simplement spectaculaire.
Il existe des études indépendantes comme l’Analyse Artificielle qui font clairement la différence : non seulement la vitesse est plus élevée, mais aussi Groq est moins cher.
Ainsi, Groq proposait un débit de 246,79 jetons par seconde avec le LLM Llama 2 pour un coût de 0,72 $ par million de jetons. L’utilisation de ce même LLM sur l’infrastructure Microsoft Azure donnait 18 jetons par seconde et un coût de 1,6 $.
D’autres analyses confirment ces bénéfices. Dans le classement LLMPerf suivi par la société Anyscale, Groq est 18 fois plus rapide en inférence LLM que les principaux fournisseurs de cette fonction dans le cloud.
Comment Groq fait-il pour être si rapide ?
Nous sommes donc face à une révolution prometteuse non pas dans la précision ou la qualité des réponses de ces modèles et de leurs chatbots, mais dans la rapidité avec laquelle ils nous répondent. Soudain avoir une conversation peut sembler beaucoup plus naturelce qui soulève des implications importantes dans l’utilisation pratique de cette technologie.
Comment les puces Groq parviennent-elles à obtenir quelque chose comme ça ? Ross l’a expliqué dans cette interview de CNN avec une simple analogie.
« La mayoría de los chips de IA no tienen demasiada memoria disponible. Es como cuando fabricas coches: necesitas grandes fábricas y un millón de pies cuadrados en líneas de ensamblaje. Si no tienes ese tipo de edificio, necesitas dividir las líneas de ensamblaje una y otra vez para que ocupen menos. Eso es lento y lleva mucho tiempo, y eso es lo que pasa con la GPU: tienes que leer de la memoria miles de veces por cada palabra que se genera, como si tuvieras que configurar la línea de ensamblaje encore et encore [para sacar la pieza necesaria del coche] ».
Même si les responsables de Groq ne veulent logiquement pas donner beaucoup de détails sur le fonctionnement de leurs puces, ils expliquent sur le site officiel de l’entreprise que « le LPU est conçu pour surmonter les deux goulots d’étranglement du LLM : Densité de calcul et bande passante mémoire« . L’entreprise fait cependant référence à des études primées de 2020 dans lesquelles elle parlait déjà de processeurs spécialisés pour accélérer les tâches d’apprentissage en profondeur.
Ross a expliqué que ces puces ne sont pas disponibles pour les utilisateurs finaux, alors ne vous attendez pas à pouvoir acheter un type de carte PCIe à ajouter à votre PC. Du moins, pas pour le moment : l’entreprise travaille avec des entreprises qui peuvent bénéficier de cette puissance de calcul dans leurs centres de données et ensuite offrir cette vitesse de génération de texte dans leurs services cloud.
Il faut espérer que petit à petit nous verrons ce type de solution implémentée dans des chatbots accessibles au public – et sûrement payants -, mais ce qui est intéressant est que cela ouvre la porte à ce type d’amélioration pour réellement faire NVIDIA (ou AMD ) Les GPU , qui progressent dans ce domaine) disposent d’au moins une alternative totalement spécialisée dans ce domaine. Et s’il y en a un, Il est logique de penser que d’autres finiront par apparaître et peut-être le feront-ils avec des propositions destinées aux consommateurs.
À Simseo | M. Musk, nous n’avons pas besoin d’un chatbot sarcastique. Nous en avons besoin d’un en qui nous pouvons avoir confiance à 100 %