Certains chercheurs prétendent avoir créé une IA aussi bonne que celle d'Openai et Deepseek pour 50 $. Et les données sont réelles

Le coût de la formation des modèles d’intelligence artificielle les plus avancés (IA) est à l’honneur. Et il est compréhensible que ce soit ainsi. L’émergence du modèle de société chinoise en profondeur, qui a vraisemblablement Un coût de formation modéréa remis en question la stratégie et les investissements déployés jusqu’à présent par Openai, Google ou Microsoft, entre autres sociétés.

Un bref examen avant d’aller de l’avant: les responsables de Deepseek soutiennent que l’infrastructure qu’ils ont utilisée pour former leur modèle d’agglutine 2 048 puces NVIDIA H800. Et aussi que ce processus avec 671 000 millions de paramètres a coûté 5,6 millions de dollars. Cependant, certains analystes défendent que ces chiffres ne reflètent pas la réalité.

Le rapport préparé par semi-analyse soutient qu’en réalité, l’infrastructure utilisée par DePseek pour former son modèle AI environ 50 000 NVIDIA GPU avec Microaritectura Hopper. Selon Dylan Patel, AJ Kourabi, Doug O’Laughlin et Reyk Knuhttsen, au moins 10 000 de ces jetons sont le GPU NVIDIA H100, et au moins 10 000 autres 10 000 autres sont le GPU H800. Selon ces analystes, les énigmes restantes sont les GPU garantis H20.

Le modèle «S1» prend plus de bois de chauffage

Le 31 janvier, un groupe de chercheurs de l’Université de Stanford et de l’Université de Washington, tous deux aux États-Unis, publiés dans le référentiel d’articles en libre accès Arxiv dans lequel il prétend avoir réussi à former un modèle d’IA avec la capacité de raisonner et des avantages comparables à ceux des modèles OpenAI ou R1 de Deepseek confrontés à un investissement d’un peu moins de 50 $.

Un bateau semble bientôt impossible. Avec cet argent a priori, il est absolument irréalisable de former un modèle d’intelligence artificielle. Et moins avancé et capable de vous compétitionner avec vous avec ceux d’Openai ou Deepseek. Cependant, c’est vrai. Comprendre comment ils l’ont réalisé Nous devons étudier la stratégie qu’ils ont conçue. D’une part, ces 50 dollars représentent le coût de la location de l’infrastructure de cloud computing à laquelle ils ont recouru à l’effort de la formation. Il est logique que le temps investi soit très modéré.

«S1» a été élaboré à partir du modèle gratuit QWEN2.5-32B développé par le laboratoire chinois Qwen

Mais il y a autre chose. Quelque chose de très important. Son modèle de raisonnement, qu’ils ont appelé S1, ont été élaborés à partir du modèle d’intelligence artificielle libre Qwen2.5-32b développé par le laboratoire chinois Qwen, qui appartient à Alibaba. Et son processus de raisonnement est inspiré par le modèle Google Gemini 2.0 Flash Thinking. Ils n’ont pas du tout laissé zéro. Une note intéressante: le modèle S1 est disponible dans GitHub avec les données et le code utilisés par ces scientifiques pour la former.

D’un autre côté, le processus de formation a duré moins de 30 minutes en utilisant seulement 16 puces NVIDIA H100 appartenant au réseau de cloud computing utilisé par ces chercheurs. À partir de ici vient le coût de Un peu moins de 50 dollars. Cependant, il existe une autre donnée qui ne vaut pas négligé: le modèle de raisonnement S1 a été généré par la distillation de l’expérience de pensée Flash Gemini 2.0.

La distillation est, par voie large, une technique d’apprentissage automatique qui permet de transférer la base de connaissances d’un modèle grand et avancé à un beaucoup plus petit et efficace. Cette stratégie permet d’économiser de nombreuses ressources, bien qu’elle ne sert pas à créer des modèles à partir de zéro. Au-delà des 50 dollars de coûts caradés, la chose vraiment importante est que, comme nous venons de vérifier, il est possible de mettre des modèles de réglage des modèles très compétitifs face à un investissement beaucoup plus restreint que ceux fabriqués par les grandes sociétés technologiques jusqu’à présent.

Image | Luis Gomes

Plus d’informations | arXiv | Github

Dans Simseo | Samsung se prépare à donner à TSMC un bars où ça fait le plus mal: la fabrication des puces pour IA