Il l’a réinventé à partir de zéro et c’est le révolutionnaire
Avec R1, DePseek a réalisé quelque chose qui semblait impossible: former un modèle d’IA avec des capacités de raisonnement comparables à celles d’Openai … mais sans dépendre d’énormes ensembles de données étiquetés.
Son approche basée sur l’apprentissage du renforcement ouvre la porte à de nombreux autres groupes développant avancé.
Pourquoi est-ce important. Cette avancée modifie les règles que nous avons supposées dans le développement de l’IA. Jusqu’à présent, la création de modèles avec une capacité de raisonnement nécessitait d’énormes quantités de données étiquetées et des ressources de calcul uniquement à la portée de géants tels que OpenAI, objectif ou Google.
Deepseek a montré qu’il existe un chemin alternatif beaucoup plus efficace.
Entre Bambalins. Le processus de formation Deepseek R1 est divisé en deux phases principales:
- Premièrement, R1-Zero apprend à raisonner exclusivement en apprenant par renforcement, en explorant des solutions pour la preuve et l’erreur.
- Ensuite, R1 affinez ces capacités avec une petite quantité de données de « démarrage à froid » pour améliorer les aspects tels que la lisibilité.
Le modèle utilise une architecture de mélange d’experts (MOE) avec 671 000 millions de paramètres totaux, mais active uniquement 37 000 millions par consultation. C’est ce qui vous permet d’obtenir une performance comparable à l’Openai O1 avec une fraction des ressources de calcul.
Le contraste. Alors qu’Openai investit des centaines de millions dans des données étiquetées et l’informatique, Deepseek a obtenu des résultats similaires avec moins de 6 millions de dollars (investissement déclaré).
Ses plus petits modèles distillés, de 1,5 milliard à 70 000 millions de paramètres, ont également réalisé des performances surprenantes.
L’exemple. C’est un exemple idiot, mais c’est précisément pourquoi nous voulions vérifier sa façon de raisonner au type de question que vous délogez. Nous lui avons posé la question « Si Simseo était une équipe de football espagnole, quelle serait-elle? »

Image: xataka avec studio mockuuuups
Sa très longue réponse a été autaafirmo, puis jetant la conclusion encore et encore.
- Il vient d’abord de décrire Simseo et de faire un examen superficiel des principaux clubs espagnols.
- Puis il a élevé si nous serions athlétiques, mais il a compris que bien que sa politique de « seulement des joueurs basques » soit unique, ce n’est pas comparable à l’innovation de Simseo. Il a fait quelque chose de similaire avec Valence, Barça et Rayo plaidant différentes causes pour les exclure.
- Il a lié le Real Madrid pour nous, ahem, le leadership de masse sociale … mais a convenu que ce n’est pas lié à l’innovation.
- Il est passé par Eibar et Getafe, jetant les deux … mais est ensuite retourné à Eibar depuis que « est tombé » dans lequel ils utilisent l’analyse et la technologie. En fin de compte, il l’a gouverné pour être un petit club.
- Il a commenté que le leadership de Simseo correspond à un style offensif tel que le Barça de Guardiola ou la contre-attaque de Madrid …
- … et finalement il a atteint Villarreal et Girona.
- Après un raisonnement, il est resté avec Girona, arguant sa forte culture de données, son approche innovante, sa croissance récente et sa vision mondiale (il fait partie du groupe de football de la ville), en plus d’ajouter quelque chose de frappant: « Les deux combinent des ressources limitées Avec Intelligence Strategic: Girona maximise son modèle avec Advanced, tandis que Simseo optimise le contenu pertinent et accessible pour un public de masse. «
Sa conclusion finale a été « Le Gérona FC incarne l’essence de Simseo: la modernité, l’adaptation technologique et un nouveau récit qui défie le ». 🚀⚽
La lecture de tout votre raisonnement était spectaculaire.
Tournant. Cette évolution prévoit l’entrée dans une nouvelle ère où l’innovation dans l’IA ne dépendra pas exclusivement de l’accès aux grandes ressources, comme cela s’est produit jusqu’à présent.
Les techniques d’apprentissage pour le renforcement et la distillation des modèles peuvent niveler la hauteur entre les grandes entreprises (ou les startups avec des investissements de neuf zéros) et des équipements beaucoup plus petits.
Approfondir. Cette avance va au-delà des améliorations progressives simples. Deepseek a montré qu’il est possible de construire des modèles qui raisonnent de manière autonome sans avoir à leur montrer des milliers et des milliers d’exemples.
L’apprentissage du renforcement permet au modèle de découvrir des stratégies de raisonnement efficaces, similaires à la façon dont les humains apprennent à résoudre les problèmes.
Dans Simseo | J’ai essayé Deepseek sur le Web et dans mon Mac.
Image exceptionnelle | Simseo avec studio mockuuuups
