Deepseek R1: la première intelligence artificielle évaluée par des pairs
En septembre 2025 Nature Il a publié la première revue égale d'un grand modèle linguistique. Ce sont Deepseek R1, développés à Hangzhou par Deepseek-ai, une entreprise chinoise qui a choisi de rendre les poids du modèle disponibles mais pas le code source ou les ensembles de données de formation. C'est une approche « Poids ouvert « : Permet aux chercheurs et aux développeurs de télécharger, d'utiliser et de perfectionner le modèle, sans avoir cependant une transparence totale sur les origines des données.
La première fois d'un LLM sous la revue académique
La reconnaissance de l'une des principales revues scientifiques internationales représente une discontinuité avec les pratiques de nombreux grands techniciens, qui publient leurs LLM par des rapports préimprimés ou internes, sans vérification externe. Jusqu'à présent, aucun des modèles les plus populaires – de GPT à Claude – n'a fait l'objet d'une revue formelle par les pairs.

Apprentissage du renforcement et raisonnement autonome
Le cœur de Deepseek R1 réside dans l'utilisation avancée de l'apprentissage du renforcement, une méthode qui permet au modèle d'apprendre à « Raison« En récompensant les bonnes réponses et en pénalisant les incorrects, sans intervention humaine directe.
La stratégie prévoit que les genres LLM des chaînes de pensée intermédiaires vérifient par la suite la cohérence de sa conclusion. De cette façon, il développe la maîtrise de soi et les compétences logiques, se détachant de la simple fin du texte.
La méthodologie a été rendue plus efficace grâce à un algorithme de propriétaire, l'optimisation des politiques liées au groupe (GRPO), ce qui a réduit les coûts de formation. Selon le document publié, l'ensemble du processus aurait coûté environ 294 000 dollars sur 512 GPU NVIDIA H800, une valeur étonnamment faible par rapport aux milliards investis par les Giants occidentaux.
Les résultats des références mathématiques et logiques, telles que AIME 2024, montrent des progrès significatifs: de 15% initiaux à près de 87% de la précision avec les techniques d'auto-ennza.


Du modèle « zéro » au modèle final
L'itinéraire est divisé en deux phases principales. Le premier stade, appelé Deepseek-R1-Zero, est formé à partir du modèle de base Deepseek-V3 via l'optimisation des politiques liées au groupe algorithme (GRPO), une variante du PPO optimisé pour réduire les coûts et la complexité.
Pendant la formation, R1-Zero ne reçoit que deux règles: pour enfermer votre raisonnement entre les balises


Ce processus a produit un moment que les chercheurs définissent comme « le moment AHA »: l'utilisation croissante du mot « attendre » dans les chaînes de pensée, interprétée comme un signal d'auto-réflexion. Le modèle, en substance, a appris à s'arrêter, à reconsidérer sa logique et à se corriger.
Le résultat a été une croissance vertigineuse des performances: de 15,6% à 77,9% de la précision du test mathématique de l'AIME 2024, jusqu'à 86,7% avec des techniques d'auto-enza. Performance supérieure à la moyenne humaine et accompagnée de progrès similaires dans les tests de codage et dans les sujets STEM de l'université.
L'évolution vers Deepseek-R1
Malgré l'efficacité du raisonnement, R1-Zero a montré des limites pratiques: il a mélangé l'anglais et le chinois, il n'était pas très lisible et n'a pas bien performé dans des tâches génériques telles que l'écriture ou le dialogue ouvert. Pour cette raison, Deepseek-R1 est né, le résultat d'un pipeline Multistadio qui intègre l'échantillonnage de rejet, la supervide de tons fins et deux cycles d'apprentissage de renforcement.
Le premier cycle a affiné la cohérence linguistique et la compréhension contextuelle, introduisant une « récompense de cohérence du langage » pour récompenser les réponses uniformes dans la langue de l'invite. Le deuxième cycle a intégré des données générales et des critères de l'aide et de la délais, ce qui rend le modèle plus sûr et utilisable en dialogue avec les utilisateurs.
Cette architecture progressive a permis à R1 de maintenir la puissance logique de R1-Zero, mais d'améliorer la lisibilité, la sécurité et la capacité de suivre les instructions.
Le modèle final obtient un + 25% sur Alpacaeval 2.0 et un + 17% sur l'arène, deux repères qui mesurent la qualité et la cohérence des réponses orientées utilisateur.
Doutes sur la transparence des données
L'un des points les plus discutés concerne la contamination possible de la référence. Il est connu que les modèles peuvent obtenir des scores artificiellement élevés s'ils sont formés sur un ensemble de données qui incluent des exemples de tests ou de réponses de référence. Les auditeurs de Nature Ils ont demandé des clarifications de Deepseek, qui a répondu, y compris des évaluations sur la référence publiées après la sortie du modèle, dans le but de démontrer l'absence de « Fuite de données« .
Cependant, la communauté scientifique reste prudente: avec un ensemble de données Web à grande échelle, il est presque impossible de s'assurer qu'aucun fragment de test n'est apparu dans les données de formation.
Cette ambiguïté augmente un thème plus large: quelle est la fiable des mesures avec lesquelles l'intelligence artificielle est mesurée aujourd'hui? Les références traditionnelles, de MMLU à GSM8K, risquent de devenir plus que de véritables outils marketing de compétence.
Sécurité et alignement: les modifications demandées par les auditeurs
Une autre intervention importante de la révision concerne la sécurité. Les auditeurs ont rapporté l'absence d'analyse sur les risques potentiels du modèle, tels que la possibilité de générer un contenu nocif ou d'être réutilisé à des fins malveillantes. Deepseek a ensuite ajouté une section dédiée aux tests de robustesse et aux comparaisons avec des modèles concurrents, décrivant les mesures adoptées pour prévenir les abus.
Malgré cela, certains experts pensent que les modèles à pied libre restent plus exposés: une fois téléchargé, il n'y a plus de contrôle sur la façon dont ils sont modifiés.
Des études indépendantes ont montré que la LLM de ce type peut être facilement soumise à un jailbreak ou à une injection rapide, avec laquelle il est possible d'échapper aux filtres de sécurité. D'autres rapports ont révélé que R1 a tendance à censurer certaines requêtes politiquement sensibles, suggérant la présence de mécanismes d'alignement sélectifs, conformément au contexte réglementaire chinois.
Une expérience qui change la relation entre l'industrie et la science
L'approche de Deepseek a des implications profondes. D'une part, cela montre que l'examen par les pairs peut coexister avec l'industrie, sans compromettre les secrets commerciaux. De l'autre, il établit un précédent qui pousse vers une plus grande responsabilité dans les déclarations de performance. Dans un secteur où le battage médiatique domine le récit, l'idée de devoir «démontrer» scientifiquement ce qui est confirmé représente un frein sain.
Certaines entreprises ont commencé à suivre la même direction. Openai Et Anthropique Ils ont récemment testé leurs modèles pour identifier la vulnérabilité ignorée par les équipes internes. Mistral AI a publié une évaluation sur l'impact environnemental de ses systèmes en collaboration avec des consultants externes. Cependant, aucune de ces initiatives ne correspond à la transparence structurelle du processus éditorial de Natureavec des auditeurs indépendants et l'échange public d'observations et de réponses.
Un équilibre fragile entre l'ouverture et le contrôle
La publication de R1 soulève également des questions géopolitiques. Tandis que l'administration américaine définit les modèles Poids ouvert «Essentiel à la recherche universitaire», la Chine a tendance à promouvoir une ouverture contrôlée, fonctionnelle aux objectifs stratégiques nationaux. Deepsek, en ce sens, se déroule en équilibre entre la coopération scientifique et la souveraineté technologique.
Au niveau éthique, la question reste ouverte: à quel point est-il possible de diffuser les détails des modèles avancés sans alimenter les risques d'abus ou de perte de propriété intellectuelle? La révision égale ne nécessite pas l'ouverture totale des données, mais nécessite la vérifiabilité des instructions. Il s'agit finalement de la valeur la plus pertinente de l'opération.
Oltre R1: L'avenir de l'évaluation indépendante
L'expérience Deepseek pourrait pousser le secteur à des normes de validation plus rigoureuses, peut-être à travers des corps indépendants capables de reproduire les tests et de vérifier la sécurité des modèles. L'idée d'un «audit scientifique» de l'intelligence artificielle n'est plus utopique: l'IA, qui affecte de plus en plus la santé, la finance et la politique, doit se soumettre à des règles de transparence similaires à celles de toute autre technologie ayant un impact social élevé.
Il reste à voir si les sociétés occidentales, protégées par des modèles fermés et des licences restrictives, seront disposées à suivre l'exemple de Deepseek.
L'examen par les pairs n'est pas une menace compétitive, mais un acte de responsabilité collective. Si l'industrie accepte de « porter son LLM au jugement des pairs », comme souhaité par Naturele secteur pourra enfin passer des promesses aux tests.
