Deepseek a mis la Chine sur la carte de l'IA. Le danger est que cette révolution reste dans une fleur de jour
Deepseek R1 mangeait le monde au début de l'année. Ce modèle chinois, apparemment hors de nulle part, a provoqué un véritable choc dans l'industrie de l'IA, mais depuis lors, il y a eu du mouvement. En fait, il y en a eu un, mais la chose inquiétante est précisément ce que ce mouvement a été.
Salut, Deepseek v3.1. La startup a annoncé la semaine dernière le lancement de Deepseek V3.1, une nouvelle version qui s'est démarquée pour être un hybride amélioré de Deepseek V3 (réponse rapide) et Deepseek R1 (raisonnement). Il y avait aussi de bonnes nouvelles en termes de performance: selon les repères publiés par les responsables, il était nettement plus élevé que leurs prédécesseurs.

Améliorations visibles (mais pas dramatiques). Dans la « carte modèle » (carte modèle) que ses managers proposent dans le visage étreint, Deepseek v3.1 (en mode raisonnement) s'est avéré se comporter légèrement mieux que Depseek R1-0528, -it, la version précédente, des domaines plus puissants tels que la programmation ou dans les tests mathématiques, mais certains utilisateurs qui ont essayé les instructions qui suivent les autres, à l'exception des éléments, le modèle est pire et « le modèle est pire, les instructions qui suivent » les autres à condition que les utilisateurs soient pires et que le modèle soit un modèle pire pour les instructions ou les autres à savoir « que les utilisateurs confirment et que le modèle est le modèle est pire Assurez-vous qu'il est utile pour les programmeurs, mais pas pour d'autres domaines. Il a également des limites à son support multimodal et se concentre sur le texte au lieu de fournir plus d'options pour un autre type d'interaction, par exemple à partir de messages vocaux, image, vidéo ou audio.
Un modèle chinois pour les chips chinoises. Mais encore plus intéressant, c'est que Deepseek V3.1 a été conçu et lancé avec un objectif clair: éviter la dépendance des puces étrangères. La précision FP8 utilisée fait que ce modèle se comporte très bien dans les puces chinoises à génération suivante. La stratégie semble très intéressante pour la startup, qui pourrait donc avoir un modèle très aligné sur les priorités du gouvernement chinois. C'est: utilisez autant que possible les modèles locaux pour les puces locales.

Et R1, quoi? De là, certains doutes surviennent. Le premier, qui affecte Deepseek R1, le modèle avec lequel la startup a « brisé » le marché au début de l'année. La société a éliminé toutes les références à ce modèle dans la caractéristique de la « pensée profonde », qui a généré des doutes sur l'apparence potentielle de son successeur attendu, une Hypothétique R2 Deepseek.
Perd les utilisateurs. Mais alors que ce modèle théorique vient – si elle le fait – l'entreprise est confrontée à une menace plus immédiate. Comme ils le soulignent dans SCMP, DePseek perd des utilisateurs (ou du moins une pertinence) ces derniers mois. Au premier trimestre de l'année, sa part de marché dans le cadre des modèles open source IA utilisés sur la plate-forme Cloud PPIO était de 99% spectaculaires. Cependant, au deuxième trimestre, ce pourcentage est tombé à 80%.
Concurrence féroce. Cette pertinence de l'automne a une raison évidente: ses concurrents locaux se pressent. Et beaucoup. Parmi eux, la famille des modèles Qwen d'Alibaba, mais aussi d'autres tels que Kimi-K2-Istruct, de la startup Mooscota Ai-in qu'Alibaba a également investi – qui devient l'un des modèles les plus populaires des semaines ces dernières.
Retards et décélération. Précisément l'accent mis sur la possibilité de tirer le meilleur parti des futures puces chinoises semble être la raison pour laquelle cette hypothétique R2 profonde est retardée. C'est du moins l'hypothèse qui considère Financial Times, où ils ont révélé que la startup a échoué lorsqu'il a essayé de le former avec des puces Huawei. La situation les a fait former avec les puces Nvidia, et qu'ils utilisent le Huawei ASCE pour l'étape d'inférence, c'est-à-dire l'interaction avec le modèle via le Web ou l'API par les utilisateurs.
Mais cette attitude est «très chinoise». Nous pouvons dans les pays occidentaux, nous sommes habitués à un rythme beaucoup plus frénétique et que nous nous attendons à des mises à jour et à des améliorations constantes en œil sur le court terme. En Chine, la philosophie est généralement le contraire et les entreprises adoptent une stratégie à long terme même si des avantages immédiats sont perdus. Le maintien d'un profil bas est également habituel parmi ces sociétés, qui essaie de ne pas faire beaucoup de bruit … jusqu'à ce qu'elles le fassent, comme Depseek l'a déjà démontré. Ainsi, nous devrons rester très attentifs à l'activité de cette startup, car il travaillera sûrement pour continuer à être l'un des protagonistes du panorama de l'IA.
Image | Tim Reckmann
Dans Simseo | Deepseek a suggéré que les puces Nvidia n'en avaient plus besoin. Nous croyons savoir qui les achète
