Après avoir installé l’industrie de l’IA, DePseek lance son premier modèle qui comprend et crée des images: Janus Pro
Dans la gueule de bois complète pour son modèle R1, DePseek vient de lancer Janus Pro 7b, un modèle d’IA pour générer des images à partir de texte et comprendre d’autres images qui sont introduites. Et oui, il est également open source, bien qu’avec un astérisque similaire à celui de la flamme.
Pourquoi est-ce important. Jusqu’à présent, les modèles multimodaux ont dû jongler entre la compréhension et la génération d’images, sacrifiant l’efficacité ou les performances. Janus Pro 7b résout ce dilemme avec une nouvelle proposition: unifie la compréhension et la génération d’images dans une seule architecture.
Innovation. Le modèle présente un système « double piste » pour le traitement visuel:
- Séparez les chemins de codage pour comprendre et générer des images.
- Il maintient un seul transformateur pour traiter toutes les informations.
- Utilisez Siglip-L comme codeur visuel pour 384×384 pixels.

Janus pro comparatif face à votre prédécesseur pour plusieurs applications. Image: Deepseek.
Cette résolution est son principal inconvénient, il semble beaucoup plus orienté pour vivre déjà des utilisations de peu d’ambition qu’aux applications que nous pouvons assumer d’autres propositions telles que MidJourney ou Freepik, qui commencent généralement à partir de pixels 1024×1024. Cependant, Janus Pro n’est pas un générateur d’images à utiliser, mais un modèle multimodal avec plusieurs capacités.
Bien sûr, cette résolution permet un équilibre optimal entre la qualité et la vitesse de traitement … pour les utilisations qui sont effectuées avec elle.
Entre les lignes. L’architecture de Janus Pro 7B est particulièrement pertinente pour son efficacité:
- Taille compacte de 7 000 millions (« 7b ») de paramètres.
- Des performances plus élevées à des modèles spécifiques plus grands.
- Open source sous licence MIT pour le référentiel, bien que le modèle lui-même nécessite d’accepter la licence Deepseek.
La licence MIT permet à quiconque d’utiliser, de modifier et de distribuer librement le code, même à des fins commerciales, à condition que l’avis de droit d’auteur d’origine soit maintenu. C’est l’une des licences les plus permissives qui existent.
La licence Deepseek, en revanche, est gratuite et permet des utilisations commerciales, mais comprend des restrictions éthiques spécifiques, telles que l’interdiction de l’utilisation militaire ou la génération de désinformation.
En perspective. Janus Pro 7b n’est pas seulement un autre modèle multimodal, mais un nouveau paradigme dans l’architecture de l’IAS qui peut voir et créer. Son approche unifiée mais décentralisée pourrait bien finir par influencer les développements futurs.
Le modèle est construit sur Depseek-llm-7b-base, le modèle de langue de base de la startup chinoise, annoncé en août 2024. Il hérite de ses capacités de traitement linguistique tout en ajoutant des capacités visuelles avancées. Son système de sous-échantillons 16x pour la génération d’images vous permet de maintenir l’efficacité sans compromettre la qualité.
Image exceptionnelle | Deepseek, Simseo avec Mockuuuups Studio
Dans Simseo | Nous savions que nous, Big Tech, avait un problème avec les coûts de leur IA. Deepseek vient de montrer dans quelle mesure
