Stable Diffusion 2.0 arrive et ses nouvelles options pour générer des images avec l'IA nous laissent plus que jamais sans voix

Allez, je le dis. diffusion stable est (pour moi) le produit de l’année. Ce moteur de génération d’images via l’intelligence artificielle est devenu une véritable révolution qui avec ses lumières et ses ombres ne cesse d’évoluer. Elle vient de le faire rondement avec la publication de sa version 2.0 qui va encore plus loin que la première. C’est-à-dire.

Diffusion stable 2.0. Ce « AI Imager Linux » vient annoncent leur deuxième version stableet bien que l’annonce détaille les améliorations, la chose curieuse est que l’entreprise qui gère tout, Stabilité.ai, n’a même pas de page de destination appropriée pour Stable Diffusion. Son site officiel n’est ni plus ni moins que votre dépôt github. Merveilleux, comme en témoigne le fait qu’il s’agit du projet GitHub croissance la plus rapide de « stars » dans toute l’histoire, dépassant de loin les vedettes précédentes telles que Bitcoin, Ethereum ou Apache Kafkaune plateforme de streaming événementiel.

Vous ne trouvez pas la diffusion stable ? Normal, car il ressemble à l’axe des coordonnées Y. C’est là, à gauche de tout, presque comme un mur vertical du reste. Spectaculaire. Source : A16z.

Il reste comme une référence absolue. Ce n’était pas le premier -DALL-E 2 ou Midjourney sont tout aussi incroyables- mais la philosophie Open Source de Stable Diffusion ça a été crucial se positionner comme la grande référence dans ce domaine. Pouvoir installez-le localement ou utilisez-le comme plugin dans d’autres applications comme Photoshop ou Canva a montré un potentiel presque illimité pour les créateurs, les entreprises et les utilisateurs grand public.

La conversion texte-image se surpasse. Dans cette version, un nouvel encodeur texte-image appelé OpenCLIP est utilisé, qui selon les responsables du projet « améliore considérablement la qualité des images générées par rapport aux versions V1 ». Le moteur maintient les filtres pour supprimer le contenu pour adultes grâce à la filtre nsfw de LAION-5B, l’ensemble des images utilisées pour entraîner ce modèle

Mise à l’échelle et plus de résolution que jamais. Bien que le moteur génère nativement des images jusqu’à 768×768 pixels, Stable Diffusion 2.0 intègre un nouveau système d’upscaling qui améliore la résolution des images en les multipliant jusqu’à quatre. Ainsi, il est possible de générer des images de 2 048×2 048 et même plus, et de le faire avec une définition fantastique.

Même base pour différentes images. Le modèle de diffusion Profondeur à l’image cela va au-delà de ce qui a été réalisé avec l’option image à image de la V1. Cette option nous a permis de faire une esquisse rapide de ce que nous voulions obtenir et Stable Diffusion générerait l’image en fonction de cela et du texte d’entrée descriptif (rapide). Le nouveau modèle peut utiliser une image de base, mais il génère non pas une, mais plusieurs images en utilisant à la fois le texte et les informations de « profondeur » fournies par l’image de départ.