La version "compacte" de Stable Diffusion 3 est là.  Et cela génère des corps humains monstrueux

La version « compacte » de Stable Diffusion 3 est là. Et cela génère des corps humains monstrueux

Stable Diffusion est le grand rival de Midjourney dans le domaine des modèles d'IA d'images génératives, notamment parce qu'il permet à n'importe qui de l'utiliser sur son PC et de l'améliorer avec toutes sortes de composants externes. Stable Diffusion 3 est sorti il ​​y a des mois et maintenant une nouvelle version compacte appelée Stable Diffusion Medium est arrivée, mais il y a un problème : elle crée des monstres.

Que s'est-il passé. Bien que Stable Diffusion 3 soit apparu le 22 février et que l'API publique soit disponible depuis le 17 avril, voici que les « poids » de Stable Diffusion Medium viennent de sortir, une version importante car plus compacte et utilisable sur n'importe quel PC de manière fluide. si l'on a un GPU avec une bonne puissance.

Un GPU avec au moins 5 Go de mémoire suffit. Alors que le SD3 Large (l'original) possède 8 milliards de paramètres, le SD3 Medium en possède 2 milliards. Comme l'explique Christiam Laforte, co-PDG de Stability AI, « contrairement au SD3 Large, le SD3 Medium est plus petit et peut fonctionner efficacement sur du matériel standard ». Les responsables de ce modèle expliquent que la condition minimale est d'avoir un GPU avec 5 Go de mémoire graphique, bien qu'ils en recommandent un avec 16 Go pour de meilleurs résultats et performances. Stable Difussion 3 Medium est également disponible gratuitement en ligne via Hugging Face.

Corps3
Corps3

Pas ces mains, s'il vous plaît. Source : -f1-f2-f3-f4-/Reddit.

Le modèle est prometteur. Cette version bénéficie théoriquement de toutes les améliorations du grand modèle. Ainsi, il offre un plus grand degré de photoréalisme dans les images générées, une bien meilleure prise en charge des polices grâce à l'architecture Diffusion Transformer, une meilleure compréhension des invites complexes et une efficacité parfaite pour pouvoir être exécuté sur des GPU « grand public ».

Femme1
Femme1

Source : HornyMetalBeing/Reddit.

Mais des corps aberrants sont générés. Cependant, les limites du modèle sont évidentes, comme le démontrent certaines images que les utilisateurs partagent publiquement. Ils l'expliquent dans Ars Technica, où ils révèlent comment des fils apparaissent sur Reddit qui ridiculisent SD3 Medium en critiquant certaines images monstrueuses de corps humains.

Capture d'écran 2024 06 13 Au 9 59 36
Capture d'écran 2024 06 13 Au 9 59 36

Source : Bryandroid98/Reddit.

Le truc avec les mains est presque la chose la moins importante. Les problèmes apparaissent, par exemple, dans les images que les utilisateurs ont créées à l'aide de simples instructions représentant des femmes allongées sur l'herbe ou dans l'eau. Il semble également que ce modèle ait des problèmes avec les mains, quelque chose qui semblait appartenir au passé mais qui ici encore fait que des images généralement fantastiques finissent par être horribles à cause de cette façon de représenter les mains.

Corps4
Corps4

Source : DoncGames/Reddit

Reculez dans son combat contre Midjourney. Ces problèmes témoignent d'un recul de Stable Diffusion, considéré comme le grand concurrent (avec DALL-E 3) de Midjourney. Un utilisateur de Reddit a plaisanté en disant qu'« au moins nos ensembles de données (de formation) sont sûrs et éthiques ! », soulignant que la formation de Midjourney est inconnue et exploite soi-disant des images protégées par le droit d'auteur.

La censure comme raison possible. La création de telles images aberrantes peut être due à l'insistance de Stability AI à censurer le contenu réservé aux adultes à partir des données de formation SD3. Ces données apprennent au modèle comment générer des images et constituent une source d'informations clé pour que l'IA puisse en apprendre davantage sur l'anatomie humaine, mais en la privant de ces données, le modèle ne comprend pas ces demandes et génère des images absurdes et dérangeantes. Quelque chose de similaire s'est produit avec Stable Diffusion 2.0 en 2022, et la société a fini par corriger le problème avec SD 2.1 et SD XL.

Problèmes internes dans Stability AI. La situation de l’entreprise ne semble pas être la meilleure ces derniers temps. Il y a un an, Getty l'a poursuivie en justice, ce qui a probablement marqué son évolution. Son PDG et fondateur, Emad Mostaque, a démissionné en mars dernier, après quoi trois de ses principaux ingénieurs ont également quitté l'entreprise. Peu de temps après, on a appris que l'entreprise avait licencié 10 % de son personnel en avril. La situation financière ne semble pas particulièrement rose depuis des mois, ce qui complique encore davantage l'avenir de l'entreprise.

Images | reddit

À Simseo | Les artistes en ont assez des IA génératives qui volent leurs œuvres. Alors ils les empoisonnent