ses créateurs viennent de lancer Stable Video Diffusion

En août 2022, quatre mois après l’entrée en version bêta de DALL·E 2 d’OpenAI, Stability AI a introduit Stable Diffusion. Loin de passer inaperçue, la maquette était réalisée en un lieu d’importance dans le monde émergent de l’IA générative en raison de son énorme capacité à générer des images avec différents styles artistiques et, principalement, des concepts abstraits.

Désormais, l’équipe Stable Diffusion vient de présenter un nouveau modèle. Pas de génération d’images, mais de vidéos. Stable Video Diffusion promet d’étendre l’écosystème des modèles Stability AI en apportant des capacités de génération d’images statiques aux images en mouvement. Voyons ce que cette proposition a à nous offrir.

Le modèle de génération vidéo Stability AI

Le modèle de génération vidéo Stability AI fonctionnera selon les mêmes mécanismes que le générateur d’images. Les utilisateurs doivent entrez une invite décrivant ce que le modèle doit créer, donc plus les instructions sont détaillées, plus le résultat doit être précis. Le contenu arrivera dans une vidéo entre 3 et 30 images par seconde.

Le modèle de génération vidéo Stability AI fonctionnera selon les mêmes mécanismes que les équivalents Meta appelés Emu. Les utilisateurs doivent saisir une invite détaillant spécifiquement ce qu’ils souhaitent créer. L’image sera d’abord générée puis animée. Le résultat sera de courtes vidéos dans une résolution de 576×1024 entre 3 et 30 images par seconde.

La firme a également opté pour la polyvalence. Il dit que le modèle peut facilement adapter les tâches ultérieures telles que synthèse multivue à partir d’une seule image avec un réglage fin sur des ensembles de données multi-vues. En ce sens, ils soulignent que le modèle peut être utile dans un large éventail de secteurs, notamment la publicité, l’éducation et le divertissement.

Comme d’autres modèles d’IA générative, Stable Video Diffusion est disponible sur une base limitée. Cela signifie qu’il n’est pas si facile d’y accéder. Il existe cependant deux manières de l’essayer : l’exécuter localement avec les fichiers disponibles sur GitHub et Hugging Face ou rejoindre la liste d’attente pour accéder à l’interface web.

Nous assistons directement à l’évolution de l’intelligence artificielle générative. Il y a à peine deux ans, les modèles d’imagerie n’étaient pas disponibles Pour le grand public et ses résultats, comparés à ceux d’aujourd’hui, étaient très primitifs. De nos jours, tout le monde peut y accéder et ils sont d’une qualité surprenante.

Elon Musk, Andalucía Directo et la crise d'OpenAI ont un point commun inattendu : El Risitas

La génération vidéo IA semble suivre le même chemin. À l’heure actuelle, il n’est pas largement disponible et les résultats peuvent encore être améliorés. Dans quelle mesure va-t-il évoluer dans les mois à venir ? La bonne nouvelle est que nous serons là pour le découvrir et qu’à partir d’aujourd’hui, nous pourrons expérimenter les outils dont nous disposons.