Comparaison de modèles

Le dernier né des créateurs de TikTok est une IA de génération vidéo. Les résultats sont impressionnants

Qu’un modèle d’intelligence artificielle soit capable de créer des images réalistes ne nous surprend pas à ce stade. Des modèles comme Midjourney, DALL-E 3 ou Stable Diffusion sont capables de choses impressionnantes, mais quand on parle de génération de vidéo… les choses changent. Il existe des modèles, comme Pika ou Morph, qui obtiennent des résultats certes corrects, mais assez loin de ce que peut réaliser, selon ByteDance, la société mère de TikTok, le modèle qui vient d’être annoncé : MagicVideo-V2.

Des vidéos réalistes et surtout cohérentes. Sur le site Web du projet, il y a quelques vidéos générées avec cette intelligence artificielle et les résultats sont excellents. Non seulement en raison du niveau de détail, mais aussi en raison de la cohérence des images. Si nous retirons la loupe, nous pouvons voir quelques coutures (voir les jambes dans la vidéo de l’éléphant dans le désert), mais la vérité est que les 94 images qui composent chaque clip ont une cohérence sensationnelle. Vous pouvez voir quelques tests dans la vidéo sous ces lignes.

Comment ça marche. MagicVideo-V2 est un modèle comprenant quatre modules : texte en image (T2I) ; image en vidéo (I2V); vidéo vers vidéo (V2V) et un modèle d’interpolation d’images. Selon les créateurs, le module T2I génère une image de 1 024 x 1 024 pixels en fonction de l’invite saisie. Le module I2V anime l’image, générant 32 images de 600 x 600 pixels. Troisièmement, le module V2V augmente la résolution à 1 048 x 1 048 pixels et, enfin, le module d’interpolation étend la séquence à 94 images.

Comparaison des modèles de génération vidéo.

Comparaison avec d’autres modèles. Comme il ne pouvait en être autrement, les créateurs ont également publié les résultats de l’utilisation de la même invite avec différents modèles de génération vidéo utilisant l’intelligence artificielle. D’après les images fournies, le modèle ByteDance obtient de bien meilleurs résultats que la concurrence, même si Stable Difussion Video et Pika dans certains contextes sont tout à fait à égalité. La différence est que des modèles concurrents peuvent être utilisés, tandis que MagicVideo-V2, du moins pour l’instant, ne semble pas être disponible pour les tests.

Le nouveau GPT Store compte trois millions de chatbots personnalisés.  Pas un seul ne voudra être ton petit-ami

Loin d’être parfait. S’il est vrai que l’état de l’art de cette technologie est pour le moins saisissant, les clips générés sont encore loin d’être totalement crédibles. De plus, il s’agit généralement de vidéos courtes qui nécessitent beaucoup de puissance de calcul pour être générées. Cependant, c’est une technologie qui continue de s’améliorer et finira sûrement par nous surprendre (davantage) le plus tôt possible.

Images | ByteDance

À Simseo | L’année où l’IA a changé nos vies : 17 rédacteurs de Simseo nous racontent comment elle a transformé leur quotidien