OpenAI dévoile sCM, un nouveau modèle qui génère des médias vidéo 50 fois plus rapidement que les modèles de diffusion actuels

OpenAI dévoile sCM, un nouveau modèle qui génère des médias vidéo 50 fois plus rapidement que les modèles de diffusion actuels

Deux experts de l'équipe OpenAI ont développé un nouveau type de modèle de cohérence en temps continu (sCM) qui, selon eux, peut générer des médias vidéo 50 fois plus rapidement que les modèles actuellement utilisés. Cheng Lu et Yang Song ont publié un article décrivant leur nouveau modèle sur le arXiv serveur de préimpression. Ils ont également publié un document d'introduction sur le site Web de l'entreprise.

Dans les méthodes d'apprentissage automatique par lesquelles les applications d'IA sont formées, les modèles de diffusion, parfois appelés modèles probabilistes de diffusion ou modèles génératifs basés sur des scores, sont un type de modèle génératif variable.

De tels modèles comportent généralement trois éléments principaux : des processus directs et inverses et une procédure d'échantillonnage. Ces modèles constituent la base de la génération de produits visuels tels que des vidéos ou des images fixes, bien qu'ils aient également été utilisés avec d'autres applications, comme la génération audio.

Comme pour les autres modèles d’apprentissage automatique, les modèles de diffusion fonctionnent en échantillonnant de grandes quantités de données. La plupart de ces modèles exécutent des centaines d'étapes pour générer un produit final, c'est pourquoi la plupart d'entre eux prennent quelques instants pour accomplir leurs tâches.

À l’opposé, Lu et Song ont développé un modèle qui réalise tout son travail en seulement deux étapes. Selon eux, cette réduction des étapes a considérablement réduit le temps nécessaire à leur modèle pour générer une vidéo, sans aucune perte de qualité.

Le nouveau modèle utilise plus de 1,5 milliard de paramètres et peut produire un exemple de vidéo en une fraction de seconde sur une machine dotée d'un seul GPU A100. C'est environ 50 fois plus rapide que les modèles actuellement utilisés.

Les chercheurs notent que leur nouveau modèle nécessite beaucoup moins de puissance de calcul que les autres modèles, ce qui constitue également un problème persistant avec les applications d'IA en général, car leur utilisation monte en flèche. Ils notent également que leur nouvelle approche a déjà fait l’objet d’une analyse comparative pour comparer leurs résultats avec d’autres modèles, à la fois ceux actuellement utilisés et ceux en cours de développement par d’autres équipes. Ils suggèrent que leur modèle devrait permettre des applications d’IA générative en temps réel dans un avenir proche.