Sora est bien plus qu'un outil d'IA qui génère des vidéos. C'est un simulateur (imparfait) de notre univers et de sa physique

Le lancement de Sora il y a quelques jours nous a encore une fois étonné par le réalisme atteint dans ces vidéos générées par l’IA. Cependant, ce modèle est différent de ChatGPT et certainement de DALL-E.

Et c’est parce que pendant que ChatGPT essaie de « deviner » par probabilité les mots appropriés pour répondre à nos questions, Sora essaie de simuler la physique du monde réel. C’est du moins ce qu’indiquent des experts en intelligence artificielle comme Jim Fan, qui travaille chez NVIDIA et qui est fasciné par ce modèle particulier.

Cette vidéo est une bonne démonstration de sa théorie. Dans ce document, le modèle est invité à simuler une bataille navale entre deux navires pirates naviguant dans une tasse de café. La vidéo qui en résulte n’est pas parfaite, mais elle reste étonnante pour plusieurs raisons.

D’abord parce que les deux navires naviguent en s’évitant, mais aussi parce que la mécanique des fluides du café, dont la mousse, est particulièrement frappante. Comme le souligne Fan, « la simulation des fluides est un sous-domaine à part entière en graphiques générés par ordinateur, et nécessite traditionnellement des algorithmes et des équations très complexes. » Le simulateur prend même en compte le fait que la scène se déroule dans une tasse de café et applique la technique photographique Tilt-Shift pour donner un aspect encore plus curieux à la vidéo. résultant.

Beaucoup ont critiqué l’opinion de Fan dans les réponses à son fil de discussion et ont soutenu que Sora « manipulait simplement les pixels 2D ». Cet expert Je pense que c’est une théorie réductionniste. et c’est comme dire « GPT-4 n’apprend pas la programmation, il échantillonne simplement des chaînes de texte ».

Pour lui, la simulation physique « douce » de Sora est une « propriété émergente » qui sera massivement étendue avec la formation texte-vidéo. Comme on le voit dans cette vidéo du verre, la physique est imparfaite. Les responsables d’OpenAI l’ont eux-mêmes clairement indiqué dans leur rapport technique, dans lequel ils déclarent que « Sora présente actuellement de nombreuses limitations en tant que simulateur. Par exemple, il ne modélise pas avec précision la physique de nombreuses interactions de base, comme lorsqu’un verre se brise. » « .

Fan a expliqué que c’était normal. GPT-4 apprend la syntaxe, la sémantique et les structures de données pour, par exemple, générer du code Python exécutable ; il ne peut pas simplement supprimer des chaînes de texte, a-t-il souligné. Sora fait quelque chose de similaire et selon lui « vous devez apprendre certaines formes implicites de conversion de texte en 3D, de transformations 3D, de rendu par lancer de rayons et de règles physiques pour modéliser les pixels vidéo aussi précisément que possible ».

Il le compare également au moteur de rendu Unreal Engine 5 : alors que ce dernier est un processus très complexe qui génère des pixels vidéo, Sora les génère également en apprenant à partir des données d’entraînement et est « intuitif ». Pour ventilateur Sora ressemble plus à GPT-3 en 2020: une démonstration que l’apprentissage en contexte de ce modèle était une propriété émergente qui allait se développer, comme cela s’est produit avec GPT-4. « Ne vous attardez pas sur les imperfections du GPT-3. Pensez aux extrapolations vers le GPT-4 dans un avenir proche », conclut-il.

Un autre expert dans ce domaine, Alberto Romero, a expliqué en quoi Sora est un transformateur de diffusion. Il combine un modèle de diffusion, comme celui de DALL-E 3, avec un modèle de transformateur comme celui utilisé dans ChatGPT : un réseau neuronal qui apprend le contexte en suivant les relations dans les données séquentielles. Selon certains experts, Sora a été formée partiellement avec Unreal Engine 5 et autres Moteurs 3D. Il a lui-même souligné que ce modèle est un simulateur primitif de notre monde, quelque chose qui t’inquiète et t’impressionne spécialement:

« OpenAI affirme que Sora comprend non seulement le style, le décor, le personnage, les objets et les concepts présents dans l’invite, etc., mais aussi « comment ces choses existent dans le monde physique ». Je tiens à nuancer cette affirmation en disant que l’effrayant Les échecs de Sora révèlent que même s’il a appris un ensemble implicite de règles physiques qui informent le processus de génération vidéo, il ne s’agit pas d’une capacité robuste (OpenAI l’admet). Mais c’est certainement un premier pas dans cette direction.

Romero est d’accord avec l’évaluation de Jim Fan et rappelle qu’OpenAI lui-même a conclu son annonce sur le blog officiel par une phrase révélatrice : « Sora sert de base à des modèles capables de comprendre et de simuler le monde réel, une capacité qui, selon nous, sera un élément important ». une étape importante pour atteindre l’intelligence artificielle. Ou, comme le dit Romero, « À quelle distance sommes-nous de « Matrix » ?.

À Simseo | Je fais du montage vidéo professionnellement depuis neuf ans. Donc je pense que Sora va changer mon travail et ma vie