C’est à quel point l’évolution de l’IA a été incroyable pour générer des vidéos en seulement un an : Sora répète ce que ChatGPT a fait

Je fais du montage vidéo professionnellement depuis neuf ans. Donc je pense que Sora va changer mon travail et ma vie

Il y a quelques années, alors que nous étions encore étonnés par les IA qui généraient des images, nous avons commencé à parler de vidéo. C’était le saut naturel. Après tout, une vidéo n’est-elle pas une succession très rapide d’images ? Les premiers modèles étaient… curieux, restons-en là, mais ils ont évolué. Des propositions telles que Pika, Stable Diffusion Video, le modèle Bytedance sont arrivées et cette semaine, pour couronner le tout, Sora est arrivé.

Sora est le modèle de génération vidéo d’OpenAI, la société qui a créé ChatGPT, et est entré dans la conversation comme un éléphant dans un magasin de porcelaine. La qualité qu’il offre est impressionnante et le résultat est superbe. Il a toutes les chances de révolutionner la vidéo comme il l’a fait avec les images et les illustrations. Pour savoir ce qu’il offre, où est son potentiel et, bien sûr, où il échoue, Nous avons parlé avec plusieurs monteurs vidéo professionnels de l’équipe Webedia. C’est ce qu’ils nous ont dit.

Très spectaculaire à première vue…

Fran J.Martin (@franjmartin) est cinéaste et responsable du contenu vidéo de marque chez Webedia Espagne. Il enregistre et monte des vidéos éditoriales et de marque depuis 2015 et a participé aux processus de réalisation, de réalisation et de post-production de films. Selon lui, « je ne sais pas si cela supprimera le travail d’un cinéaste, mais cela affectera les banques d’images ».

La plupart des vidéos qu’OpenAI nous a montrées sont des vidéos qui, si nous en avions besoin pour un projet local, nous devrions soit achetez-les dans une banque d’images, soit embauchez une équipe locale, soit envoyez une équipe pour les enregistrer sur place. Pour Fran, l’utilisateur qui « va à Tokyo, enregistre 45 clichés en 4K et les revend ensuite, je pense que ses jours sont comptés avec ça ».

Selon Fran, le grand potentiel de cet outil est la possibilité de réaliser les plans dont nous pouvons avoir réellement besoin et que nous ne pouvons pas obtenir. « Vous pouvez directement monter et lui dire de générer une photo d’un couple, mais aussi en avoir un qui porte une chemise rouge car la vidéo est pour la société X », nous dit-il.

Il fait également une réflexion intéressante sur animation d’images fixes, une des capacités de Sora. Si dans celui du petit chien au béret français les textures sont floues pour « lisser les erreurs », dans celui des monstres les choses changent.

«Je pense que c’est très bien fait et les mouvements qu’ils effectuent sont assez organiques, dans le cadre de l’animation graphique qu’un professionnel pourrait réaliser. Cela peut être un problème ou une solution pour de nombreux photographes de mouvement qui réalisent ce type de vidéos, car [la imagen] Il a un bon mouvement et le faire à la main demande de nombreuses années d’expérience. Vous devez faire beaucoup d’images clés et beaucoup de courbes de vitesse pour que cela ait l’air aussi cool. Maintenant, il faudrait ici voir comment cet outil réagit lorsque nous demandons à l’un de ces monstres d’effectuer un mouvement spécifique.

Dans un monde idéal, si l’IA pouvait nous donner des informations sur les mouvements qu’elle effectue afin que nous puissions la modifier à notre guise dans After Effects, ce serait génial. J’imagine un monde dans lequel l’IA fait tout le montage des poupées pour vous, l’anime à votre guise et vous donne toutes ces images et courbes clés pour modifier ce que vous voulez dans After Effects.

Il a également apprécié le bon travail de Sora en combinant les vidéos (voir la photo du drone et du papillon sous-marin). « Évidemment, je trouve cela très cool et imaginatif et je pense qu’il fait un travail qui serait presque impossible à la main. Ici, nous accordons un énorme mini-point à l’IA, car la capacité d’inventer des choses et de les adapter à mi-chemin est brutale. On dirait que votre esprit est dans un rêve », dit-il.

En ce sens, elle est d’accord avec une autre colocataire, Ana Boria (@ana_borbuj), de l’équipe vidéo Simseo. Ana produit et monte des vidéos chez Simseo depuis trois ans et dit que ce qu’elle a vu jusqu’à présent a « l’air spectaculaire ». Bien qu’il existait déjà d’autres IA de génération vidéo, Ana estime que ce qui différencie Sora, c’est « ce qu’il risque dans les vidéos. Il y a des mouvements de caméra très cinématographiques, très risqués, des virages très dramatiques, et normalement, quand on a vu des vidéos [generados por IA] « Très réalistes, c’étaient des animations très simples, très subtiles. »

Les vidéos, nous explique Ana, attirent l’attention car « ce n’est pas seulement le premier élément qui bouge, mais tout ce qui est en arrière-plan, il y a des reflets dans l’eau, la texture de la peau, les couleurs, tout me semble Eh bien, il y a des vidéos dont je ne peux pas vous dire qu’elles sont créées par une IA ou que ce sont de vraies vidéos, je ne remarque pas la différence. »

Mario Arroyo (@embi41), compagnon vidéo, estime également que le potentiel de cet outil pour générer des ressources est énorme. C’est une opinion qu’elle partage avec Ana. Comme Ana l’explique, il est parfois difficile de trouver des ressources qui illustrent ce que l’on veut dire « et avec cela, tout un monde de possibilités s’ouvre à moi ».

Selon Mario, Sora indique des moyens de « générer des ressources à partir d’endroits auxquels vous ne pouvez pas accéder par vous-même, comme des photos prises avec un drone. Vous demandez un plan de drone dans lequel vous pouvez voir une plage de sable avec peu de monde et qu’il pleut, et que vous puissiez y parvenir… Il me semble que cela a beaucoup, beaucoup de potentiel. »

…mais il faut regarder au-delà

Le fait est qu’une fois sorti de notre étonnement initial, C’est facile de voir les coutures de Sora. Si nous regardons en arrière, nous nous souviendrons qu’avec les premières IA génératives, tout hallucinait, jusqu’à ce qu’on regarde les mains (qu’il y avait l’IA qui hallucinait). Des mains avec six doigts, des membres qui ne mènent nulle part, des choses en arrière-plan qui n’ont aucun sens… La même chose se répète dans Sora et si nous retirons la loupe, comme l’ont fait Fran, Ana et Mario, nous verrons cela très clairement.

Fran nous propose quelques exemples. La vidéo de la jeune fille marchant à travers ce qui ressemble au Japon, « au début et pour un plan rapide, elle peut se faufiler […] Je pense qu’ils parviennent très bien à ajouter les reflets dans les lunettes et qu’ils captent correctement la lumière de la photo sur la femme. Cependant, « si vous regardez attentivement, vous aurez l’impression qu’il s’agit d’une composition chroma key, puisque le sujet principal n’est pas bien intégré à 100 % à l’arrière-plan ». Il nous explique également que « la femme et l’arrière-plan avancent à des vitesses différentes » et que le bokeh « n’est pas constant et organique ».

Quant aux vidéos des tortues, « ici, c’est peut-être parce que nous ne sommes pas très habitués au monde sous-marin, mais c’est là que la tortue semble la plus irréelle. C’est vraiment un personnage de jeu vidéo. L’arrière-plan montre qu’il s’agit d’images réelles.

Dans le cas du chien, « l’éclairage est très bon mais la question de la texture des cheveux est un drame. Pour l’instant, ils ne bougent pas naturellement, c’est comme un animal fait pour un jeu vidéo. Ils travaillent très bien sur l’intégration de l’ombre à l’image de la fille. C’est plutôt bien, mais les coutures sont toujours visibles.

D’autres clips qui ont attiré l’attention sont ceux du Japon, le couple marchant dans la montagne, le chien regardant par la fenêtre et le robot. Tous des plans qui cherchent à démontrer la cohérence entre les images. Selon Fran, ces vidéos ont « une bonne intégration des lumières », mais « une mauvaise cohérence dans le mouvement et beaucoup d’esthétique de jeu vidéo dans les objets générés en 3D. Nous sommes encore trop choqués par la texture de l’image réelle avec la douceur et le manque de détails et de texture des images 3D.

Ana, de son côté, nous raconte qu’elle a détecté des erreurs avec les images, des problèmes pour recréer les mouvements des mains ou encore des mouvements du visage, des gestes… Il y a certaines choses qui, je pense, seront plus difficiles à réaliser, comme transmettre des émotions des gens à travers les gestes et toute l’émotion générale, comment ils modifient leur visage pour transmettre cette émotion… Je pense que cela peut être compliqué.

« Il y a certaines choses qui, je pense, seront plus difficiles à réaliser, comme transmettre les émotions des gens »

De plus, et comme Mario, il a pris conscience du problème qu’il a avec ses mains et ses zones sombres. « Tout comme il y a des vidéos dans lesquelles les mains qui apparaissent, puisqu’elles ont une présence plus protagoniste, semblent très réelles, il y en a d’autres dans lesquelles elles ne le sont pas. Par exemple, une vidéo d’une dame âgée soufflant des bougies me vient à l’esprit. Derrière lui se trouvent ce qui est censé être sa famille qui applaudit et pratiquement toutes les mains sont un tableau.»

Un autre aspect à souligner est celui de la physique. « Ça arrive souvent dans les jeux vidéo, c’est difficile de faire en sorte que la physique, que les mouvements, que les objets pèsent ce qu’ils doivent peser et que tout ce qui se passe sur la scène soit naturel, ça me paraît très compliqué. S’il est déjà difficile pour un humain d’animer cela et de lui faire produire l’effet qu’il doit avoir, je pense que cela va être difficile pour l’IA aussi. Qu’est-ce qui va l’obtenir ? Oui, bien sûr. C’est une question de temps».

Sora est un outil d'IA incroyable.  Mais encore une fois on ne sait pas d'où viennent les vidéos avec lesquelles OpenAI l'a entraîné

Mario ajoute que, même s’il est vrai que les résultats sont très bons, on descend un peu à travers l’étrange vallée dans certains plans dans lesquels apparaissent des gens, comme la vidéo susmentionnée de la femme qui souffle les bougies. « Le mouvement des visages de certaines personnes, qu’on peut voir comme des ‘très PNJ’, qui se déforment, qui sautent, n’est pas fluide », constate l’éditeur. «Je pense aussi qu’il plie le genou lorsqu’il fait des vidéos la nuit, ce qui, si on y regarde bien, est l’un des rares qui existent. Lorsqu’il fait des vidéos la nuit, l’éclairage me semble très exagéré », conclut-il.

Beaucoup de travail à faire, mais un énorme potentiel

Le fait que le lancement de Sora ait fait autant de bruit a une certaine raison. Le panorama a bien changé depuis cette photo d’une noix fendue en deux et depuis ce ChatGPT qui semblait magique. Ces modèles se sont améliorés et ont reçu une certaine concurrence en cours de route, mais OpenAI est celui qui, d’une certaine manière, a ouvert la voie et repoussé les limites. Ce qu’OpenAI a réalisé jusqu’à présent en matière de texte et d’image est impressionnant, et maintenant cela s’est étendu à la vidéo.

De toute évidence, cette technologie pose d’énormes défis à tous égards. La même discussion sur les images, la voix, la musique et le texte s’applique à la vidéo et Sora, même s’il n’est pas le premier modèle de ce type, a ce qu’il faut pour marquer un avant et un après. Du moins d’après ce que OpenAI nous a appris, car jusqu’à nouvel ordre nous ne pourrons pas goûter ce modèle par nous-mêmes.

Sora a toutes les qualités pour être un modèle fondateur en termes de génération vidéo

Quoi qu’il en soit, son potentiel est énorme dans tous les aspects imaginables. Personnellement et en tant que créateur de contenu sur TikTok, je considère Sora comme un outil fantastique pour réaliser des choses que je ne pourrais pas réaliser autrement. Je parle de vidéos sur l’espace et ses recoins, des lieux que personne ne peut enregistrer ; des plans si précis qu’ils peuvent ne pas exister, des abstractions qui servent à illustrer des idées. C’est là que, personnellement, je trouve du potentiel.

Sora n’est pas parfait. Ce serait inquiétant si c’était le cas. Si vous regardez les vidéos publiées par OpenAI avec une loupe vous verrez les coutures, mais au-delà de ça, ce qui est vraiment intéressant sera regarde ces vidéos dans cinq anscar aujourd’hui nous n’en sommes qu’au début, mais le début s’annonce brutal.

Images | OpenAI

À Simseo | Google fait face à deux guerres dans le domaine de l’IA : la première contre OpenAI et la seconde contre lui-même