Les générateurs vidéo IA rêvent-ils de San Pedro ? Madonna parmi les premiers à adopter la prochaine vague de l'IA

Chaque fois que Madonna chante le hit des années 1980 « La Isla Bonita » lors de sa tournée de concerts, des images animées de nuages tourbillonnants teintés de coucher de soleil jouent sur les écrans géants de l'arène derrière elle.

Pour obtenir ce look éthéré, la légende de la pop a adopté une branche encore inexplorée de l’intelligence artificielle générative : l’outil de conversion texte-vidéo. Tapez quelques mots, par exemple « coucher de soleil surréaliste sur un nuage » ou « cascade dans la jungle à l'aube », et une vidéo instantanée est créée.

Suivant les traces des chatbots IA et des générateurs d'images fixes, certains passionnés de vidéo IA affirment que la technologie émergente pourrait un jour bouleverser le divertissement, vous permettant de choisir votre propre film avec des intrigues et des fins personnalisables. Mais il y a un long chemin à parcourir avant d’y parvenir, et de nombreux pièges éthiques se dressent sur le chemin.

Pour les premiers adeptes comme Madonna, qui a longtemps repoussé les limites de l’art, il s’agissait plutôt d’une expérience. Elle a rejeté une version antérieure des visuels du concert « La Isla Bonita » qui utilisaient des infographies plus conventionnelles pour évoquer une ambiance tropicale.

« Nous avons essayé CGI. Cela avait l'air plutôt fade et ringard et elle n'a pas aimé ça », a déclaré Sasha Kasiuha, directrice du contenu de la tournée Celebration de Madonna qui se poursuit jusqu'à fin avril. « Et puis nous avons décidé d'essayer l'IA. »

OpenAI, créateur de ChatGPT, a donné un aperçu de ce à quoi pourrait ressembler une technologie sophistiquée de conversion texte-vidéo lorsque la société a récemment présenté Sora, un nouvel outil qui n'est pas encore accessible au public. L'équipe de Madonna a essayé un produit différent de celui de la start-up new-yorkaise Runway, qui a contribué à lancer cette technologie en lançant son premier modèle public de conversion texte-vidéo en mars dernier. La société a publié une version « Gen-2 » plus avancée en juin.

Le PDG de Runway, Cristóbal Valenzuela, a déclaré que même si certains voient ces outils comme un « appareil magique qui vous permet de taper un mot et qui, d'une manière ou d'une autre, évoque exactement ce que vous aviez en tête », les approches les plus efficaces sont celles des professionnels de la création à la recherche d'une mise à niveau par rapport à des dizaines d'années. logiciel de montage numérique qu'ils utilisent déjà.

Il a déclaré que Runway ne pouvait pas encore réaliser un long métrage documentaire. Mais cela pourrait aider à remplir une vidéo d'arrière-plan, ou un rouleau B, les plans et scènes de soutien qui aident à raconter l'histoire.

« Cela vous fait gagner peut-être une semaine de travail », a déclaré Valenzuela. « Le fil conducteur de nombreux cas d'utilisation est que les gens l'utilisent comme un moyen d'augmenter ou d'accélérer quelque chose qu'ils auraient pu faire auparavant. »

Les clients cibles de Runway sont « de grandes sociétés de streaming, des sociétés de production, des sociétés de post-production, des sociétés d'effets visuels, des équipes marketing, des sociétés de publicité. Beaucoup de gens qui créent du contenu pour gagner leur vie », a déclaré Valenzuela.

Des dangers vous attendent. Sans mesures de protection efficaces, les générateurs de vidéos IA pourraient menacer les démocraties avec des vidéos « deepfakes » convaincantes de choses qui ne se sont jamais produites, ou – comme c'est déjà le cas avec les générateurs d'images IA – inonder Internet de fausses scènes pornographiques représentant ce qui semble être de vraies personnes. visages reconnaissables. Sous la pression des régulateurs, les grandes entreprises technologiques ont promis de filigraner les résultats générés par l'IA pour aider à identifier ce qui est réel.

Il existe également des différends en matière de droits d'auteur concernant les collections de vidéos et d'images sur lesquelles les systèmes d'IA sont formés (ni Runway ni OpenAI ne divulguent leurs sources de données) et dans quelle mesure ils reproduisent injustement des œuvres déposées. Et l’on craint qu’à un moment donné, les machines à réaliser des vidéos ne remplacent les emplois humains et le talent artistique.

Pour l’instant, les clips vidéo les plus longs générés par l’IA sont toujours mesurés en secondes et peuvent présenter des mouvements saccadés et des problèmes révélateurs tels que des mains et des doigts déformés. Résoudre ce problème est « juste une question de plus de données et plus de formation », et de la puissance de calcul dont dépend cette formation, a déclaré Alexander Waibel, professeur d'informatique à l'université Carnegie Mellon qui étudie l'IA depuis les années 1970.

« Maintenant, je peux dire : 'Faites-moi une vidéo d'un lapin habillé en Napoléon se promenant dans New York' », a déclaré Waibel. « Il sait à quoi ressemble New York, à quoi ressemble un lapin, à quoi ressemble Napoléon. »

Ce qui est impressionnant, a-t-il déclaré, mais encore loin de créer un scénario convaincant.

Avant de lancer son modèle de première génération l'année dernière, Runway revendiquait la renommée de l'IA en tant que co-développeur du générateur d'images Stable Diffusion. Une autre société, Stability AI, basée à Londres, a depuis repris le développement de Stable Diffusion.

La technologie de « modèle de diffusion » sous-jacente à la plupart des principaux générateurs d'images et de vidéos d'IA fonctionne en mappant le bruit, ou des données aléatoires, sur des images, détruisant ainsi efficacement une image originale, puis prédisant à quoi devrait ressembler une nouvelle. Il emprunte une idée à la physique qui peut être utilisée pour décrire, par exemple, la façon dont le gaz se diffuse vers l’extérieur.

« Les modèles de diffusion inversent ce processus », a déclaré Phillip Isola, professeur agrégé d'informatique au Massachusetts Institute of Technology. « Ils prennent en quelque sorte le caractère aléatoire et le reconstituent dans le volume. C'est ainsi qu'on passe du caractère aléatoire au contenu. Et c'est ainsi que l'on peut créer des vidéos aléatoires. »

La génération de vidéo est plus compliquée que les images fixes, car elle doit prendre en compte la dynamique temporelle ou la manière dont les éléments de la vidéo changent au fil du temps et au fil des séquences d'images, a déclaré Daniela Rus, une autre professeure du MIT qui dirige son laboratoire d'informatique et d'intelligence artificielle.

Rus a déclaré que les ressources informatiques requises sont « considérablement plus élevées que pour la génération d'images fixes » car « cela implique le traitement et la génération de plusieurs images pour chaque seconde de vidéo ».

Cela n’empêche pas certaines entreprises technologiques bien nanties d’essayer de continuer à se surpasser en présentant une génération de vidéos IA de meilleure qualité sur des durées plus longues. Exiger des descriptions écrites pour créer une image n’était qu’un début. Google a récemment présenté un nouveau projet appelé Genie qui peut être incité à transformer une photographie ou même un croquis en « une variété infinie » de mondes de jeux vidéo explorables.

À court terme, les vidéos générées par l'IA apparaîtront probablement dans le contenu marketing et éducatif, offrant une alternative moins coûteuse à la production de séquences originales ou à l'obtention de vidéos d'archives, a déclaré Aditi Singh, chercheur à la Cleveland State University qui a étudié le text-to- marché de la vidéo.

Lorsque Madonna a parlé pour la première fois de l'IA à son équipe, « l'intention principale n'était pas : 'Oh, regarde, c'est une vidéo sur l'IA' », a déclaré Kasiuha, le directeur créatif.

« Elle m'a demandé : 'Pouvez-vous simplement utiliser l'un de ces outils d'IA pour rendre l'image plus nette, pour vous assurer qu'elle semble actuelle et en haute résolution ?' », a déclaré Kasiuha. « Elle adore quand vous introduisez de nouvelles technologies et de nouveaux types d'éléments visuels. »

Des films plus longs générés par l’IA sont déjà en cours de réalisation. Runway organise chaque année un festival de films sur l'IA pour présenter de telles œuvres. Mais il reste à voir si c’est ce que le public humain choisira de regarder.

« Je crois toujours aux humains », a déclaré Waibel, professeur à la CMU. « Je crois toujours que cela finira par être une symbiose dans laquelle une IA proposera quelque chose et un humain l'améliorera ou le guidera. Ou bien les humains le feront et l'IA le réparera. »