Qu’est-ce que Sora ? Un nouvel outil d’IA générative pourrait transformer la production vidéo et amplifier les risques de désinformation

À la fin de la semaine dernière, OpenAI a annoncé un nouveau système d’IA générative nommé Sora, qui produit de courtes vidéos à partir d’invites textuelles. Bien que Sora ne soit pas encore accessible au public, la haute qualité des exemples de résultats publiés jusqu’à présent a suscité des réactions à la fois enthousiastes et préoccupées.

Les exemples de vidéos publiés par OpenAI, qui, selon la société, ont été créés directement par Sora sans modification, montrent des résultats d’invites tels que « une vidéo photoréaliste en gros plan de deux navires pirates s’affrontant alors qu’ils naviguent dans une tasse de café » et « des images historiques de la Californie ». pendant la ruée vers l’or. »

À première vue, il est souvent difficile de dire qu’ils sont générés par l’IA, en raison de la haute qualité des vidéos, des textures, de la dynamique des scènes, des mouvements de caméra et d’un bon niveau de cohérence.

Le directeur général d’OpenAI, Sam Altman, a également publié sur X (anciennement Twitter) des vidéos générées en réponse aux invites suggérées par les utilisateurs, pour démontrer les capacités de Sora.

Comment fonctionne Sora ?

Sora combine les fonctionnalités des outils de génération de texte et d’images dans ce qu’on appelle un « modèle de transformateur de diffusion ».

Les transformateurs sont un type de réseau neuronal introduit pour la première fois par Google en 2017. Ils sont surtout connus pour leur utilisation dans de grands modèles de langage tels que ChatGPT et Google Gemini.

Les modèles de diffusion, en revanche, constituent la base de nombreux générateurs d’images d’IA. Ils fonctionnent en commençant par un bruit aléatoire et en itérant vers une image « propre » qui correspond à une invite de saisie.

Une vidéo peut être réalisée à partir d’une séquence de telles images. Or, dans une vidéo, la cohérence et l’homogénéité entre les images sont essentielles.

Sora utilise l’architecture du transformateur pour gérer les relations entre les images. Alors que les transformateurs ont été initialement conçus pour trouver des modèles dans des jetons représentant du texte, Sora utilise à la place des jetons représentant de petites zones d’espace et de temps.

En tête du peloton

Sora n’est pas le premier modèle texte-vidéo. Les modèles précédents incluent Emu de Meta, Gen-2 de Runway, Stable Video Diffusion de Stability AI et récemment Lumiere de Google.

Lumière, sorti il y a quelques semaines à peine, prétendait produire une meilleure vidéo que ses prédécesseurs. Mais Sora semble être plus puissant que Lumière à au moins certains égards.

Sora peut générer des vidéos avec une résolution allant jusqu’à 1920 × 1080 pixels et dans une variété de formats d’image, tandis que Lumiere est limité à 512 × 512 pixels. Les vidéos de Lumière durent environ cinq secondes, tandis que Sora réalise des vidéos jusqu’à 60 secondes.

Lumiere ne peut pas créer de vidéos composées de plusieurs plans, contrairement à Sora. Sora, comme d’autres modèles, serait également capable d’effectuer des tâches de montage vidéo telles que la création de vidéos à partir d’images ou d’autres vidéos, la combinaison d’éléments de différentes vidéos et l’extension de vidéos dans le temps.

Les deux modèles génèrent des vidéos globalement réalistes, mais peuvent souffrir d’hallucinations. Les vidéos de Lumière peuvent être plus facilement reconnues comme étant générées par l’IA. Les vidéos de Sora semblent plus dynamiques, avec plus d’interactions entre les éléments.

Cependant, dans de nombreux exemples de vidéos, des incohérences deviennent apparentes après une inspection minutieuse.

Des applications prometteuses

Le contenu vidéo est actuellement produit soit en filmant le monde réel, soit en utilisant des effets spéciaux, deux méthodes qui peuvent s’avérer coûteuses et longues. Si Sora devient disponible à un prix raisonnable, les gens pourraient commencer à l’utiliser comme logiciel de prototypage pour visualiser des idées à un coût bien inférieur.

D’après ce que nous savons des capacités de Sora, il pourrait même être utilisé pour créer de courtes vidéos pour certaines applications dans les domaines du divertissement, de la publicité et de l’éducation.

Le document technique d’OpenAI sur Sora s’intitule « Modèles de génération vidéo en tant que simulateurs mondiaux ». L’article affirme que des versions plus grandes de générateurs vidéo comme Sora pourraient être « des simulateurs capables du monde physique et numérique, ainsi que des objets, des animaux et des personnes qui y vivent ».

Si cela est exact, les versions futures pourraient avoir des applications scientifiques pour des expériences physiques, chimiques et même sociétales. Par exemple, on pourrait tester l’impact de tsunamis de différentes tailles sur différents types d’infrastructures et sur la santé physique et mentale des personnes à proximité.

Atteindre ce niveau de simulation est très difficile, et certains experts affirment qu’un système comme Sora est fondamentalement incapable de le faire.

Un simulateur complet devrait pouvoir calculer les réactions physiques et chimiques aux niveaux les plus détaillés de l’univers. Cependant, simuler une approximation approximative du monde et réaliser des vidéos réalistes à l’œil humain pourrait être à la portée des années à venir.

Risques et préoccupations éthiques

Les principales préoccupations autour d’outils comme Sora tournent autour de leur impact sociétal et éthique. Dans un monde déjà en proie à la désinformation, des outils comme Sora pourraient aggraver la situation.

Il est facile de voir comment la capacité de générer une vidéo réaliste de n’importe quelle scène que vous pouvez décrire pourrait être utilisée pour diffuser de fausses nouvelles convaincantes ou jeter le doute sur des images réelles. Cela peut mettre en danger les mesures de santé publique, être utilisé pour influencer les élections ou même surcharger le système judiciaire de fausses preuves potentielles.

Les générateurs de vidéos peuvent également permettre de menacer directement des individus ciblés, via des deepfakes, notamment pornographiques. Ces événements pourraient avoir de terribles répercussions sur la vie des personnes touchées et de leurs familles.

Au-delà de ces préoccupations, se posent également les questions de droit d’auteur et de propriété intellectuelle. Les outils d’IA générative nécessitent de grandes quantités de données pour la formation, et OpenAI n’a pas révélé d’où proviennent les données de formation de Sora.

Les grands modèles de langage et générateurs d’images ont également été critiqués pour cette raison. Aux États-Unis, un groupe d’auteurs célèbres a poursuivi OpenAI en justice pour une éventuelle utilisation abusive de leurs documents. L’affaire soutient que les grands modèles linguistiques et les entreprises qui les utilisent volent le travail des auteurs pour créer du nouveau contenu.

Ce n’est pas la première fois de mémoire récente que la technologie devance la loi. Par exemple, la question des obligations des plateformes de médias sociaux en matière de modération du contenu a suscité un débat houleux ces dernières années, dont une grande partie tourne autour de l’article 230 du Code américain.

Bien que ces préoccupations soient réelles, nous ne nous attendons pas, sur la base de l’expérience passée, à ce qu’elles arrêtent le développement de la technologie de génération vidéo. OpenAI affirme qu’elle « prend plusieurs mesures de sécurité importantes » avant de rendre Sora accessible au public, notamment en travaillant avec des experts en « désinformation, contenu haineux et préjugés » et en « créant des outils pour aider à détecter les contenus trompeurs ».