OpenAI a utilisé des millions de textes pour entraîner ChatGPT.  Le problème est que beaucoup d'entre eux sont protégés par le droit d'auteur

Sora est un outil d’IA incroyable. Mais encore une fois on ne sait pas d’où viennent les vidéos avec lesquelles OpenAI l’a entraîné

La fête particulière de Google avec Gemini 1.5 n’a pas duré longtemps. À peine deux heures plus tard, Sam Altman a laissé cette annonce en mordant la poussière, car sa société a présenté son nouveau modèle d’IA, Sora.

Le lancement a suscité d’innombrables réflexions et commentaires sur les réseaux sociaux, et pour cause : la qualité des courtes vidéos créées avec Sora est spectaculaire et son impact sur l’avenir de la création de contenu semble notable.

Mais comme cela s’est déjà produit avec les modèles d’intelligence artificielle générative comme ChatGPT ou DALL-E, l’opacité concernant les données utilisées pour la formation est totale. Avec quel contenu OpenAI a-t-il formé Sora ? Avec des vidéos YouTube ? De TikTok ? Des émissions de télévision ouvertes ?

L’entreprise ne le précise pas, mais c’est devenu une pratique courante dans une industrie qui préfère s’excuser – et ne le fait pas – plutôt que de demander la permission. Cela a déjà généré d’importants procès contre OpenAI et d’autres sociétés comme le développeur de Stable Diffusion ou Microsoft avec son GitHub Copilot, et soulève des conflits juridiques similaires dans le domaine du contenu vidéo.

Bien qu’ils n’aient pas donné de détails sur le contenu qu’ils ont utilisé pour entraîner ce modèle, les recherches scientifiques qu’ils ont publiées fournissent des détails sur la manière dont ils ont entraîné le modèle avec ces contenus, quels qu’ils soient.

Décomposer des vidéos dans l’espace et le temps

Sora s’inspire des Large Language Models (LLM) qui offrent certaines fonctionnalités basées sur du contenu extrait d’Internet. Alors que les LLM sont alimentés par des jetons de texte (mots ou petits groupes de mots), Sora utilise ce qu’on appelle les « zones visuelles » ()une technique qui a déjà été utilisée dans le passé pour travailler avec l’analyse vidéo.

Correctifs1

Ce que fait OpenAI, c’est convertir les vidéos dans ces zones en les compressant et en les décomposant consécutivement en zones qui évoluent au fil du temps. Comme l’indiquent les chercheurs, « les zones sont des représentations efficaces et hautement évolutives pour former des modèles génératifs à partir de différents types de vidéos et d’images ».

Avec ce schéma, Sora est également capable d’être entraîné avec des vidéos et des images de différentes résolutions, durées et formats d’image. Justement après avoir été formé avec des vidéos de différents formats —sans les couper et travailler, par exemple, avec des vidéos carrées, signifie qu’il peut également générer des vidéos pour différents formats d’écran avec le cadrage correct.

À partir de ces informations, Sora, qui est un modèle de transformation – le même concept utilisé pour la génération de texte et d’images – de diffusion, est entraîné à prédire les zones « propres ».

Diffuse

Il y a un autre élément clé dans ce processus : la compréhension du langage. Comme ils l’expliquent dans l’enquête, il ne suffit pas de télécharger des vidéos et de les faire analyser par Sora : tu dois savoir ce qui se passe dans ces vidéoset c’est là qu’interviennent les outils capables de détecter et de retitrer/sous-titrer des images.

En fait, ils ont utilisé les mêmes que ceux utilisés dans DALL-E 3, générant des sous-titres textuels pour toutes les vidéos de leur ensemble de formation. Les chercheurs soulignent que « la formation avec des sous-titres vidéo hautement descriptifs améliore la fidélité du texte ainsi que la qualité globale des vidéos ».

C’est incroyable, mais soyez prudent avec les droits d’auteur

Les vidéos présentées par OpenAI dans cette étude publiée en ligne sont étonnantes – nous vous recommandons d’y jeter un œil, il y en a de toutes sortes – mais la même question que nous nous sommes posée au départ persiste. ¿D’où viennent les vidéos avec lequel ce modèle a été formé ?

Les sources ne sont pas clarifiées, mais le danger ici pour OpenAI est de se retrouver confronté à d’importantes poursuites judiciaires de la part de ceux qui détiennent les droits d’auteur sur ce contenu.

Google, par exemple, pourrait poursuivre OpenAI s’il est découvert que des vidéos YouTube ont été utilisées pour entraîner Sora. C’est une possibilité plausible, d’autant plus que les deux sont en concurrence dans le domaine de l’IA.

Mais d’autres risques sont également en vue. Si les deepfakes d’images – il suffit de le dire à Taylor Swift – et les deepfakes de vidéos étaient déjà convaincants avec les outils disponibles jusqu’à présent, des modèles comme Sora peuvent pousser ce type de problème à son maximum. Ce sera quelque chose auquel nous devrons tous faire face, mais peut-être aussi les entreprises qui comme OpenAI mettent cette capacité entre nos mains.

Images | OpenAI

À Simseo | L’année où l’IA a changé nos vies : 17 rédacteurs de Simseo nous racontent comment elle a transformé leur quotidien