Le PDG de YouTube explique pourquoi OpenAI ne devrait pas utiliser les vidéos de la plateforme pour entraîner Sora

OpenAI a marqué un avant et un après avec ChatGPT. Le lancement du célèbre chatbot conversationnel en novembre 2022 a été le point de départ d'une course à plusieurs milliards de dollars pour diriger le développement du intelligence artificielle. Mais la société dirigée par Sam Altman souhaite aussi débarquer dans le monde de la vidéo avec Sora.

Or, outre leurs avantages, ces deux outils ont un point commun controversé : on ne sait pas exactement d’où proviennent toutes les données avec lesquelles ils ont été entraînés. Dans le cas du générateur vidéo, OpenAI a été très flou à cet égard, se limitant à dire que des données accessibles au public ont été utilisées.

Un problème lors de la formation des modèles

« Je ne suis pas sûre à propos de ça ». Avec ces mots, la CTO de la société d'IA, Mira Murati, a récemment répondu à la question de savoir si elle avait utilisé les données YouTube pour entraîner le modèle Sora. Le PDG de YouTube est cependant sûr que, si tel était le cas, OpenAI serait confronté à un «violation flagrante des conditions de service » de la plateforme.

La position de l'exécutif nous vient d'un récent entretien avec Bloomberg. Lorsqu'on lui a demandé s'il pensait que YouTube avait été utilisé pour former Sora, Neal Mohan a répondu qu'il n'avait aucune information à ce sujet et a ajouté que l'une des attentes des créateurs de contenu est que les conditions d'utilisation de la plateforme soient respectées.

Sora Youtube Openai 2

Image générée avec Sora

En ce sens, il a déclaré que certains contenus YouTube, comme le titre de la vidéo, le nom de la chaîne ou le nom du créateur, sont exposé à la tâche (web scraping) pour qu'il puisse apparaître dans les moteurs de recherche, les termes ne permettent pas de télécharger les vidéos ou leurs transcriptions.

La manière dont les modèles d'IA d'OpenAI sont formés n'a pas été sans controverse. Nous avons récemment vu le New York Times poursuivre Microsoft et OpenAI pour avoir utilisé « des millions » de leurs articles pour former des modèles d’IA. Et ce n’est là qu’un exemple parmi la vague de poursuites judiciaires qui ont vu le jour.

Google a toujours vécu de la publicité, mais son potentiel moteur de recherche doté d'IA pose un changement radical : que nous payions pour cela

Ce scénario a conduit l'entreprise soutenue par Microsoft à promouvoir des accords avec de grands groupes d'édition pour pouvoir utiliser vos données. Parmi les plus récentes, on peut citer les alliances avec Prisa Media (qui comprend des médias comme El País, As ou Cinco Días), le journal français Le Monde et la banque d'images Shutterstock.

Images | Christian Wiediger | OpenAI

À Simseo | Nous avons créé ces trois chansons en utilisant Suno AI v3. C'est la chose la plus spectaculaire que nous ayons vue depuis longtemps.