OpenAI a manqué de données pour entraîner son IA. Il a donc transcrit un million d'heures de YouTube pour GPT-4

Les chatbots qui nous étonnent sont de voraces consommateurs de données. Les créateurs de ces modèles d’IA le savent et ont utilisé toutes sortes de ressources pour les former, mais ils manquent de ressources. OpenAI le sait très bien, qui selon une enquête du New York Times a dû recourir à une méthode très marquante pour continuer à entraîner son LLM GPT-4.

Nous sommes à court de données. Fin 2021, révèle le journal, les chercheurs d’OpenAI ont épuisé toutes les réserves de textes anglais fiables sur Internet. Ils avaient besoin de plus de données pour continuer la formation et la peaufiner. Beaucoup plus. Comment les obtenir ?

Un million d'heures de vidéos YouTube. Ces ingénieurs ont eu l’idée de créer Whisper, un modèle d’IA capable de retranscrire l’audio des vidéos YouTube, ce qui leur a permis d’obtenir de nombreux textes pour entraîner leur système d’IA. Ils ont fini par utiliser l’outil pour transcrire un million d’heures d’audio à partir de vidéos YouTube, alimentant leur vorace modèle d’IA pour continuer à le peaufiner.

Et les droits ? La controverse est, comme toujours, de savoir si cela viole les droits de YouTube en tant que plateforme et ceux des créateurs de contenu qui l'utilisent. Selon le Times, OpenAI savait que la méthode était juridiquement discutable. Une porte-parole de l'entreprise a déclaré à The Verge que l'entreprise filtre des ensembles de données « uniques » pour ses modèles afin de « les aider à comprendre le monde » et de « maintenir leur compétitivité mondiale en matière de recherche », sans mentionner spécifiquement ces vidéos YouTube.

Google le fait aussi. Les responsables de Google qui travaillent sur des modèles d'IA comme Gemini ont également fait quelque chose de similaire. Selon cinq sources consultées dans le Times, l'entreprise a retranscrit des vidéos YouTube pour récolter des textes permettant d'alimenter la formation de ses modèles. Cela « potentiellement violé les droits d'auteur des vidéos, qui appartiennent à leurs créateurs ».

Meta a soulevé une autre solution potentielle. La société de Mark Zuckerberg, qui développe Llama 2, a également été confrontée à la même situation, et selon le journal, afin d'obtenir des données de haute qualité – comme des livres écrits par des professionnels – ses dirigeants ont envisagé de racheter la maison d'édition Simon & Schuster pour reprendre sur ce type de textes. Ils ont également « discuté de la collecte de données protégées par le droit d'auteur sur Internet, même si cela impliquait des poursuites judiciaires », expliquent-ils dans le Times. Négocier des licences avec tous ces créateurs, soulignent les sources consultées, « prendrait trop de temps ».

Les licences, l'autre option. En effet, cette dernière option prend du temps, mais compte tenu des demandes survenues ces derniers mois dans ce domaine, certaines entreprises ont compris que payer pour pouvoir utiliser ces sources de données sans implications juridiques était le plus intéressant. Google a récemment payé une petite fortune à Reddit pour utiliser son contenu, et OpenAI conclut également des accords avec certains médias.

Se former avec des données synthétiques, une option d'avenir. Selon le Wall Street Journal, ces entreprises réfléchissent à une nouvelle façon de former leurs modèles : en le faisant avec des données synthétiques. C’est-à-dire des données créées par leurs propres modèles, mais de manière contrôlée avec des données de haute qualité dans l’espoir de pouvoir affiner le fonctionnement de leurs systèmes d’IA. La validité de ces retours reste à prouver, mais force est de constater que les entreprises recherchent des solutions pour ne pas manquer de données de formation.

Images | Thèmes NorWood

À Simseo | L’Internet tel que nous le connaissions est en train de mourir : l’IA générative le détruit