Apple a utilisé les données YouTube pour entraîner son IA, selon Proof News. C'est un défi pour les conditions de service
Bien qu’ils aient encore beaucoup à améliorer, les chatbots d’intelligence artificielle (IA) continuent de nous surprendre par leur capacité à maintenir des conversations fluides, à répondre à des questions, à analyser des données, entre autres tâches. Toutefois, pour que tout cela soit possible, les entreprises d’IA doivent former modèles de langage qui alimentent leurs applications avec d’énormes quantités de données.
Actuellement, c’est un sujet qui suscite une certaine controverse. Les géants de la technologie qui développent certaines des solutions d’IA les plus importantes du moment ne sont pas très explicatifs lorsqu’il s’agit de signaler la provenance des données d’entraînement utilisées. Désormais, une enquête menée par Proof News indique que des sociétés telles qu'Apple, Anthropic, Nvidia et Salesforce ont utilisé des données de YouTube.
Sous-titres YouTube pour entraîner des modèles d'IA
Le rapport indique qu'une organisation à but non lucratif appelée EleutherAI a collecté les sous-titres de 173 536 vidéos YouTube, extraits de plus de 48 000 chaînes. Les données collectées, qui n'incluaient pas d'images vidéo mais plutôt du texte brut des vidéos, généralement avec des traductions dans différentes langues, ont été utilisées pour créer un ensemble de données intitulé « Sous-titres YouTube ».
Les sous-titres YouTube, expliquent-ils, incluent du matériel provenant de créateurs de contenu tels que MrBeast et Marques Brownlee. Il existe également des données provenant de chaînes éducatives telles que la Khan Academy, le MIT et Harvard. L'ensemble de données de sous-titres YouTube, à son tour, fait partie de « Pile », un ensemble de formation composé de 22 ensembles de données qui comprennent également du matériel provenant du Parlement européen, de Wikipédia en anglais, etc.
L'enquête ajoute que Pile est ouvert au public. Partant de ce principe, un grand nombre d’universitaires et d’entreprises les ont utilisés pour leurs travaux liés à l’IA. Parmi elles figurent les entreprises technologiques américaines susmentionnées, qui Ils n'ont pas pris les données directement de YouTube, mais ils ont utilisé le travail effectué par EleutherAI pour former certains de leurs modèles d'IA.
Conditions d'utilisation de YouTube
Le scénario actuel nous amène à nous demander quel rôle jouent les conditions d’utilisation de YouTube. Au début du deuxième trimestre de l'année, le PDG de YouTube, Neal Mohan, a fourni une réponse plutôt intéressante après qu'on lui ait demandé s'il pensait qu'OpenAI formait Sora avec du matériel de sa plateforme vidéo.
Mohan a déclaré que même si certains contenus YouTube tels que le titre de la vidéo, le nom de la chaîne ou le nom du créateur sont exposés à une tâche (web scraping) afin qu'ils puissent apparaître dans les moteurs de recherche, les règles actuelles ils ne permettent pas télécharger les vidéos ou leurs transcriptions.
Les transcriptions sont, par essence, la matière première des sous-titres, car elles contiennent le texte de ce qui est dit dans la vidéo. En ce sens, l'exécutif n'a pas hésité à affirmer en avril de cette année que le téléchargement de transcriptions ou de fragments vidéo constitue une « violation flagrante » des conditions d'utilisation de la plateforme.
Ici justement, une deuxième question entre en jeu. Même si le rapport affirme qu'Apple, Anthropic, Nvidia et Salesforce ont utilisé les sous-titres YouTube pour entraîner certains de leurs modèles, ce ne sont pas ces sociétés qui ont gratté la plateforme pour obtenir ces données. EleutherAI s'est chargé de cette tâche. La grande question est donc la suivante : s’il y a violation, à qui incombe la responsabilité ?
Images | Pik gratuit |
À Simseo | 5 000 « jetons » de mon blog sont utilisés pour entraîner une IA. Je n'ai pas donné ma permission
À Simseo | OpenAI a un nouveau projet secret, selon Reuters : « Strawberry » sera capable de raisonner et d'effectuer des tâches complexes