Les sociétés d'IA forment des modèles linguistiques sur les archives de YouTube, ce qui fait des vidéos de la famille et des amis un risque pour la vie privée.
La révolution promise de l’intelligence artificielle nécessite des données. Beaucoup, beaucoup de données. OpenAI et Google ont commencé à utiliser des vidéos YouTube pour entraîner leurs modèles d'IA basés sur du texte. Mais que contiennent réellement les archives YouTube ?
Notre équipe de chercheurs en médias numériques de l'Université du Massachusetts à Amherst a collecté et analysé des échantillons aléatoires de vidéos YouTube pour en savoir plus sur ces archives. Nous avons publié un article de 85 pages sur cet ensemble de données et créé un site Web appelé TubeStats pour les chercheurs et les journalistes qui ont besoin d'informations de base sur YouTube.
Nous examinons maintenant de plus près certaines de nos découvertes les plus surprenantes pour mieux comprendre comment ces vidéos obscures pourraient faire partie de puissants systèmes d'IA. Nous avons constaté que de nombreuses vidéos YouTube sont destinées à un usage personnel ou à de petits groupes de personnes, et qu'une proportion importante a été créée par des enfants qui semblent avoir moins de 13 ans.
L'essentiel de l'iceberg de YouTube
L'expérience de la plupart des gens sur YouTube est organisée de manière algorithmique : jusqu'à 70 % des vidéos que les utilisateurs regardent sont recommandées par les algorithmes du site. Les vidéos recommandées sont généralement des contenus populaires tels que des cascades d'influenceurs, des clips d'actualité, des vidéos explicatives, des vlogs de voyage et des critiques de jeux vidéo, tandis que le contenu non recommandé croupit dans l'obscurité.
Certains contenus YouTube imitent des créateurs populaires ou s'inscrivent dans des genres établis, mais la plupart sont personnels : fêtes de famille, selfies mis en musique, devoirs, extraits de jeux vidéo sans contexte et enfants qui dansent. Le côté obscur de YouTube – la grande majorité des 14,8 milliards de vidéos créées et mises en ligne sur la plateforme – est mal compris.
Il est difficile de mettre en lumière cet aspect de YouTube – et des médias sociaux en général – car les grandes entreprises technologiques sont devenues de plus en plus hostiles aux chercheurs.
Nous avons constaté que de nombreuses vidéos sur YouTube n'étaient jamais destinées à être largement partagées. Nous avons documenté des milliers de vidéos courtes et personnelles qui ont peu de vues mais un engagement élevé (j'aime et commentaires), ce qui implique un public restreint mais très engagé. Celles-ci étaient clairement destinées à un petit public d’amis et de famille. De telles utilisations sociales de YouTube contrastent avec les vidéos qui tentent de maximiser leur audience, suggérant une autre façon d'utiliser YouTube : comme réseau social centré sur la vidéo pour petits groupes.
D’autres vidéos semblent destinées à un autre type de public restreint et fixe : des cours enregistrés lors de l’enseignement virtuel à l’ère de la pandémie, des réunions du conseil scolaire et des réunions de travail. Bien que ce ne soit pas ce que la plupart des gens considèrent comme des utilisations sociales, ils impliquent également que leurs créateurs ont des attentes différentes concernant l'audience des vidéos que les créateurs du type de contenu que les gens voient dans leurs recommandations.
Du carburant pour la machine IA
C’est avec cette compréhension plus large que nous avons lu l’exposé du New York Times sur la façon dont OpenAI et Google se sont tournés vers YouTube dans une course à la recherche de nouvelles réserves de données pour entraîner leurs grands modèles de langage. Une archive de transcriptions YouTube constitue un ensemble de données extraordinaire pour les modèles basés sur du texte.
Il y a également des spéculations, alimentées en partie par une réponse évasive de la directrice de la technologie d'OpenAI, Mira Murati, selon lesquelles les vidéos elles-mêmes pourraient être utilisées pour former des modèles d'IA texte-vidéo tels que Sora d'OpenAI.
L'article du New York Times a soulevé des inquiétudes concernant les conditions d'utilisation de YouTube et, bien sûr, les questions de droits d'auteur qui imprègnent une grande partie du débat sur l'IA. Mais il y a un autre problème : comment quelqu’un pourrait-il savoir ce que contient réellement une archive de plus de 14 milliards de vidéos, mises en ligne par des personnes du monde entier ? Il n’est pas tout à fait clair si Google le sait ou même pourrait le savoir s’il le voulait.
Les enfants en tant que créateurs de contenu
Nous avons été surpris de découvrir un nombre troublant de vidéos mettant en scène des enfants ou apparemment créées par eux. YouTube exige que les utilisateurs ayant mis en ligne des vidéos soient âgés d'au moins 13 ans, mais nous avons souvent vu des enfants qui semblaient beaucoup plus jeunes que cela, généralement danser, chanter ou jouer à des jeux vidéo.
Lors de nos recherches préliminaires, nos codeurs ont déterminé que près d'un cinquième des vidéos aléatoires montrant au moins le visage d'une personne visible incluaient probablement une personne de moins de 13 ans. Nous n'avons pas pris en compte les vidéos clairement tournées avec le consentement d'un parent ou d'un tuteur.
Notre échantillon actuel de 250 personnes est relativement petit – nous travaillons à coder un échantillon beaucoup plus grand – mais les résultats obtenus jusqu'à présent sont cohérents avec ce que nous avons vu dans le passé. Nous ne cherchons pas à gronder Google. La validation de l'âge sur Internet est tristement célèbre et difficile, et nous n'avons aucun moyen de déterminer si ces vidéos ont été mises en ligne avec le consentement d'un parent ou d'un tuteur. Mais nous souhaitons souligner ce qui est ingéré par les modèles d’IA de ces grandes entreprises.
Petite portée, grande influence
Il est tentant de supposer qu'OpenAI utilise des vidéos d'influence hautement produites ou des journaux télévisés publiés sur la plate-forme pour former ses modèles, mais des recherches antérieures sur de grandes données de formation de modèles de langage montrent que le contenu le plus populaire n'est pas toujours le plus influent dans la formation des modèles d'IA. Une conversation pratiquement inaperçue entre trois amis pourrait avoir une valeur linguistique bien plus importante dans la formation d’un modèle linguistique de chatbot qu’un clip vidéo visionné des millions de fois.
Malheureusement, OpenAI et d’autres sociétés d’IA sont assez opaques quant à leurs supports de formation : elles ne précisent pas ce qui entre et ce qui ne rentre pas. La plupart du temps, les chercheurs peuvent déduire des problèmes liés aux données d’entraînement grâce à des biais dans les résultats des systèmes d’IA. Mais lorsque nous avons un aperçu des données d’entraînement, il y a souvent lieu de s’inquiéter. Par exemple, Human Rights Watch a publié un rapport le 10 juin 2024, qui montre qu'un ensemble de données de formation populaire comprend de nombreuses photos d'enfants identifiables.
L’histoire de l’autorégulation des grandes technologies est remplie d’objectifs mouvants. OpenAI en particulier est connu pour demander pardon plutôt que la permission et fait face à des critiques croissantes pour avoir privilégié le profit avant la sécurité.
Les préoccupations concernant l’utilisation de contenu généré par les utilisateurs pour former des modèles d’IA se concentrent généralement sur la propriété intellectuelle, mais il existe également des problèmes de confidentialité. YouTube est une archive vaste et lourde, impossible à examiner entièrement.
Les modèles formés sur un sous-ensemble de vidéos produites par des professionnels pourraient éventuellement constituer le premier corpus de formation d’une entreprise d’IA. Mais sans politiques fortes en place, toute entreprise qui ingère plus que la partie émergée de l'iceberg est susceptible d'inclure du contenu qui enfreint la règle de protection de la vie privée en ligne des enfants de la Federal Trade Commission, qui empêche les entreprises de collecter des données sur des enfants de moins de 13 ans sans préavis.
Avec le décret de l'année dernière sur l'IA et au moins une proposition prometteuse sur la table pour une législation complète sur la confidentialité, certains signes montrent que les protections juridiques des données des utilisateurs aux États-Unis pourraient devenir plus solides.
Avez-vous involontairement aidé à former ChatGPT ?
Les intentions d'un utilisateur YouTube ne sont tout simplement pas aussi cohérentes ou prévisibles que celles d'une personne publiant un livre, écrivant un article pour un magazine ou exposant un tableau dans une galerie. Mais même si l'algorithme de YouTube ignore votre téléchargement et qu'il n'obtient jamais plus de quelques vues, il peut être utilisé pour former des modèles comme ChatGPT et Gemini.
En ce qui concerne l’IA, votre vidéo de réunion de famille peut être tout aussi importante que celles mises en ligne par le géant des influenceurs Mr. Beast ou CNN.
Cet article est republié à partir de The Conversation sous une licence Creative Commons. Lisez l'article original.