L'ensemble de données révèle comment les communautés Reddit s'adaptent à l'IA

Des chercheurs de Cornell Tech ont publié un ensemble de données extrait de plus de 300 000 communautés publiques Reddit, et un rapport détaillant comment les communautés Reddit modifient leurs politiques pour lutter contre une augmentation du contenu généré par l’IA.

L’équipe a collecté des métadonnées et des règles communautaires des communautés en ligne, appelées subdreddits, pendant deux périodes en juillet 2023 et novembre 2024. Les chercheurs présenteront un article avec leurs résultats à l’Association of Computing Machinery Conference sur les facteurs humains dans les systèmes informatiques qui se tiennent le 26 avril au 1er mai à Yokohama, au Japon.

L’une des découvertes les plus frappantes des chercheurs est l’augmentation rapide des sous-verres avec des règles régissant l’utilisation de l’IA. Selon la recherche, le nombre de subreddits avec les règles de l’IA a plus que doublé en 16 mois, de juillet 2023 à novembre 2024.

« Ceci est important car cela démontre que la préoccupation de l’IA se propage dans ces communautés. Cela soulève la question de savoir si les communautés ont ou non les outils dont ils ont besoin pour appliquer efficacement et équitablement ces politiques », a déclaré Travis Lloyd, un doctorant à Cornell Tech et l’un des chercheurs qui a lancé le projet en 2023.

L’étude a révélé que les règles de l’IA sont les plus fréquentes dans les sous-verres axées sur les sujets de l’art et des célébrités. Ces communautés partagent souvent le contenu visuel et leurs règles répondent fréquemment aux préoccupations concernant la qualité et l’authenticité des images générées par l’IA, l’audio et la vidéo. Les sous-verts plus importants étaient également beaucoup plus susceptibles d’avoir ces règles, reflétant des préoccupations croissantes concernant l’IA parmi les communautés avec des bases utilisateur plus importantes.

« Ce document utilise des règles de la communauté pour fournir une première vue sur la façon dont nos communautés en ligne font face à la perturbation étendue potentielle qui est apportée par une IA générative », a déclaré le co-auteur Mor Naaman, professeur au Jacobs Technion-Cornell Institute de Cornell Tech, et de la science de l’information au Cornell Ann S. Bowers College of Computing and Information Science. « Regarder les actions des modérateurs et des changements de règles nous a donné un moyen unique de réfléchir à l’impact des différents sous-verts et résistent ou non à l’utilisation de l’IA dans leurs communautés. »

À mesure que l’IA générative évolue, les chercheurs exhortent les concepteurs de plate-forme à hiérarchiser les préoccupations de la communauté concernant la qualité et l’authenticité exposées dans les données. L’étude met également en évidence l’importance des choix de conception de plate-forme «sensibles au contexte», qui considèrent comment les différents types de communautés adoptent des approches variées pour réguler l’utilisation de l’IA.

Par exemple, la recherche suggère que les plus grandes communautés peuvent être plus enclines à utiliser des règles formelles et explicites pour maintenir la qualité du contenu et régir l’utilisation de l’IA. En revanche, des communautés plus tricères et plus personnelles peuvent s’appuyer sur des méthodes informelles, telles que les normes sociales et les attentes.

« Les plates-formes les plus réussies seront celles qui permettent aux communautés de développer et de faire respecter leurs propres normes contextuelles sur l’utilisation de l’IA. La chose la plus importante est que les plateformes ne adoptent pas une approche descendante qui force une seule politique d’IA sur toutes les communautés », a déclaré Lloyd. « Les communautés doivent être en mesure de choisir elles-mêmes, qu’elles souhaitent autoriser la nouvelle technologie, et les concepteurs de plateformes devraient explorer de nouveaux outils de modération qui peuvent aider les communautés à détecter l’utilisation de l’IA. »

En rendant leur ensemble de données public, les chercheurs visent à permettre de futures études qui peuvent explorer davantage l’auto-gouvernement de la communauté en ligne et l’impact de l’IA sur les interactions en ligne.

Les résultats sont publiés sur le arxiv serveur de préimprimée.