Un modèle d'IA « extrêmement performant » peut se démarquer du « bruit » des réseaux sociaux
Les médias sociaux offrent aux chercheurs une mine de données qui leur permet de comprendre comment les organisations et les individus utilisent la technologie pour communiquer avec leur base d’abonnés et la développer. Cependant, l’analyse manuelle du contenu peut prendre du temps, voire, dans certains cas, être tout simplement impossible en raison du volume de données. Si les modèles d’apprentissage automatique peuvent être utiles, ils présentent également leur lot de défis.
Viviana Chiu Sik Wu, professeure adjointe de politique publique à l’Université du Massachusetts à Amherst, a mené une revue systématique de 43 études analysant les données des réseaux sociaux provenant d’organisations philanthropiques et à but non lucratif. Elle a ensuite conçu et testé un modèle associant l’apprentissage automatique à la supervision humaine pour analyser le contenu plus efficacement.
L'étude apparaît dans le Journal de la gouvernance chinoise.
Wu a constaté que la plupart des études s’appuyaient largement sur le codage manuel pour analyser des ensembles de données relativement petits, sans profiter des avantages de l’automatisation et de l’évolutivité offerts par l’intelligence artificielle. Dans les cas où l’IA était utilisée, elle était souvent entravée par les nuances linguistiques et d’autres variables qui surviennent pendant le processus de formation pour les grands modèles linguistiques, explique-t-elle.
« Nous avons vu de nombreuses recherches utilisant la modélisation thématique, mais sans entraîner correctement les données, ces modèles non supervisés peuvent introduire des biais et du bruit dans les résultats », explique Wu.
En outre, elle note que de nombreuses études ont omis des catégories entières de données, qui peuvent être organisées en trois groupes : le texte (contenu du message), l’engagement (j’aime, commentaires, retweets, etc.) et les données du réseau (comment les abonnés, les amis, etc. sont interconnectés).
Wu a utilisé un échantillon codé pour développer ce qu'elle appelle un modèle de « boosting extrême », qui exploite la puissance de calcul associée aux capacités humaines pour classer les messages dans des ensembles spécifiques de catégories préconçues, connues sous le nom d'apprentissage automatique supervisé.
Bien que l'apprentissage automatique non supervisé puisse identifier des modèles et des relations cachés, pour l'analyse de contenu, « il peut être très peu fiable sans un ensemble substantiel d'exemples de formation pour commencer », prévient l'étude.
Pour tester son modèle, Wu a collecté 66 749 tweets provenant des comptes Twitter/X de 192 fondations communautaires aux États-Unis entre 2017 et 2018. Elle a analysé manuellement 15 % des messages et les a utilisés pour former et tester divers algorithmes afin d'identifier le meilleur modèle prédictif pour analyser automatiquement les 56 718 tweets restants.
Le modèle a été chargé d’identifier les publications liées à l’engagement du public, qui sont particulièrement difficiles à distinguer des autres messages sur la collecte de fonds, les subventions, etc. en raison d’un contenu qui chevauche souvent d’autres sujets.
Les résultats ont permis de recueillir 6 331 tweets d'engagement public, qui ont été vérifiés. Bien que le modèle de « boosting extrême » soit prometteur, Wu prévient qu'il nécessite des améliorations supplémentaires pour atteindre la plus grande précision.
Ce qui est clair, dit-elle, c’est que combiner l’analyse manuelle du contenu avec l’apprentissage automatique automatisé peut être un outil puissant pour analyser des ensembles de données de médias sociaux qui sont tout simplement trop volumineux pour être traités manuellement.
« Les résultats peuvent être étendus à des situations dans d'autres domaines bien au-delà des organisations à but non lucratif pour analyser des ensembles de données d'observation massifs sur les médias sociaux », explique Wu.
Elle souligne toutefois que l’accès à ces données est devenu plus difficile pour les chercheurs ces dernières années, car certaines plateformes, dont Twitter/X et Facebook, ont imposé des limites supplémentaires aux données qu’elles mettent à la disposition des chercheurs et du public.
Ces changements incitent les chercheurs à s’intéresser à d’autres plateformes, telles que Reddit et TikTok.
« Nous devons être plus créatifs et innovants dans la collecte des données », dit-elle.