L’apprentissage automatique décrypte les fake news
Des recherches publiées dans le Journal international de l’informatique en nuage examine comment l’apprentissage automatique pourrait nous permettre d’analyser la nature et les caractéristiques des mises à jour des médias sociaux et de détecter lesquelles de ces mises à jour ajoutent de l’eau à la rumeur plutôt que d’être factuelles.
Les fausses nouvelles sont avec nous depuis que les premiers potins ont transmis une rumeur à l’époque. Mais, avec l’avènement des médias sociaux, il est désormais beaucoup plus facile de diffuser de fausses nouvelles, de la désinformation et de la propagande auprès d’un vaste public mondial avec peu de contraintes. Une rumeur peut faire ou défaire une réputation. De nos jours, cela pourrait se produire dans le monde entier grâce à la chambre d’écho amplifiée des médias sociaux.
Mohammed Al-Sarem, Muna Al-Harby, Faisal Saeed et Essa Abdullah Hezzam de l’Université Taibah de Médine, en Arabie saoudite, ont étudié les différentes approches de prétraitement de texte pour aborder les vastes quantités de données qui affluent quotidiennement des médias sociaux. . L’efficacité de ces approches dans l’analyse ultérieure de la détection des rumeurs est essentielle pour déterminer dans quelle mesure les fausses nouvelles peuvent être repérées et stoppées. L’équipe a testé diverses approches sur un ensemble de données de tweets liés à l’actualité politique en provenance d’Arabie saoudite.
Le prétraitement peut examiner les trois caractéristiques les plus pertinentes d’une mise à jour avant que l’analyse de texte ne soit effectuée et cloisonner les différentes mises à jour en conséquence : Premièrement, il peut examiner l’utilisation des points d’interrogation et d’exclamation et le nombre de mots. Deuxièmement, il peut vérifier si un compte est vérifié ou possède des propriétés plus souvent associées à un faux compte ou à un compte bot, comme le nombre de tweets, les réponses, les retweets, etc. Troisièmement, il peut examiner les fonctionnalités basées sur l’utilisateur, telles que l’utilisateur nom et le logo ou la photo de profil de l’utilisateur.
Les chercheurs ont découvert que le prétraitement peut améliorer considérablement l’analyse lorsque la sortie est transmise à l’un des classificateurs SVM (Support Vector Machine), Bayes naïf multinomial (MNB) et K-plus proche voisin (KNN). Cependant, ces classificateurs réagissent différemment selon la combinaison de techniques de prétraitement utilisée. Par exemple, supprimer les mots vides et nettoyer les balises de codage, telles que HTML, la radicalisation et la tokenisation.