Nettoyer les réseaux sociaux avec le machine learning

Crédit : domaine public CC0

Le spam de contenu pour adultes ou pornographique est un problème croissant sur les réseaux sociaux. De nouvelles recherches dans le Journal international de l’intelligence d’affaires et de l’exploration de données explique comment un tel contenu peut être rapidement détecté et supprimé en temps opportun.

Deepali Dhaka, Surbhi Kakar et Monica Mehrotra de Jamia Millia Islamia (Université centrale) à Jamia Nagar, New Delhi, Inde, expliquent comment l’expérience utilisateur générale et celle des jeunes utilisant les médias sociaux pourraient être améliorées si le contenu de spam obscène peut être filtré efficacement et rapidement. Les outils d’apprentissage automatique sont souvent la voie à suivre pour détecter des types de contenu particuliers et l’équipe a démontré qu’un de ces outils, XGboost, peut détecter le contenu de spam pour adultes avec une précision de plus de 90 %. Il s’agit de l’algorithme de classification le plus efficace des six testés et adaptés par l’équipe pour détecter les spams pornographiques sur Twitter.

Ainsi, moins de dix mises à jour sur cent signalées comme spam pour adultes seraient des faux positifs. L’approche de l’équipe ne nécessitait d’analyser qu’un petit nombre de fonctionnalités, le système de valeurs, l’entropie des mots, la diversité lexicale et les incorporations de mots, afin de pouvoir extraire les mises à jour de spam pour adultes du flux général de mises à jour sur l’un des plus connus. plateformes de médias sociaux, Twitter.

La détection positive est inhérente au fait qu’en général, les utilisateurs quotidiens de la plate-forme discutent d’une grande variété de sujets dans différents contextes et écrivent et partagent de ce que l’on pourrait appeler une manière organique. En revanche, les spammeurs et les spammeurs pornographiques, dans ce cas, ont tendance à avoir une approche fixe ou même entièrement automatisée de leurs mises à jour, une diversité de sujets limitée, comme on pourrait s’y attendre, et un lexique très limité. Ces caractéristiques et d’autres des messages de spam les rendent reconnaissables par l’algorithme.