Une méthode de sélection de fonctionnalités pour la catégorisation de texte
Pour la catégorisation de texte, il est nécessaire de sélectionner un ensemble de caractéristiques (termes) avec une discrimination élevée en utilisant la sélection de caractéristiques. Dans la sélection de caractéristiques de texte, Accuracy2 (ACC2) traite les termes avec la même différence absolue de débit de document mais une discrimination différente de manière égale, ce qui est déraisonnable. Les méthodes améliorées existantes (mesure de différence normalisée (NDM), rapport max-min (MMR) et mesure de comparaison trigonométrique (TCM)) basées sur ACC2 peuvent confondre l’importance des termes rares et clairsemés en raison du défi pour la sélection des paramètres.
Pour résoudre les problèmes, une équipe de recherche dirigée par Li Zhang a publié ses nouvelles recherches dans Frontières de l’informatique.
L’équipe a proposé le critère de maximisation de la différence maximale (MDMC), qui introduit un nouveau poids basé sur l’occupation des informations de classe et le combine avec ACC2 pour estimer l’importance des termes. En conséquence, MDMC peut éviter de surestimer les termes clairsemés.
Dans la recherche, ils analysent les distributions de poids des méthodes (ACC2, NDM, MMR, TCM et MDMC) et montrent intuitivement le mécanisme de MDMC pour estimer l’importance des termes, qui est montré dans les ressources en ligne. Les expériences démontrent que MDMC est capable d’attraper plus de termes discriminants sans aucun paramètre que les autres filtres quel que soit le classificateur, et montre sa supériorité sur les autres méthodes de réduction de dimensionnalité (algorithme sinus cosinus amélioré (ISCA), analyse en composantes principales (ACP) et analyse non négative. factorisation matricielle (NMF) ).
Fourni par la presse de l’enseignement supérieur