Les chercheurs développent une nouvelle méthode de sélection des fonctionnalités pour les données industrielles de l'échantillon limité

Les chercheurs développent une nouvelle méthode de sélection des fonctionnalités pour les données industrielles de l’échantillon limité

Une équipe de recherche du Ningbo Institute of Materials Technology and Engineering de l’Académie chinoise des sciences a introduit une nouvelle méthode de sélection de fonctionnalités en supprimant l’entropie du bruit dans les informations mutuelles. Cette étude a été publiée dans Transactions IEEE sur l’informatique industrielle.

La sélection des fonctionnalités, une étape critique de l’apprentissage automatique et de l’exploration de données, vise à réduire la dimensionnalité en éliminant les caractéristiques non pertinentes ou redondantes, améliorant ainsi les performances du modèle. Cependant, les données industrielles, souvent caractérisées par une petite taille d’échantillon et une dimensionnalité élevée, posent des défis importants, y compris des coûts de calcul élevés et le risque de sur-ajustement.

Les méthodes traditionnelles ont du mal à maintenir la précision lorsqu’ils traitent de telles données, en particulier en présence de bruit du capteur, qui peuvent fausser les mesures d’informations mutuelles et dégrader les performances de classification.

Pour surmonter ces limitations, l’équipe de recherche a proposé une approche en modélisant le bruit des caractéristiques en tant que distribution normale censurée. Tirant parti du principe de l’entropie maximale, ils ont déterminé l’entropie du bruit en résolvant l’équation de variance dans la transmission.

De plus, les chercheurs ont développé une métrique d’information mutuelle sans bruit pour évaluer la pertinence d’une étiquette et des caractéristiques corrompues du bruit. Ainsi, l’entropie du bruit des caractéristiques inconnu dans les informations mutuelles a été supprimée tout en conservant des échantillons bruyants, éliminant l’impact du bruit dans la classification avec des échantillons limités.

La méthode proposée surpasse les techniques conventionnelles en fournissant une évaluation plus fiable du bruit dans tous les échantillons bruyants. En s’appuyant sur cela, les chercheurs ont introduit un nouveau critère appelé pertinence maximale sans bruit et une redondance minimale (MNFR-MR), qui assure une sélection de fonctionnalités robuste.

Cette approche aborde un goulot d’étranglement critique dans le traitement des données industrielles, en particulier dans les scénarios où la taille des échantillons est limitée. Alors que les industries adoptent de plus en plus des technologies basées sur les données telles que l’Internet des objets industrielles (IIoT) et les jumeaux numériques, cette méthode est prometteuse pour libérer des informations exploitables et améliorer la prise de décision dans divers domaines.

Cette étude fait non seulement progresser la compréhension théorique de la sélection des fonctionnalités dans des ensembles de données bruyants et à haute dimension, mais propose également des solutions pratiques pour des applications industrielles réelles, ouvrant la voie à une intelligence plus précise et efficace des données.