La méthode de détection innovante rend l'IA plus intelligente en nettoyant les mauvaises données avant son apprentissage

Dans le monde de l'apprentissage automatique et de l'intelligence artificielle, les données propres sont tout. Même un petit nombre d'exemples mal étiquetés connus sous le nom de bruit d'étiquette peuvent faire dérailler les performances d'un modèle, en particulier celles comme les machines de vecteur de support (SVM) qui s'appuient sur quelques points de données clés pour prendre des décisions.

Les SVM sont un type d'algorithme d'apprentissage automatique largement utilisé, appliqué dans tout, de la reconnaissance de l'image et de la parole aux diagnostics médicaux et à la classification du texte. Ces modèles fonctionnent en trouvant une frontière qui sépare le mieux différentes catégories de données. Ils comptent sur un sous-ensemble petit mais crucial des données de formation, appelées vecteurs de support, pour déterminer cette frontière. Si ces quelques exemples sont incorrectement étiquetés, les limites de décision qui en résultent peuvent être imparfaites, conduisant à de mauvaises performances sur les données du monde réel.

Maintenant, une équipe de chercheurs du Center for Connected Autonomy and Artificial Intelligence (CA-AI) au sein du College of Engineering and Computer Science de la Florida Atlantic University and Collaborators a développé une méthode innovante pour détecter et éliminer automatiquement les étiquettes défectueuses avant qu'un modèle ne soit toujours formé – rendre l'IA plus intelligent, plus rapide et plus fiable.

Avant même que l'IA ne commence à apprendre, les chercheurs nettoient les données à l'aide d'une technique de mathématiques qui recherche des exemples étranges ou inhabituels qui ne correspondent pas tout à fait. Ces «valeurs aberrantes» sont supprimées ou signalées, en s'assurant que l'IA obtient des informations de haute qualité dès le début. Le document est publié dans Transactions IEEE sur les réseaux de neurones et les systèmes d'apprentissage.

« Les SVM sont parmi les classificateurs les plus puissants et les plus utilisés dans l'apprentissage automatique, avec des applications allant de la détection du cancer au filtrage des spam », a déclaré Dimitris Pados, Ph.D., éminent professeur d'ingénierie et informatique de FAU dans le Département de génie électrique et en informatique, directeur de CA-AI et de la FAU (I-Sense) Faculty babeld.

« Ce qui les rend particulièrement efficaces – mais aussi uniquement vulnérables – est qu'ils s'appuient sur un petit nombre de points de données clés, appelés vecteurs de support, pour tracer la ligne entre différentes classes. Si même l'un de ces points est mal étiqueté – par exemple, si une tumeur maligne est incorrectement marquée comme bénin – elle peut déformer toute la compréhension du modèle du modèle.

Les conséquences pourraient être graves, que ce soit un diagnostic de cancer manqué ou un système de sécurité qui ne parvient pas à signaler une menace. Notre travail consiste à protéger les modèles – tout apprentissage automatique et modèle d'IA, y compris les SVM, de ces dangers cachés en identifiant et en supprimant ces cas mal étiquetés avant de pouvoir faire du mal. «

La méthode basée sur les données qui « nettoie » l'ensemble de données de formation utilise une approche mathématique appelée analyse des composants principaux de la norme L1. Contrairement aux méthodes conventionnelles, qui nécessitent souvent un réglage des paramètres manuels ou des hypothèses sur le type de bruit présent, cette technique identifie et supprime les points de données suspects dans chaque classe purement en fonction de la façon dont ils s'adaptent au reste du groupe.

« Les points de données qui semblent s'écarter considérablement des autres – souvent en raison des erreurs d'étiquette – sont signalés et supprimés », a déclaré Pados. « Contrairement à de nombreuses techniques existantes, ce processus ne nécessite aucun réglage manuel ou intervention de l'utilisateur et peut être appliqué à n'importe quel modèle d'IA, ce qui le rend à la fois évolutif et pratique. »

Le processus est robuste, efficace et entièrement sans contact, même gérant la tâche notoirement délicate de sélection de rang (qui détermine le nombre de dimensions à conserver pendant l'analyse) sans entrée utilisateur.

Les chercheurs ont beaucoup testé leur technique sur des ensembles de données réels et synthétiques avec différents niveaux de contamination par les étiquettes. Dans l'ensemble, il a produit des améliorations cohérentes et notables de la précision de la classification, démontrant son potentiel en tant qu'étape de prétraitement standard dans le développement de systèmes d'apprentissage automatique à haute performance.

« Ce qui rend notre approche particulièrement convaincante, c'est sa flexibilité », a déclaré Pados. « Il peut être utilisé comme une étape de prétraitement des plug-and-play pour tout système d'IA, quel que soit la tâche ou l'ensemble de données. Et ce ne sont pas seulement les tests extensifs sur des ensembles de données bruyants et propres, y compris des références bien connues comme l'ensemble de données du cancer du sein du Wisconsin, ont montré des améliorations cohérentes dans la précision de classification.

« Même dans les cas où les données de formation originales sont apparues sans faille, notre nouvelle méthode a encore amélioré les performances, ce qui suggère que le bruit d'étiquette subtil et caché peut être plus courant qu'on ne le pensait auparavant. »

Pour l'avenir, la recherche ouvre la porte à des applications encore plus larges. L'équipe souhaite explorer comment ce cadre mathématique pourrait être étendu pour s'attaquer aux problèmes plus profonds dans la science des données tels que la réduction du biais de données et l'amélioration de l'exhaustivité des ensembles de données.

« Alors que l'apprentissage automatique s'intègre profondément dans des domaines à enjeux élevés comme les soins de santé, la finance et le système judiciaire, l'intégrité des données à l'origine de ces modèles n'a jamais été aussi importante », a déclaré Stella Batalama, Ph.D., doyen du FAU College of Engineering and Computer Science.

« Nous demandons aux algorithmes de prendre des décisions qui ont un impact sur la vie réelle – diagnostiquer les maladies, évaluer les demandes de prêt, même en informant des jugements juridiques. Si les données de formation sont erronées, les conséquences peuvent être dévastatrices. C'est pourquoi les innovations comme celle-ci sont si critiques.

« En améliorant la qualité des données à la source – avant que le modèle soit même formé – nous ne rendrons pas seulement l'IA plus précis; nous le rendons plus responsable. Ce travail représente une étape significative vers la création de systèmes d'IA en qui nous pouvons avoir confiance pour effectuer de manière assez, de manière fiable et éthique dans le monde réel. »