La méthode d'apprentissage automatique réduit les coûts de détection de fraude en générant des étiquettes précises à partir d'ensembles de données déséquilibrés

La fraude est répandue aux États-Unis et de plus en plus motivée par la technologie. Par exemple, 93% de la fraude par carte de crédit implique désormais un accès à distance, pas un vol physique. En 2023, les pertes de fraude ont dépassé 10 milliards de dollars pour la première fois.

Le bilan financier est stupéfiant: la fraude par carte de crédit coûte 5 milliards de dollars par an, affectant 60% des titulaires de carte américains, tandis que le vol d’identité a entraîné 16,4 milliards de dollars de pertes en 2021. La fraude à Medicare coûte 60 milliards de dollars chaque année, et les pertes gouvernementales varient de 233 milliards de dollars à 2003 $ par an, avec des paiements incorrects totalisant 2,7 milliards de dollars depuis 2003.

L’apprentissage automatique joue un rôle essentiel dans la détection de fraude en identifiant les modèles et les anomalies en temps réel. Il analyse les grands ensembles de données pour repérer un comportement normal et signaler des écarts importants, tels que des transactions inhabituelles ou un accès au compte. Cependant, la détection de fraude est difficile car les cas de fraude sont beaucoup plus rares que les cas normaux, et les données sont souvent désordonnées ou non marquées.

Pour relever ces défis, les chercheurs du College of Engineering and Computer Science de la Florida Atlantic University ont développé une nouvelle méthode pour générer des étiquettes de classe binaires dans des ensembles de données très déséquilibrés, offrant une solution prometteuse pour la détection de fraude dans des secteurs comme les soins de santé et la finance. Cette approche fonctionne sans s’appuyer sur les données étiquetées, un avantage clé dans les secteurs où les problèmes de confidentialité et le coût de l’étiquetage sont des obstacles importants.

L’équipe a testé sa méthode sur deux ensembles de données à grande échelle du monde réel avec un déséquilibre grave de classe (moins de 0,2%): transactions par carte de crédit européennes (plus de 280 000 à partir de septembre 2013) et les réclamations Medicare Part D (plus de 5 millions de 2013 à 2019), toutes deux étiquetées comme frauduleuses ou authentiques. Ces ensembles de données, avec des cas de fraude de loin en infériorité numérique par les cas de non-fraude, fournissent un défi du monde réel idéal pour tester les méthodes de détection de fraude.

Résultats de l’étude, publiée dans le Journal of Big Datamontrez que cette nouvelle méthode d’étiquetage relève efficacement le défi de l’étiquetage des données gravement déséquilibrées dans un cadre non supervisé. De plus, et contrairement aux méthodes traditionnelles, cette approche a évalué directement les étiquettes de fraude et de non-fraude nouvellement générées sans avoir besoin de compter sur un classificateur supervisé.

« L’utilisation de l’apprentissage automatique dans la détection des fraudes apporte de nombreux avantages », a déclaré Taghi Khoshgoftaar, Ph.D., auteur principal et professeur de Motorola au Département de génie électrique et informatique de la FAU. «Les algorithmes d’apprentissage automatique peuvent étiqueter les données beaucoup plus rapidement que l’annotation humaine, améliorant considérablement l’efficacité. Notre méthode représente un progrès majeur dans la détection de fraude, en particulier dans les ensembles de données très déséquilibrés.

« Il réduit la charge de travail en minimisant les cas qui nécessitent une inspection supplémentaire, ce qui est crucial dans des secteurs comme l’assurance-maladie et la fraude par carte de crédit, où le traitement rapide des données est vital pour prévenir les pertes financières et améliorer l’efficacité opérationnelle. »

L’étude montre que la nouvelle méthode a surpassé l’algorithme de forêt d’isolement largement utilisé, fournissant un moyen plus efficace d’identifier la fraude tout en minimisant le besoin d’une enquête plus approfondie. Cela confirme la capacité de la méthode à générer des étiquettes de classe binaires fiables pour la détection de fraude, même dans les ensembles de données difficiles. Il offre une solution évolutive pour détecter la fraude sans s’appuyer sur des données étiquetées coûteuses et longues, ce qui nécessite une contribution d’experts manuels importante et est à forte intensité de ressources, en particulier pour les grands ensembles de données.

« Notre méthode génère des étiquettes pour la fraude ou les cas positifs et non fraude ou négatifs, qui sont ensuite raffinés pour minimiser le nombre d’étiquettes de fraude », a déclaré Mary Anne Walauskis, premier auteur et doctorat. candidat au Département de génie électrique et informatique du FAU. « En appliquant notre méthode, nous minimions les faux positifs, ou en d’autres termes, de véritables cas marqués comme une fraude, ce qui est la clé pour améliorer la détection de la fraude.

« Cette approche garantit que seuls les cas de fraude les plus identifiés en toute confiance sont conservés, améliorant la précision et réduisant les alarmes inutiles, ce qui rend la détection de fraude plus efficace. »

La méthode combine deux stratégies: un ensemble de trois techniques d’apprentissage non supervisées utilisant la bibliothèque Scikit-Learn et une approche de gradient de centile. L’objectif est de minimiser les faux positifs en se concentrant sur les cas de fraude les plus en toute confiance. Ceci est réalisé en affinant les étiquettes et en réduisant les erreurs dans les méthodes non supervisées (EUM) et l’approche de gradient de centile (PGM).

Les étiquettes raffinées créent un sous-ensemble d’étiquettes confiantes qui sont très susceptibles d’être exactes. Ces étiquettes sont ensuite utilisées pour créer des intervalles de confiance et finaliser l’étiquetage, nécessitant des connaissances minimales de domaine pour sélectionner le nombre d’instances positives.

« Cette approche innovante est très prometteuse pour les industries en proie à la fraude, offrant un moyen plus accessible et efficace d’identifier les activités frauduleuses et de protéger les systèmes financiers et de soins de santé », a déclaré Stella Batalama, Ph.D., doyen du Collège d’ingénierie et d’informatique.

« L’impact de la fraude va au-delà des pertes financières, notamment la détresse émotionnelle, les dommages de réputation et la réduction de la confiance dans les organisations. La fraude aux soins de santé, en particulier, sape la qualité des soins et les coûts, tandis que le vol d’identité peut provoquer un stress grave. La lutte contre la fraude est essentielle pour atténuer son large impact sociétal. »

Pour l’avenir, l’équipe de recherche prévoit d’améliorer la méthode en automatisant la détermination du nombre optimal d’instances positives, améliorant encore l’efficacité et l’évolutivité des applications à grande échelle.

L’article de revue actuel, «Génération de labels non supervisés pour les données de fraude gravement déséquilibrée», est une version mise à jour des travaux précédents des chercheurs », Confiry Labels: A Novel Approach to New Class Étiquetage et évaluation sur des données hautement déséquilibrées.

Le document original a été présenté et publié à la 36e conférence internationale de l’IEEE sur les outils avec intelligence artificielle (ICTAI) en novembre 2024, où il a remporté le prix du meilleur papier étudiant. ICTAI, avec un taux d’acceptation d’environ 25% sur plus de 400 soumissions, est une prestigieuse conférence.