Une technique d'apprentissage automatique prédit les fraudes comptables probables dans les chaînes d'approvisionnement

Une technique d'apprentissage automatique prédit les fraudes comptables probables dans les chaînes d'approvisionnement

Les fraudeurs comptables étant de plus en plus sophistiqués dans leurs techniques, la détection des fraudes doit être améliorée. Heureusement, un groupe de chercheurs a conçu un nouveau « détective » d'apprentissage automatique capable d'analyser non seulement la fraude dans une seule entreprise, mais aussi de prédire les fraudes probables sur l'ensemble des chaînes d'approvisionnement et des secteurs.

Un article décrivant l'approche de l'équipe a été publié dans la revue Exploration et analyse de Big Data le 28 août.

La fraude aux états financiers, ou plus communément la fraude comptable, est peut-être une forme moins fréquente de fraude d'entreprise, mais elle est de loin le délit le plus coûteux au monde. Les cas les plus célèbres de délits en col blanc peuvent être considérés comme des fraudes comptables, lorsqu'une entreprise manipule les chiffres de ses états financiers ou d'autres données d'évaluation afin de se faire paraître plus rentable qu'elle ne l'est.

L’effondrement de la société énergétique américaine Enron, la plus grande faillite de l’histoire des États-Unis, est dû à une manipulation des comptes par le groupe en collusion avec son cabinet comptable. En 2008, Lehman Brothers a déclaré faillite pour insolvabilité, après avoir dissimulé environ 50 milliards de dollars de dettes grâce à une fraude au bilan. À la fin des années 2010, le conseiller en investissement américain Bernie Madoff a réussi à escroquer ses clients pour la somme colossale de 65 milliards de dollars.

Les investisseurs ne sont pas les seuls à être touchés par la fraude financière. Des centaines de milliers d’emplois peuvent être perdus, des communautés dévastées et, dans les cas les plus extrêmes, la stabilité des économies nationales peut être menacée par des répercussions.

Malgré la menace que représente une telle fraude, les autorités ont beaucoup de mal à la détecter. Des signaux d'alarme tels qu'une hausse soudaine des performances d'une entreprise juste avant la fin d'une période de reporting, ou une croissance fulgurante des ventes alors que celles des concurrents restent au ralenti, peuvent s'avérer n'être que le résultat d'une bonne chance ou d'un produit de qualité supérieure. C'est pourquoi, depuis des décennies, les auditeurs judiciaires ont recours à l'analyse statistique pour repérer les manipulations.

Mais ces efforts nécessitent une main-d’œuvre considérable et l’examen d’énormes volumes de données. Par conséquent, les autorités ont tendance à s’appuyer sur des audits aléatoires, ce qui signifie que la plupart des entreprises ne sont pas contrôlées.

« Pire encore, ces dernières années, les fraudeurs ont utilisé des techniques de plus en plus sophistiquées », a déclaré Chenxu Wang, auteur principal de l'étude et professeur associé à l'École de génie logiciel et au Laboratoire clé des réseaux intelligents et de la sécurité des réseaux de l'Université Jiaotong de Xi'an. « C'est une course aux armements mathématique sans fin entre les autorités et les fraudeurs. »

« Ce qu'il faut, c'est un algorithme efficace et précis pour identifier automatiquement les fraudes comptables et laisser derrière nous l'époque des audits aléatoires », a déclaré Mengqin Wang, également de l'Université Jiaotong de Xi'an.

Certains mathématiciens et informaticiens spécialisés dans ce domaine ont obtenu des résultats positifs grâce à l'apprentissage automatique. Mais jusqu'à présent, cette approche n'a été appliquée qu'à des entreprises individuelles.

« Cela ne tient pas compte des relations souvent complexes entre différentes entreprises, qui peuvent également révéler des indices de fraude », a déclaré Yi Long, un autre membre de l'équipe, mais qui travaille au Shenzhen Finance Institute, à l'Université chinoise de Hong Kong, à Shenzhen. « Un cabinet comptable qui s'associe à une entreprise pour frauder ses états financiers a une probabilité accrue de se livrer à des activités frauduleuses avec d'autres entreprises. »

Et les relations frauduleuses ne se propagent pas seulement entre les cabinets comptables et leurs clients. Les pratiques de fraude comptable peuvent se propager de haut en bas des chaînes d’approvisionnement ou se perpétuer horizontalement dans plusieurs secteurs.

Mais intégrer des données au-delà d’une seule entreprise implique une augmentation proportionnelle des dépenses informatiques. De plus, les approches d’apprentissage automatique existantes souffrent d’un grave déséquilibre dans les échantillons utilisés pour entraîner le modèle informatique à classer un élément comme frauduleux, car les échantillons normaux et non frauduleux sont nettement plus nombreux que les cas de fraude réels. Ce déséquilibre peut conduire à des modèles informatiques biaisés qui donnent la priorité à la classe majoritaire, les cas non frauduleux, ce qui rend difficile la détection précise des activités frauduleuses.

Pour surmonter tous ces défis, l’équipe de recherche a développé une technique d’apprentissage automatique combinée à des méthodes mathématiques tirées du domaine de la théorie des graphes.

Le détective de fraude financière à intelligence artificielle de pointe qu'ils ont conçu utilise un graphe, une structure qui représente mathématiquement les connexions ou relations (décrites comme des arêtes) entre différentes entreprises, individus et produits (décrits comme des nœuds). Les graphes multi-relationnels permettent de multiples types d'arêtes, permettant la représentation de diverses relations entre les nœuds, et offrent une représentation plus complète de la complexité des connexions entre eux.

Le détective lui-même, appelé FraudGCN, est un réseau convolutionnel graphique, ou GCN, un type de réseau neuronal conçu pour fonctionner sur des données structurées en graphes. Contrairement aux réseaux neuronaux traditionnels qui fonctionnent sur des données de type grille telles que des images, les GCN peuvent fonctionner sur des données représentées sous forme de graphes.

FraudGCN construit lui-même un graphique multi-relationnel représentant diverses connexions sectorielles, des liens de chaîne d'approvisionnement et des pratiques d'audit partagées par des cabinets comptables. Ce faisant, il capture des informations riches issues de ces relations, en particulier des détails découverts dans des « quartiers » particuliers de nœuds dans les graphiques. En agrégeant ces informations, FraudGCN améliore non seulement la capacité à identifier des modèles indiquant des activités frauduleuses potentielles existantes, mais également à prédire où elles sont susceptibles de se produire.

Enfin, contrairement aux efforts précédents en matière de détection de fraude assistée par apprentissage automatique, FraudGCN est capable de gérer l’ajout de nouveaux nœuds sans qu’il soit nécessaire de recycler le modèle, améliorant ainsi son adaptabilité et son évolutivité.

L'équipe a testé FraudGCN sur un ensemble de données réelles provenant de sociétés chinoises cotées en bourse pour évaluer ses performances et a constaté qu'il surpassait les approches de pointe de 3,15 % à 3,86 %.

À l’avenir, l’équipe espère développer son approche pour pouvoir traiter avec des entreprises de taille moyenne, et pas seulement avec des plus grandes.

Fourni par Tsinghua University Press