Un nouvel algorithme de détection d'anomalies dans les données surpasse les logiciels actuels

Un nouvel algorithme de détection d'anomalies dans les données surpasse les logiciels actuels

Un algorithme développé par des chercheurs de l'Université d'État de Washington peut mieux détecter les anomalies de données que les logiciels actuels de détection d'anomalies, y compris dans les données en streaming.

Les travaux, rapportés dans le Journal de recherche en intelligence artificielleapporte des contributions fondamentales aux méthodes d’intelligence artificielle (IA) qui pourraient avoir des applications dans de nombreux domaines nécessitant de trouver rapidement des anomalies dans de grandes quantités de données, comme la cybersécurité, la gestion du réseau électrique, la désinformation et les diagnostics médicaux.

Être capable de mieux trouver les anomalies signifierait pouvoir découvrir plus facilement une fraude, une maladie dans un contexte médical ou des informations inhabituelles importantes, comme un astéroïde dont les signaux chevauchent la lumière d’autres étoiles.

« Ce travail présente des avancées sur la manière dont l'IA et les humains peuvent travailler ensemble pour résoudre de manière synergique les problèmes de découverte d'anomalies », a déclaré Jana Doppa, professeure agrégée d'informatique titulaire de la chaire Huie-Rogers, qui a supervisé les travaux.

« Avec toute cette technologie d'IA générative, il y a tellement de données qui contiennent de la désinformation, et si vous voulez que des humains examinent tout cela, c'est impossible car c'est énorme. Si vous avez des ressources humaines limitées et que vous voulez détecter quelque chose comme de la désinformation rapidement, vous avez besoin d'algorithmes qui classent par ordre de priorité les éléments à étiqueter. »

La détection d’anomalies pose plusieurs problèmes qui n’apparaissent pas dans les problèmes d’IA traditionnels. Le nombre d’anomalies est très faible par rapport aux données normales, généralement moins de 2 %. De plus, il peut ne pas y avoir de grande différence entre une anomalie et des données normales.

« C'est un peu comme chercher des aiguilles dans une grosse botte de foin », a déclaré Doppa. « Et dans de nombreux domaines, on ne sait même pas quelles aiguilles chercher. »

Un autre problème est qu’avec de grandes quantités de données, l’IA trouvera souvent trop d’anomalies candidates à transmettre pour que les gens puissent les vérifier.

« Chaque fois que l'on a ces faux positifs, on perd beaucoup de temps, ce que nous voulons minimiser », a déclaré Shubhomoy Das, chercheur postdoctoral et auteur principal. « Comment pouvons-nous utiliser un retour d'information minimal de l'humain pour adapter le détecteur d'anomalies afin que les faux positifs diminuent au fil du temps et que nous découvrions des anomalies de plus en plus diverses ? »

Dans le cadre de leurs travaux, les chercheurs ont fourni de nouvelles conclusions théoriques et empiriques sur les raisons pour lesquelles un ensemble de modèles informatiques fonctionnait bien pour la détection d’anomalies. Ils ont découvert qu’avec une petite quantité de rétroaction étape par étape, l’algorithme d’IA peut apprendre beaucoup mieux et découvrir des anomalies beaucoup plus diverses par rapport à un système sans rétroaction. L’humain a besoin d’une explication concernant les anomalies candidates pour comprendre pourquoi l’IA les a sélectionnées pour l’étiquetage.

« Il est important de pouvoir interpréter ou expliquer certaines choses », a déclaré Rakibul Islam, doctorant et co-auteur de l'étude. « Nous avons réalisé que ces notions manquaient largement dans la littérature existante. »

Les chercheurs ont utilisé leurs nouvelles découvertes pour développer un algorithme qui analyse les anomalies par lots, ce qui a amélioré la capacité à découvrir divers types d'anomalies. Ainsi, dans le cas de données de carte de crédit anormales, l'algorithme découvre différents types de comportements inhabituels, comme les achats anormalement chers d'une personne et/ou ceux effectués dans un endroit inhabituel.

Contrairement aux modèles d’IA actuels, l’algorithme développé par les chercheurs est capable de gérer des données en continu, ce qui est courant dans de nombreuses applications du monde réel. Leur algorithme peut détecter et quantifier les dérives dans la distribution des données, puis prendre des mesures correctives.

« Le problème de la découverte d’anomalies lorsque les données arrivent dans un flux a été moins étudié », a déclaré Doppa.

Le code informatique et les données des chercheurs sont accessibles au public et ils prévoient désormais de déployer leurs algorithmes dans des systèmes réels pour mesurer leur précision et leur facilité d'utilisation.