L'apprentissage automatique des systèmes binaires "oui/non" peut améliorer les diagnostics médicaux, l'analyse des risques financiers, etc.

L’apprentissage automatique des systèmes binaires « oui/non » peut améliorer les diagnostics médicaux, l’analyse des risques financiers, etc.

Crédit : Pixabay/CC0 Domaine public

Semblable à une souris courant dans un labyrinthe, prenant des décisions « oui » ou « non » à chaque intersection, les chercheurs ont développé un moyen pour les machines d’apprendre rapidement tous les rebondissements d’un système de données complexe.

« Notre méthode peut aider à améliorer le diagnostic des maladies urinaires, l’imagerie des maladies cardiaques et l’analyse des risques financiers », a rapporté Abd-AlRahman Rasheed AlMomani du campus Prescott de l’Université aéronautique Embry-Riddle, en Arizona.

La recherche a été acceptée pour l’édition du 11 novembre de la revue Motifs avec Jie Sun et Erik Bollt du Center for Complex Systems Science de l’Université Clarkson. L’objectif du travail est d’analyser plus efficacement les données binaires (« booléennes »).

« Nous pouvons voir tout ce qui nous entoure comme un réseau d’objets et de variables qui interagissent les uns avec les autres », a déclaré AlMomani, professeur adjoint de science des données et de mathématiques à Embry-Riddle. « La compréhension de ces interactions peut améliorer nos prédictions et la gestion de toute une série de réseaux, des réseaux de régulation de la biologie et des gènes, jusqu’aux vols aériens. »

Les données booléennes ou « oui/non » sont fréquemment utilisées dans le domaine de la génétique, où les états des gènes peuvent être décrits comme « activés » (avec une expression génique élevée) ou « désactivés » (avec peu ou pas d’expression génique), AlMomani expliqué. L’apprentissage des fonctions booléennes et des réseaux basés sur des données d’observation bruyantes est essentiel pour déchiffrer de nombreux problèmes scientifiques et techniques différents, de la dynamique des pollinisateurs et du ciblage des médicaments à l’évaluation du risque de tuberculose d’une personne.

Le défi, a expliqué AlMomani, est que la méthode standard d’apprentissage des réseaux booléens – appelée REVEAL (pour algorithme d’ingénierie inverse pour l’interférence des architectures de réseaux génétiques) – mélange de nombreuses sources d’informations différentes. L’approche REVEAL augmente ainsi la complexité et les coûts de calcul, et les chercheurs doivent atténuer le bruit pour analyser toutes les données. De plus, la méthode REVEAL n’est pas optimale pour résoudre les problèmes de biologie quantitative, qui nécessitent de découvrir des facteurs de causalité.

Pour éliminer plus rapidement les réponses incorrectes, AlMomani et ses collègues ont utilisé une méthode appelée entropie de causalité optimale booléenne, qui réduit progressivement le nombre de solutions correctes à un problème. La méthode transforme essentiellement un processus de diagnostic complexe en un arbre décisionnel, où des questions oui/non telles que « Le patient a-t-il de la fièvre ? Des nausées ? Des douleurs lombaires ? » peut guider un clinicien vers le bon diagnostic.

AlMomani a expliqué que de nombreuses questions scientifiques différentes dépendent « d’une variable booléenne qui est fondamentalement zéro ou un. Un événement s’est produit ou ne s’est pas produit. Un patient passera un test et obtiendra un résultat positif ou négatif. les résultats des tests, les antécédents médicaux et les résultats en tant que variables booléennes. »

Pour tester leurs idées, les chercheurs ont mis la main sur un ensemble complet de 958 configurations de plateau possibles à la fin d’une partie de Tic-Tac-Toe. Le plateau et les différents mouvements du jeu ont ensuite été exprimés sous forme de problèmes mathématiques afin de prédire quel joueur gagnerait.

Les chercheurs ont également testé leur méthode à l’aide d’un ensemble de données provenant d’images de spectroscopie cardiaque. Leur système a obtenu le bon diagnostic 80% du temps.

La Motifs l’article s’intitule « Apprentissage piloté par les données des réseaux booléens et des fonctions par le principe d’entropie de causalité optimale (BoCSE) ».

Fourni par Embry-Riddle Aeronautical University