La fouille de connaissances : une enquête transversale

La fouille de connaissances : une enquête transversale

par Beijing Zhongke Journal Publishing Co.

Certaines des mesures les plus élémentaires pour évaluer l’intérêt des règles d’association. Crédit: Recherche sur l’intelligence artificielle (2022). DOI : 10.1007/s11633-022-1323-6

L’exploration de connaissances est un domaine de recherche très actif dans des disciplines telles que le traitement du langage naturel (TAL), l’exploration de données (DM) et l’apprentissage automatique (ML). L’objectif global de l’extraction de connaissances à partir d’une source de données est de créer une représentation structurée qui permet aux chercheurs de mieux comprendre ces données et de les exploiter pour créer des applications.

Chaque discipline mentionnée a mis au point un vaste corpus de recherches, proposant différentes méthodes pouvant être appliquées à différents types de données. Un nombre important d’enquêtes ont été réalisées pour synthétiser les travaux de recherche dans chaque discipline. Cependant, aucune enquête n’a présenté une revue interdisciplinaire où des traits de différents domaines ont été exposés pour stimuler davantage les idées de recherche et essayer de construire des ponts entre ces domaines. Dans cet ouvrage publié sur Machine Intelligence Research, les chercheurs présentent une telle enquête.

L’extraction automatique de connaissances à partir de diverses sources de données est une tâche difficile dans différents domaines. Par exemple, en traitement du langage naturel (TAL), la recherche sur l’extraction de bases de connaissances structurées à partir de textes en langage naturel a reçu beaucoup d’attention en raison de ses applications.

Dans l’exploration de données (DM), un vaste domaine de recherche s’est concentré sur les règles d’exploration de bases de données structurées qui peuvent aider les gens à découvrir de nouvelles associations entre des éléments ou des caractéristiques et à prendre des décisions dans divers contextes tels que les affaires ou l’éducation.

De plus, dans le domaine de l’apprentissage automatique (ML), de nombreux efforts ont été préconisés pour extraire des connaissances, principalement sous la forme de règles logiques, à la fois des prédictions et des paramètres du système d’apprentissage automatique afin de construire une représentation interprétable qui aide à expliquer le les décisions du système (ce que l’on appelle le problème d’interprétabilité) ; un scénario très recherché en médecine, par exemple.

L’extraction ou l’extraction de connaissances à partir de données (qu’il s’agisse de données non structurées, structurées ou comportementales) est un problème ouvert qui a été abordé dans différents domaines de recherche. Ce vaste scénario a non seulement conduit à différentes définitions et façons de représenter la construction de la connaissance (et par conséquent, à définir la tâche d’exploration des connaissances), mais il a également abouti à diverses perspectives de recherche, qui semblent utiliser différentes méthodologies pour extraire les connaissances. et différentes métriques pour évaluer la cohérence des connaissances extraites.

D’autre part, dans le domaine de la PNL, une base de connaissances est généralement représentée comme une structure tensorielle où chaque entrée correspond généralement à une affectation probabiliste de la croyance d’un fait.

Enfin, dans le domaine de l’apprentissage automatique, le problème de l’exploration des connaissances a été motivé par le problème d’essayer de comprendre et de valider les systèmes ML qui, en raison de leur complexité, ne sont pas faciles à inspecter manuellement. De même, le choix de la représentation des connaissances a été contraint pour être compréhensible par les humains, là où une représentation largement commune et acceptée dans ce domaine sont des règles logiques.

À partir de ce bref aperçu de l’exploration des connaissances dans tous les domaines, on peut observer que la diversité des objectifs et des constructions et le large scénario revendiqué par les chercheurs au début, ce qui les amène aux questions : comment l’exploration des connaissances se caractérise-t-elle dans les domaines de recherche ? Quelles sont leurs approches proposées et leurs traits communs ? Et comment les chercheurs peuvent-ils les consolider ?

Les chercheurs notent que s’il existe déjà plusieurs enquêtes approfondies dans la littérature de chaque domaine montrant les méthodes et les algorithmes pour extraire des connaissances, il est supposé qu’il n’y a pas d’enquête qui traverse conjointement ces domaines de recherche pour répondre aux questions ci-dessus.

De plus, l’importance des connaissances minières a imprégné différents domaines et a également eu un impact sur l’industrie. Par conséquent, les chercheurs pensent qu’une revue de la littérature interdisciplinaire, dans une approche axée sur le paysage, qui englobe tous ces degrés de liberté variables sous-jacents au problème de l’extraction des connaissances à partir des données, s’impose.

Dans cet article, plutôt que d’examiner une pléthore de méthodes et de travaux antérieurs dans ces trois domaines de recherche, les chercheurs ont l’intention de passer en revue les nuances et les idiosyncrasies associées des approches adoptées pour extraire des connaissances d’une source de données cible.

Par conséquent, cet article préconise une vue d’ensemble additive du problème de l’extraction de connaissances dans les domaines du traitement du langage naturel, de l’exploration de données et de l’apprentissage automatique pour montrer leurs principaux objectifs, méthodes et évaluations, et comment certains travaux antérieurs ont établi des liens entre ces domaines. pour la tâche d’exploration des connaissances.

L’objectif final de cet article est de stimuler et de provoquer de nouvelles idées et de nouveaux programmes de recherche parmi les chercheurs de différentes disciplines afin que de nouveaux ponts entre les domaines étudiés puissent émerger pour faire avancer davantage la tâche d’exploration des connaissances. Suivant cette approche, les chercheurs évitent de fournir une définition unique des connaissances et de l’exploration des connaissances, et présentent plutôt la manière dont ces concepts ont été adoptés dans tous les domaines. Ainsi, les chercheurs partent d’un point de départ commun à tous les domaines. Ils fixent le choix de la représentation des connaissances à celui de la logique, ou des formules de type logique, qui est une représentation très utilisée dans ces domaines.

Sur la base de cette représentation des connaissances, dans les sections 2 à 4, les chercheurs parcourent les différents objectifs et approches clés de chaque domaine, dans une perspective axée sur les problèmes, pour obtenir un aperçu précis de la façon dont l’exploration des connaissances est incarnée et des traits qu’ils trouvent dans ces domaines. domaines de recherche. La section 2 concerne l’extraction de connaissances à partir d’un texte en langage naturel qui comprend six parties.

Tout d’abord, les chercheurs fournissent des préliminaires de méthodes et de modèles de pointe en PNL. Deuxièmement, ils introduisent les approches d’apprentissage les plus courantes pour l’extraction d’informations, à savoir l’apprentissage supervisé (classification et étiquetage de séquences), l’apprentissage supervisé à distance et l’apprentissage non supervisé.

Ensuite, ils fournissent un compte rendu des deux problèmes IE qui ont reçu beaucoup d’attention dans la communauté NLP, à savoir la reconnaissance d’entités nommées dans la partie 3 et l’extraction de relations dans la partie 4, ainsi que les méthodes pour évaluer la performance d’un système NLP à tout moment. de ces tâches dans la partie 5. Enfin, les chercheurs passent en revue certains défis actuels en PNL liés au problème de l’IE dans la dernière partie.

La section 3 porte sur l’exploration de connaissances à partir de bases de données transactionnelles. Il se compose de quatre parties : La partie 1 passe en revue certaines des principales approches du problème de la génération fréquente d’itemsets. La partie 2 fait référence à l’extraction de règles d’association. La partie 3 montre les méthodes d’élagage et d’évaluation des règles candidates et la partie 4 porte sur les défis actuels.

La section 4 porte sur l’extraction de connaissances à partir de systèmes d’apprentissage automatique. Dans cette section, les chercheurs présentent différentes approches pour extraire les connaissances acquises par des systèmes ML complexes, également appelés systèmes de boîte noire, en raison de leur ininterprétabilité.

Comme dans les sections précédentes, les chercheurs ciblent principalement les travaux de la littérature où les connaissances extraites se présentent sous la forme de règles logiques (c’est l’un des types de représentation des connaissances les plus populaires dans la littérature sur l’interprétabilité). La plupart des systèmes de boîte noire qu’ils examinent dans cette section sont des réseaux de neurones en raison de leur large acceptation et utilisation dans le ML et les domaines connexes.

Enfin, dans la section 5, les chercheurs identifient d’abord cinq dimensions qui, selon eux, caractérisent le travail d’extraction de connaissances dans tous les domaines, à savoir les objectifs, les méthodes, l’orientation de la recherche, les données et les évaluations. Dans ce qui suit, ils fournissent une comparaison du problème d’exploration de connaissances pour les domaines NLP, DM et ML à travers ces cinq traits.

Enfin, ils fournissent ce qu’ils croient être une direction de recherche à long terme pour l’exploration des connaissances. Les chercheurs pensent que cet article contribuera à créer de futures orientations de recherche pour la tâche d’exploration des connaissances qui englobent les trois domaines de recherche, jusqu’à présent non liés, de la PNL, du DM et du ML.

Fourni par Beijing Zhongke Journal Publishing Co.