Un nouveau cadre amorce le traitement des graphes de connaissances pour les applications d'IA

Un nouveau cadre amorce le traitement des graphes de connaissances pour les applications d’IA

Le cadre utilise une combinaison de similitudes superficielles pour lancer le processus d’apprentissage automatique qui produit des paires d’entités alignées. Crédit : Tingting Jiang et al.

Une équipe de chercheurs dirigée par le professeur Xindong Wu à Hefei, en Chine, a développé un cadre d’alignement d’entités non supervisé pour améliorer le processus de recherche d’informations connexes dans plusieurs graphes de connaissances pour les applications d’intelligence artificielle. Le cadre rassemble les avantages de plusieurs approches et évite de compter sur le travail humain pour lancer le processus d’alignement.

Ils ont testé leur cadre sur plusieurs ensembles de données multilingues et mesuré les résultats, en les comparant aux résultats de 14 autres algorithmes d’apprentissage automatique. Leur modèle a surpassé la plupart de ses concurrents sur deux mesures différentes et a obtenu de meilleurs résultats que tous lorsque les mesures ont été combinées en un score global.

Les recherches du groupe ont été publiées dans la revue Informatique intelligente.

Le nouveau cadre, appelé SE-UEA, a obtenu des scores plus élevés en termes de précision et de rappel que 12 des 14 algorithmes concurrents, certains supervisés et d’autres non supervisés. Il a obtenu un score global plus élevé pour les trois ensembles de données. Les expériences testant la robustesse et l’évolutivité du cadre ont également obtenu des résultats encourageants.

Un avantage majeur du nouveau cadre est qu’il ne nécessite pas d’ensembles de données complexes laborieusement annotés par des humains. Il peut gérer automatiquement les ensembles de données avec des informations manquantes et fusionner les ensembles de données qui ont une structure interne différente. Les résultats de la recherche quantitative montrent donc qu’il est non seulement pratique mais aussi efficace d’utiliser une combinaison de méthodes automatiques relativement simples de traitement des graphes de connaissances pour en amorcer une plus sophistiquée.

Les recherches futures peuvent encore améliorer l’efficacité et la précision du cadre en peaufinant l’un ou l’autre des deux modules du cadre.

Les deux modules du framework sont l’un qui recherche les similitudes de surface et l’autre qui recherche les similitudes dans les relations entre les entités. Les deux utilisent une paire de graphes de connaissances. Dans ce cas, la paire était constituée de graphes de connaissances pour le même contenu dans deux langues différentes, anglais et japonais, français ou chinois. Les ensembles de données ont été construits par DBpedia à partir du contenu de Wikipedia.

Le premier module recherche non pas un mais trois types différents de similitudes de surface : même nom, même signification et même emplacement dans les deux graphes de connaissances. Il est important de noter que la sortie de ce module est utilisée comme entrée pour le deuxième module, qui utilise un type de réseau neuronal appelé réseau convolutif de graphes pour examiner automatiquement la structure interne des deux graphes de connaissances afin de découvrir des paires d’entités identiques.

Une fois que le cadre a analysé chaque paire de graphes de connaissances et produit des paires d’entités identiques, les chercheurs ont pu vérifier son travail par rapport aux réponses correctes fournies dans le cadre des ensembles de données DBpedia et attribuer des scores en fonction des mesures d’évaluation choisies.

Bien que les graphes de connaissances soient essentiels pour les applications d’intelligence artificielle telles que les systèmes de recommandation, toute représentation structurée des connaissances est généralement incomplète. Ainsi, il est souhaitable de combiner des informations provenant de plusieurs graphes de connaissances via un processus appelé alignement d’entités.

La méthode de correspondance la plus simple consiste à comparer les attributs de surface tels que les noms des entités. Des méthodes plus sophistiquées donnent de meilleurs résultats, mais nécessitent généralement des données d’entrée élaborées qui doivent d’abord être créées manuellement.

Les co-auteurs de Wu sur cet article sont Tingting Jiang (qui était l’étudiant au doctorat de Wu), Chenyang Bu et Yi Zhu.

Fourni par l’informatique intelligente