Une approche nouvelle et simple qui étend la classification des relations de discours implicites basée sur l'expansion des données

Une approche nouvelle et simple qui étend la classification des relations de discours implicites basée sur l'expansion des données

La classification des relations discursives est une tâche fondamentale pour l'analyse du discours, essentielle pour comprendre la structure et la connexion des textes. La classification implicite des relations discursives vise à déterminer la relation entre les phrases adjacentes et constitue la plus grande difficulté dans la classification des relations discursives car elle manque de connecteurs discursifs explicites comme indices linguistiques et de données de formation annotées suffisantes.

Une méthode prometteuse consiste à étendre les données d'apprentissage pour les relations de discours implicites en se basant sur des relations de discours explicites faciles à collecter. Cependant, les données étendues impliquent souvent du bruit dans le processus de sélection des paires d'arguments et d'attribution du sens des relations de discours, ce qui conduit à des améliorations limitées.

Une équipe dirigée par Wei Song propose une nouvelle méthode d'expansion explicite des données pour relever les défis ci-dessus. Ils ont publié leurs recherches le 15 août 2024 dans Les frontières de l'informatique.

Afin d'obtenir des paires d'arguments appropriées, la tâche de classification des types de paires d'arguments (APTC) est proposée. APTC est un classificateur capable de faire la distinction entre les paires d'arguments explicites et implicites, et de sélectionner uniquement les paires d'arguments explicites qui sont similaires aux paires d'arguments implicites naturelles pour l'expansion des données, de sorte que la méthode peut filtrer les paires d'arguments bruyantes et inappropriées pour l'expansion des données.

Pour annoter les sens des paires d'arguments élargies, une stratégie simple de lissage des étiquettes est proposée. Au lieu d'assigner un sens dominant unique à un connecteur de discours, un sens lissé est dérivé en fonction de la distribution de chaque sens pour ce connecteur de discours.

Cela peut réduire l’impact des étiquettes de sens bruyantes qui peuvent ne pas correspondre à la relation réelle entre les arguments.

Malgré sa simplicité, les résultats de l'évaluation sur PDTB 2.0 et PDTB 3.0 démontrent l'efficacité de la méthode proposée. Elle peut conduire à des améliorations constantes par rapport aux méthodes d'expansion de données précédentes et obtenir des performances compétitives par rapport aux modèles de pointe sur l'ensemble des jeux de données et sur les sens de classe de niveau supérieur et de type de niveau secondaire.

La sélection discriminative explicite de paires d'arguments et la stratégie de lissage des étiquettes se complètent et dépendent l'une de l'autre pour obtenir les meilleures performances. Les résultats et l'analyse confirment que la méthode proposée étend la classification des relations de discours implicites basée sur l'expansion des données.

Fourni par Frontiers Journals