Sans textes, l'attribution automatique des bugs fonctionne toujours bien : Étude

Sans textes, l'attribution automatique des bugs fonctionne toujours bien : Étude

L'attribution automatique de bogues a été bien étudiée au cours de la dernière décennie. Comme les rapports de bogues textuels décrivent généralement les phénomènes de bogues et les causes potentielles, les ingénieurs dépendent fortement de ces rapports pour corriger les bogues. Les chercheurs dépendent fortement du contenu textuel des rapports de bogues pour localiser les fichiers bogués. Cependant, les bruits dans les textes ont des effets négatifs inattendus sur l'attribution automatique de bogues, principalement en raison de l'insuffisance des techniques classiques de traitement du langage naturel (NLP).

Pour acquérir une compréhension approfondie des effets des caractéristiques textuelles et nominales, une équipe de recherche dirigée par Zexuan Li a publié ses recherches dans Les frontières de l'informatique.

L'équipe a reproduit une technique de traitement du langage naturel (NLP), TextCNN, pour déterminer si une technique NLP améliorée peut conduire à de meilleures performances pour les caractéristiques textuelles. Les résultats révèlent que les caractéristiques textuelles ne surpassent pas les autres caractéristiques, même avec la technique relativement avancée. L'équipe explore plus en détail les caractéristiques influentes pour les approches d'attribution de bogues et donne une explication d'un point de vue statistique.

Ils constatent que les caractéristiques influentes sélectionnées sont toutes des caractéristiques nominales qui indiquent la préférence des développeurs. Les résultats expérimentaux montrent que les caractéristiques nominales peuvent obtenir des résultats compétitifs sans utiliser de texte.

Dans le cadre de cette recherche, ils se sont efforcés de répondre à trois questions. Premièrement, quelle est l’efficacité des caractéristiques textuelles avec les techniques de traitement du langage naturel basées sur l’apprentissage profond ? Ils ont reproduit TextCNN et comparé l’efficacité des caractéristiques textuelles avec le groupe de caractéristiques nominales.

Deuxièmement, quelles sont les caractéristiques influentes pour les approches d'attribution de bugs et pourquoi sont-elles influentes ? Ils utilisent la méthode wrapper et la stratégie bidirectionnelle largement utilisée. En entraînant à plusieurs reprises un classificateur avec différents groupes de caractéristiques, il juge l'importance des caractéristiques en fonction de la métrique. Ils émettent l'hypothèse que les caractéristiques nominales peuvent contribuer à réduire la portée de recherche du classificateur et vérifient la spéculation dans une méthode statistique.

Troisièmement, dans quelle mesure les fonctionnalités influentes sélectionnées peuvent-elles améliorer les attributions de bugs ? Ils entraînent des modèles avec des classificateurs fixes sur des groupes de fonctionnalités changeants et exécutent deux classificateurs populaires (arbre de décision et SVM) sur cinq groupes de fonctionnalités.

L'expérience a utilisé cinq projets de tailles et de types différents comme ensembles de données. Les résultats démontrent que la technique NLP améliorée n'a apporté qu'une amélioration limitée et que les caractéristiques clés sélectionnées atteignent une précision de 11 à 25 % sous deux classificateurs courants.

Les travaux futurs peuvent se concentrer sur l’introduction de fichiers sources pour construire un graphe de connaissances entre ces fonctionnalités influentes et des mots descriptifs pour une meilleure intégration des fonctionnalités nominales.

Fourni par Frontiers Journals