Un nouveau cadre pour la récupération d'articles juridiques concis
L'intelligence artificielle (IA) continue de redéfinir les limites de la technologie juridique, en proposant d'automatiser des tâches avancées telles que la réponse aux questions juridiques et la consultation. Dans le domaine du droit écrit, un défi particulier consiste à récupérer l'ensemble concis des articles juridiques pertinents à une requête. Dans ce contexte, nous désignons cette tâche comme impliquant la récupération d'un ensemble d'articles juridiques ou, plus brièvement, la récupération d'un ensemble d'articles juridiques.
La tâche de récupération d’ensembles d’articles juridiques importants diffère sensiblement de la recherche d’informations (RI) traditionnelle sur deux aspects principaux. Premièrement, contrairement à l’IR traditionnel qui renvoie une liste classée d’articles, la tâche de récupération d’un ensemble d’articles juridiques recherche un ensemble concis d’articles. Ce niveau de spécificité s’étend à la nature des questions juridiques et des articles juridiques eux-mêmes : ils sont intrinsèquement complexes et imprégnés d’un langage juridique spécialisé, exigeant un système de recherche doté d’un raisonnement juridique plus approfondi et d’une capacité de liaison.
Deuxièmement, alors que les efforts traditionnels de RI consistent principalement à classer les candidats par pertinence, notre tâche exige que les articles récupérés ne se rapportent pas seulement au contenu d'une requête ou à sa négation, mais qu'ils impliquent conjointement le contenu d'une requête. Ces caractéristiques distinguent cette tâche des objectifs et méthodes plus larges des tâches RI traditionnelles.
Les recherches antérieures sur la récupération d’ensembles d’articles juridiques ont principalement utilisé deux approches. La première approche combine des modèles IR classiques avec des modèles de langage (LM) affinés, puis regroupe les résultats de récupération pour consolider les ensembles finaux récupérés. Pendant ce temps, la deuxième approche utilise des modèles IR classiques exclusivement pour le filtrage préliminaire des candidats, qui prépare les entrées pour un réglage plus fin du LM ; les résultats finaux sont souvent regroupés à partir de divers LM affinés.
Pour répondre à la tâche de recherche d'articles juridiques, une équipe de chercheurs de l'Institut avancé des sciences et technologies du Japon (JAIST), dirigée par le professeur Le-Minh Nguyen et comprenant des doctorants Chau Nguyen, a proposé un cadre appelé Récupérer-Réviser-Affiner. Le cadre est conçu pour identifier l'ensemble concis d'articles juridiques qui impliquent une requête ou sa négation, faisant ainsi progresser la compréhension actuelle de cette tâche.
De plus, leur approche exploite les avantages uniques de la combinaison de petits LM et de grands LM pour améliorer l'exactitude des articles récupérés (c'est-à-dire la précision), tout en s'efforçant de limiter la perte de couverture (c'est-à-dire le rappel). L'article est publié dans la revue Traitement et gestion de l'information.
Le cadre comprend trois étapes :
- Récupérer : optimiser la récupération complète des articles importants à l'aide d'un ensemble de plusieurs petits LM, affinés avec diverses stratégies personnalisées.
- Réviser : de grands LM sont utilisés pour évaluer la validité de la requête par rapport à chaque combinaison d'articles à partir des principaux résultats de récupération, dans le but de dériver un sous-ensemble plus compact d'articles juridiques impliquant.
- Affiner : distiller davantage les résultats de la deuxième étape, en utilisant les informations dérivées des prédictions des petits LM comme affineurs pour les prédictions des grands LM.
Comme le montrent les résultats empiriques, le cadre proposé a obtenu des résultats de pointe pour cette tâche sur deux ensembles de données, montrant des améliorations de 3,17 % et 4,24 %, respectivement.