Accélérer la gestion des documents avec l'IA : un guide du NER
Chaque organisation génère chaque jour des centaines de documents opérationnels : les contrats, les manuels et les e-mails ne sont que quelques exemples. Qu'y a-t-il dans ces documents ? Comment puis-je trouver des informations rapidement ? Comment accéder à la bonne information quand vous en avez besoin ?
À mesure que la base documentaire s’agrandit, il devient de plus en plus difficile pour les entreprises de répondre efficacement à ces questions. Ce n’est pas seulement une question d’efficacité : sans accès à l’information, il est impossible de prendre des décisions éclairées et cohérentes.
La résolution de ces problèmes passe par une gestion documentaire « intelligente » : la technologie peut nous venir en aide et faciliter la recherche et l’organisation. Dans cet article, nous parlerons d'une des technologies adaptées à l'identification systématique des « entités », la NER (reconnaissance d'entité nommée), et comment le mettre en pratique dans l’entreprise. Au-delà de la définition formelle, nous entendons par « entité » tout objet ou sujet mentionné dans notre base documentaire qui nous intéresse. Généralement, vous recherchez des noms de personnes, d'organisations, de produits, des quantités numériques et des dates.
Index des sujets :
NER (Named Entity Recognition), qu'est-ce que la gestion intelligente des documents
Le NER (Reconnaissance d'entité nommée) c'est une technologie utilisée avec succès dans différents secteurs, sur des cas d'utilisation qui nécessitent l'extraction d'une ou plusieurs entités à partir de documents. Voyons quelques exemples.
- Dans le domaine juridique: Les professionnels peuvent extraire des personnes, des dates, des lieux et des propriétés importants à partir de documents, sans avoir à parcourir des contrats longs et complexes pour récupérer les informations.
- Au service client: Les assistants virtuels du service client sont similaires à ChatGPT et répondent de manière conversationnelle. Cependant, la reconnaissance de types d'entités spécifiques vous permet d'orienter les cas d'assistance de la manière souhaitée, par exemple en fournissant des informations de suivi ou en faisant intervenir un opérateur si nécessaire.
- Dans le marketing: L'analyse systématique des actualités et des flux sociaux par types d'entités vous aide à repérer les tendances, à gérer votre réputation et à mieux comprendre vos clients.
- Dans le domaine de la santé: Les médecins peuvent trouver rapidement les maladies et les médicaments pertinents dans des bases de données non structurées telles que des rapports médicaux.
Mettre en œuvre la reconnaissance des entités (NER) dans l'entreprise : les questions fondamentales
La reconnaissance des entités pertinentes pour l'entreprise au sein d'une base de documents peut rendre de nombreux processus plus simples et plus efficaces. La mise en œuvre de la technologie dans l’entreprise permet des gains de productivité élevés mais réaliser un projet de mise en œuvre dans les délais et avec les ressources adéquates est important.
Il convient donc de se poser quelques questions :
- Combien de temps ou d'inefficacités puis-je économiser en mettant en œuvre le NER dans mes processus ?
- Quels délais et coûts sont raisonnables ?
- Quelle précision le système d’identification (NER) doit-il atteindre pour générer les bénéfices escomptés ?
Il n’est souvent pas facile de connaître les réponses à ces questions techniques. Or, partir des besoins, ou des bénéfices attendus, permet généralement d’identifier les premiers processus à accélérer. Parfois, vous pouvez également envisager de valider le cas d'utilisation de bout en bout pour vous assurer que les avantages peuvent être obtenus : la reconnaissance d'entités fait partie d'un système logiciel qui doit améliorer le travail de quelqu'un (de bout en bout : du document à la personne).
En termes de délais, de coûts et de précision, il s’agit souvent d’identifier un équilibre qu’il faut évaluer en fonction du cas d’usage et du budget. En général, on peut dire que les systèmes simples ont tendance à être peu « flexibles » (c'est-à-dire adaptés à la reconnaissance de quelques types d'entités) et peu précis, tandis que les systèmes plus complexes sont plus précis, plus coûteux (et risqués) à développer.
Cette heuristique ne constitue cependant pas un guide définitif. Il existe également des systèmes « flexibles » et très rapides à développer, avec des précisions et des compromis qui dépendent des cas d'usage.
Pour être plus conscient de l’impact de ces choix en termes de temps, de coûts et de précision (et plus encore !), nous entrerons dans le détail dans le paragraphe suivant.
Trois façons de démarrer avec NER
Il existe au moins trois approches pour mettre en œuvre la reconnaissance des entités :
- approche basée sur des règles ;
- Des modèles de Apprentissage automatique supervisé (ML supervisé) pour l'analyse de langage naturel (PNL);
- Techniques d'extraction d'entités via Grand modèle de langage.
La première approche est très efficace pour les entités faciles à décrire grâce à des règles : numéros de sécurité sociale, numéros de suivi, numéros de téléphone et parfois noms. Adopter une approche basée sur des règles signifie disposer des règles elles-mêmes ou du vocabulaire nécessaire pour identifier les mots. C'est aussi une approche qui montre des limites lorsque le contexte sémantique est important pour définir l'entité elle-même (pensez à ne devoir extraire qu'une seule contrepartie d'un contrat juridique). En revanche, elle est simple à expliquer et nécessite une collecte de données limitée.
Les techniques d’apprentissage automatique supervisé sont généralement la technique de choix pour le NER, car elles permettent une excellente précision. Il n'est pas nécessaire d'établir des règles ou des vocabulaires et ils permettent « d'apprendre à partir des données » les relations souhaitées, donnant ainsi vie à un « modèle ». Cependant, pour apprendre les relations, il faudra commencer avec au moins 200 à 250 exemples d'entités pour chaque type d'entité à extraire, qui doivent être étiqueté par un ou plusieurs opérateurs.
Un schéma simplifié des phases de développement d'un modèle d'apprentissage automatique à intégrer dans un système d'application est présenté ci-dessous. La collecte de données et une formation spécifique vous permettent de développer un modèle hautement efficace et spécialisé pour votre cas d'utilisation.
Bien qu'elle soit optimale du point de vue des performances, la collecte de données peut être coûteuse ou vous empêcher de mener à bien d'autres parties d'un projet d'automatisation. C'est la solution à adopter le plus fréquemment mais pas toujours la solution optimale pour chaque phase du projet ou pour chaque type de projet.
Enfin, nous arrivons aux techniques d'extraction d'entités via LLM : en faisant incitant de manière industrialisée et en appliquant des techniques de post-traitement appropriées, il est possible d'extraire les entités d'intérêt du texte, en ayant même la possibilité de décider des types d'entités à extraire au moment de l'extraction (et non au moment de la conception). ).
Vous pouvez également effectuer l'extraction de manière tir nul, c'est-à-dire sans disposer de données d'entraînement sur lesquelles s'appuyer. L'intégration est donc très rapide et il est possible de vérifier l'impact du système.
L'application du NER avec LLM doit être évaluée en fonction de la quantité et du type d'entités à extraire.: Bien que les LLM soient extrêmement flexibles et que les coûts et délais de développement soient faibles, cela peut se refléter dans des coûts de fonctionnement plus élevés et une précision moindre.
Conclusions
L’extraction d’entités et d’informations clés à partir de textes non structurés – dans nos documents de cas – vous permet d’automatiser, de simplifier et d’accélérer la gestion et les opérations commerciales. Pour cette raison, il est important de disposer de techniques de reconnaissance d'entité (NER) adaptées au business case : cela accélère le développement, la validation et le retour sur investissement du projet. Il convient également de garder à l'esprit que les approches présentées ne s'excluent pas mutuellement et sont parfois combinées avec d'autres approches que nous n'avons pas abordées ici pour l'identification d'entités dans des documents structurés (tels que des factures, des reçus, des pièces d'identité…).
Nous avons montré que les techniques NER, qu’il s’agisse d’IA ou de règles ad hoc, sont des outils. Ils peuvent être utilisés simultanément ou séquentiellement selon l'état de développement et de maturité d'une application, pour atteindre efficacement l'objectif final : rendre plus intelligent le travail. Souvent la réponse dépend de vos besoins : nous vous laissons avec un schéma récapitulatif où nous mettons en évidence la meilleure méthode selon quelques critères d'évaluation possibles, à combiner avec les « questions fondamentales » rapportées ci-dessus.