Les chercheurs développent une méthode permettant aux LLM de répondre aux questions de manière plus concise et précise
Les grands modèles linguistiques (LLM) sont des modèles d'apprentissage automatique conçus pour comprendre et générer le langage humain. Les LLM de pointe ont démontré un potentiel exceptionnel en matière de réponse aux questions en domaine ouvert (ODQA), où le modèle est chargé de fournir des réponses à des questions factuelles.
Ceci est particulièrement utile dans des domaines tels que la finance, les soins de santé et l’éducation. Cependant, les LLM s'appuient généralement sur leurs connaissances pré-formées pour répondre à des questions qui peuvent devenir obsolètes dans un monde en constante évolution.
Cette limitation peut être résolue en utilisant la génération de récupération augmentée (RAG) avec un LLM pré-entraîné. Dans cette approche, la question est enrichie de documents issus d’une base de connaissances. Malgré ces progrès, les LLM produisent souvent des réponses longues, fournissant des informations contextuelles qui peuvent rendre difficile et chronophage l'identification de la phrase de réponse exacte.
Un autre aspect important des LLM est leur capacité à produire des scores de confiance, qui reflètent le degré de certitude du modèle quant à l'exactitude de sa réponse. Ces scores sont particulièrement cruciaux dans les domaines à haut risque tels que la finance, le droit et les soins de santé. Bien que les LLM puissent générer des probabilités de séquence pour une réponse spécifique, cette probabilité est souvent peu fiable en termes de calibrage.
Cela signifie que la confiance prédite peut ne pas être corrélée avec précision à la probabilité d’exactitude et ne doit pas être utilisée comme score de confiance. L'incapacité d'identifier la phrase de réponse exacte et de produire un score de confiance fiable limite l'application pratique des LLM.
Pour remédier à ces limitations, une équipe de chercheurs de l'Institut avancé des sciences et technologies du Japon, dirigée par le professeur Nguyen Le Minh et comprenant les doctorants Nguyen-Khang Le et Dieu-Hien Nguyen, a introduit une nouvelle méthode appelée Génération de préfixe de réponse (ANSPRE). ).
« ANSPRE peut améliorer la qualité de génération des LLM, leur permettre de produire la phrase de réponse exacte et de produire des scores de confiance fiables. De plus, il peut être intégré à n'importe quel LLM et architecture complexe », explique le professeur Nguyen. Leur étude sera présentée à l'ECAI-2024, la 27e Conférence européenne sur l'intelligence artificielle, qui se tiendra du 19 au 24 octobre à Saint-Jacques-de-Compostelle, en Espagne.
L'idée principale d'ANSPRE est d'ajouter une séquence de texte à l'invite LLM qui mène à la phrase de réponse. Cette séquence de texte est appelée « préfixe de réponse ».
Le professeur Nguyen explique : « Prenons l'exemple de la question : « Quel jeu de hasard, nécessitant deux pièces de monnaie, était populaire pendant la Première Guerre mondiale ? » Un préfixe de réponse à cette question pourrait être : « Le jeu de hasard nécessitant deux pièces de monnaie et qui était populaire pendant la Première Guerre mondiale était ___. » Comme la plupart des LLM sont formés avec la modélisation causale du langage, l’utilisation du préfixe de réponse permettrait au LLM de générer la phrase de réponse exacte à la place du blanc. »
Étant donné une question, l'ANSPRE génère d'abord un préfixe de réponse à l'aide d'exemples sélectionnés. Les chercheurs ont démontré que seuls quelques exemples fabriqués à la main suffisaient pour générer un préfixe de réponse de haute qualité. L'ANSPRE utilise ensuite un outil d'extraction existant pour rassembler les documents pertinents de la base de connaissances, similaire à RAG.
Il combine le document, la question et le préfixe de réponse, et invite le LLM à générer la phrase de réponse. Enfin, l'ANSPRE regroupe les expressions de réponse et les scores de confiance des différents documents utilisés pour répondre à la question, afin de produire la réponse finale.
Les chercheurs ont démontré la polyvalence d'ANSPRE en construisant une génération de préfixe de réponse auto-réfléchissante (SELF-ANSPRE), qui combine ANSPRE avec RAG auto-réfléchissant (SEFT-RAG).
SEFT-RAG améliore la génération LLM en introduisant des jetons de réflexion pour décider quand et quoi récupérer de la base de connaissances et classer les réponses en fonction de l'utilité des documents et de la réponse. Dans SELF-ANSPRE, les scores de confiance de l'ANSPRE et les scores des jetons de réflexion sont combinés pour générer le score de classement final.
Les chercheurs ont testé ANSPRE sur trois benchmarks ODQA et diverses architectures LLM. Les résultats ont montré que l'ANSPRE améliore considérablement les LLMS pré-entraînés et adaptés aux instructions, produisant des réponses de haute qualité et des scores de confiance fortement corrélés à l'exactitude. De plus, SELF-ANSPRE a considérablement amélioré SEFT-RAG. Leur analyse a également mis en évidence l’importance de chaque composante de l’ANSPRE.
« Notre méthode peut conduire à des réponses plus concises et précises aux questions dans des domaines critiques tels que le diagnostic médical, l'assistance juridique et l'éducation, et à améliorer le support client. De plus, à long terme, nos recherches pourraient favoriser une collaboration généralisée entre l'homme et l'intelligence artificielle en augmentant la confiance. dans les systèmes d'IA », déclare le professeur Nguyen.
Globalement, cette méthode innovante marque une avancée significative pour les LLM et peut conduire à leur application plus large, même dans des domaines sensibles.