L'équipe propose un cadre de raisonnement visant à améliorer la fiabilité et la traçabilité des LLM
Une équipe de chercheurs en IA de l'entreprise technologique chinoise Baidu Inc. propose un nouveau cadre de raisonnement conçu pour améliorer la fiabilité et la traçabilité des LLM. Le groupe a publié un article décrivant ses idées sur le sujet. arXiv serveur de préimpression.
Au cours des dernières années, les LLM tels que ChatGPT sont devenus des applications grand public, les utilisateurs profitant de leurs capacités à écrire des documents, créer des images et même écrire des chansons.
Mais les LLM ont toujours une faiblesse flagrante : ils ne peuvent pas vérifier leurs propres résultats pour s’assurer qu’ils ne présentent pas parfois aux utilisateurs des « hallucinations », c’est-à-dire des résultats qui n’ont aucun sens. Cette faiblesse empêche les applications d’IA d’être utilisées pour des applications plus critiques qui dépendent de l’intégrité des données.
Dans ce nouvel effort, l’équipe de Baidu a élaboré une stratégie visant à forcer les LLM à vérifier leur travail avant de présenter les résultats aux utilisateurs finaux.
La nouvelle approche consiste à ajouter un processus en trois étapes au moteur LLM juste avant la présentation des résultats. La première consiste à ajouter un modèle sensible à la pertinence pour évaluer les résultats et les juger en fonction de leur pertinence par rapport à l'invite de l'utilisateur. La deuxième consiste à utiliser une option sélective sensible aux preuves dans laquelle les documents pertinents sont choisis pour être cités et des extraits sont présentés comme preuve de l'exactitude d'une réponse. La troisième consiste en un module d'analyse de trajectoire qui effectue une analyse claire et concise basée sur les résultats des deux modules précédents. Il fournit ensuite à l'utilisateur la réponse finale.
L'équipe de recherche suggère que cette approche obligerait les LLM à être plus attentifs aux réponses fournies aux utilisateurs, ce qui devrait en fin de compte améliorer la précision. L'équipe a également testé ses idées en ajoutant des modules de test aux LLM, puis en rédigeant des invites. Ils affirment que les LLM améliorés ont pu surpasser GPT-4 en utilisant des ensembles de données d'entraînement beaucoup plus petits.
Les chercheurs suggèrent que des cadres comme le leur pourraient conduire à des LLM plus fiables, ce qui pourrait les rendre adaptés à davantage d’applications. Ils suggèrent également qu’ils ouvriraient le champ à davantage d’acteurs qui n’ont actuellement pas accès à des ensembles de données de formation massifs.