L'outil RAGE dévoile les sources de ChatGPT

Une équipe de chercheurs basée à l'Université de Waterloo a créé un nouvel outil, surnommé « RAGE », qui révèle où les grands modèles linguistiques (LLM) comme ChatGPT obtiennent leurs informations et si ces informations sont fiables.

Les LLM comme ChatGPT s'appuient sur un « apprentissage profond non supervisé », établissant des connexions et absorbant des informations provenant d'Internet d'une manière qui peut être difficile à déchiffrer pour leurs programmeurs et leurs utilisateurs. De plus, les LLM sont sujets aux « hallucinations », c'est-à-dire qu'ils écrivent de manière convaincante sur des concepts et des sources qui sont soit incorrects, soit inexistants.

« Vous ne pouvez pas nécessairement faire confiance à un LLM pour s'expliquer », a déclaré Joel Rorseth, titulaire d'un doctorat en informatique à Waterloo. étudiant et auteur principal de l’étude. « Il peut fournir des explications ou des citations qu'il a également inventées. »

Le nouvel outil de l'équipe de Rorseth utilise une stratégie récemment développée, appelée « génération augmentée par récupération » (RAG), pour comprendre le contexte des réponses des LLM à une invite donnée.

« RAG permet aux utilisateurs de fournir leurs propres sources à un LLM pour le contexte. Notre outil illustre comment différentes sources conduisent à différentes réponses lors de l'utilisation de RAG, aidant ainsi à évaluer si ces informations sont dignes de confiance », a déclaré Rorseth.

Parce que leur outil se concentre sur l'explicabilité de la génération augmentée par la récupération, ils l'ont surnommé « 'RAGE' contre la machine ».

Comprendre où les LLM comme ChatGPT obtiennent leurs informations (et s'assurer qu'ils ne répètent pas de fausses informations) deviendra encore plus important à mesure que des industries hautement sensibles et centrées sur l'humain, comme les secteurs médical et juridique, adopteront ces outils, a déclaré Rorseth.

« Nous sommes actuellement dans une situation où l'innovation a dépassé la réglementation », a-t-il déclaré. « Les gens utilisent ces technologies sans comprendre leurs risques potentiels. Nous devons donc nous assurer que ces produits sont sûrs, dignes de confiance et fiables. »

La recherche, « RAGE Against the Machine : Retrieval-Augmented LLM Explanations », sera publiée dans les actes de la 40e conférence internationale de l'IEEE sur l'ingénierie des données. Il est actuellement disponible sur arXiv serveur de préimpression.