L'équipe présente une méthode rentable pour repenser les moteurs de recherche pour l'IA
Le moteur de recherche Internet du futur sera alimenté par l’intelligence artificielle. On peut déjà choisir parmi une multitude de moteurs de recherche alimentés ou améliorés par l’IA, même si leur fiabilité laisse souvent encore beaucoup à désirer. Cependant, une équipe d’informaticiens de l’Université du Massachusetts à Amherst a récemment publié et publié un nouveau système permettant d’évaluer la fiabilité des recherches générées par l’IA.
Appelée « eRAG », la méthode est un moyen de mettre l’IA et le moteur de recherche en conversation, puis d’évaluer la qualité des moteurs de recherche pour l’utilisation de l’IA. L'ouvrage est publié dans le cadre du Actes de la 47e Conférence internationale ACM SIGIR sur la recherche et le développement en recherche d'information.
« Tous les moteurs de recherche que nous avons toujours utilisés ont été conçus pour les humains », déclare Alireza Salemi, étudiant diplômé du Manning College of Information and Computer Sciences de l'UMass Amherst et auteur principal de l'article.
« Ils fonctionnent plutôt bien lorsque l'utilisateur est un humain, mais le moteur de recherche de l'utilisateur principal du futur sera l'un des grands modèles linguistiques (LLM) d'IA, comme ChatGPT. Cela signifie que nous devons complètement repenser la façon dont les moteurs de recherche fonctionnent. travail, et mes recherches explorent comment les LLM et les moteurs de recherche peuvent apprendre les uns des autres.
Le problème fondamental auquel Salemi et l'auteur principal de la recherche, Hamed Zamani, professeur agrégé d'information et d'informatique à l'UMass Amherst, sont confrontés est que les humains et les LLM ont des besoins d'information et des comportements de consommation très différents.
Par exemple, si vous ne vous souvenez pas très bien du titre et de l'auteur de ce nouveau livre qui vient d'être publié, vous pouvez saisir une série de termes de recherche généraux, tels que « quel est le nouveau roman d'espionnage avec une touche environnementale de ce célèbre écrivain », puis affinez les résultats, ou lancez une autre recherche à mesure que vous vous souvenez de plus d'informations (l'auteur est une femme qui a écrit le roman « Lance-flammes »), jusqu'à ce que vous trouviez le résultat correct (« Creation Lake » de Rachel Kushner – qui Google est revenu comme troisième résultat après avoir suivi le processus ci-dessus).
Mais c'est ainsi que fonctionnent les humains, pas les LLM. Ils sont formés sur des ensembles de données spécifiques et énormes, et tout ce qui ne figure pas dans cet ensemble de données, comme le nouveau livre qui vient de sortir dans les kiosques, est effectivement invisible pour le LLM.
De plus, ils ne sont pas particulièrement fiables avec les requêtes floues, car le LLM doit pouvoir demander plus d'informations au moteur ; mais pour ce faire, il doit connaître les informations supplémentaires correctes à demander.
Les informaticiens ont mis au point un moyen d'aider les LLM à évaluer et à choisir les informations dont ils ont besoin, appelé « génération augmentée par récupération » ou RAG. RAG est un moyen d'augmenter les LLM avec les listes de résultats produites par les moteurs de recherche. Mais bien sûr, la question est de savoir comment évaluer l’utilité des résultats de récupération pour les LLM ?
Jusqu’à présent, les chercheurs ont proposé trois méthodes principales pour y parvenir : la première consiste à collecter l’exactitude des jugements de pertinence auprès d’un groupe d’humains. Cependant, c'est une méthode très coûteuse et les humains n'ont peut-être pas le même sens de la pertinence qu'un LLM.
On peut également demander à un LLM de générer un jugement de pertinence, ce qui est beaucoup moins cher, mais la précision en souffre à moins d'avoir accès à l'un des modèles LLM les plus puissants. La troisième méthode, qui constitue la référence, consiste à évaluer les performances de bout en bout des LLM augmentés par récupération.
Mais même cette troisième méthode présente des inconvénients. « C'est très cher », dit Salemi, « et il y a des problèmes de transparence. Nous ne savons pas comment le LLM est arrivé à ses résultats; nous savons simplement s'il l'a fait ou non. » De plus, il existe actuellement quelques dizaines de LLM, et chacun d’eux fonctionne de différentes manières, renvoyant des réponses différentes.
Au lieu de cela, Salemi et Zamani ont développé eRAG, qui est similaire à la méthode de référence, mais beaucoup plus rentable, jusqu'à trois fois plus rapide, utilise 50 fois moins de puissance GPU et est presque aussi fiable.
« La première étape vers le développement de moteurs de recherche efficaces pour les agents IA consiste à les évaluer avec précision », explique Zamani. « eRAG fournit une méthodologie d'évaluation fiable, relativement efficace et efficiente pour les moteurs de recherche utilisés par les agents d'IA. »
En bref, eRAG fonctionne comme ceci : un utilisateur humain utilise un agent d'IA alimenté par LLM pour accomplir une tâche. L'agent IA soumettra une requête à un moteur de recherche et le moteur de recherche renverra un nombre discret de résultats, par exemple 50, pour la consommation LLM.
eRAG exécute chacun des 50 documents via le LLM pour découvrir quel document spécifique le LLM a trouvé utile pour générer le résultat correct. Ces scores au niveau du document sont ensuite regroupés pour évaluer la qualité du moteur de recherche pour l'agent IA.
Bien qu'il n'existe actuellement aucun moteur de recherche capable de fonctionner avec tous les principaux LLM développés, la précision, la rentabilité et la facilité avec lesquelles eRAG peut être mis en œuvre constituent une étape majeure vers le jour où tous nos moteurs de recherche fonctionneront sur l'IA.
Cette recherche a reçu le prix du meilleur article court décerné par la Conférence internationale de l'Association for Computing Machinery sur la recherche et le développement en recherche d'informations (SIGIR 2024). Un package python public, contenant le code d'eRAG, est disponible sur https://github.com/alirezasalemi7/eRAG.