Qu'est-ce qui fait un bon moteur de recherche? Ces quatre modèles peuvent vous aider à utiliser la recherche à l'ère de l'IA

Chaque jour, les utilisateurs demandent des millions de questions. Les informations que nous recevons peuvent façonner nos opinions et nos comportements.

Nous ne sommes souvent pas conscients de leur influence, mais les outils de recherche sur Internet trient et classent le contenu Web lors de la réponse à nos requêtes. Cela peut certainement nous aider à apprendre plus de choses. Mais les outils de recherche peuvent également renvoyer des informations de faible qualité et même une désinformation.

Récemment, de grands modèles de langue (LLMS) sont entrés dans la scène de recherche. Bien que les LLM ne soient pas des moteurs de recherche, les moteurs de recherche Web commerciaux ont commencé à inclure des fonctionnalités d’intelligence artificielle basée sur LLM (IA) dans leurs produits. Le copilote de Microsoft et les aperçus de Google sont des exemples de cette tendance.

La recherche améliorée en AI est commercialisée comme pratique. Mais, avec d’autres changements dans la nature de la recherche au cours des dernières décennies, cela soulève la question: qu’est-ce qu’un bon moteur de recherche?

Notre nouvel article, publié dans l’IA et l’éthique, explore cela. Pour rendre les possibilités plus claires, nous imaginons quatre modèles d’outils de recherche: serviteur client, bibliothécaire, journaliste et enseignant. Ces modèles reflètent des éléments de conception dans les outils de recherche et sont vaguement basés sur des rôles humains correspondants.

Les quatre modèles d’outils de recherche

Serviteur client

Les travailleurs du service à la clientèle donnent aux gens les choses qu’ils demandent. Si quelqu’un demande un « hamburger et des frites », il ne demande pas si la demande est bonne pour la personne, ou si elle pourrait vraiment être après autre chose.

Le modèle de recherche que nous appelons le serviteur client est un peu comme les premiers systèmes de récupération d’informations assistés par ordinateur introduits dans les années 1950. Ces ensembles retournés de documents non classés correspondaient à une requête booléenne, utilisant des règles logiques simples pour définir les relations entre les mots clés (par exemple « les chats pas les chiens »).

Bibliothécaire

Comme son nom l’indique, ce modèle ressemble quelque peu aux bibliothécaires humains. Le bibliothécaire fournit également du contenu que les gens demandent, mais il ne prend pas toujours des requêtes à sa valeur nominale.

Au lieu de cela, il vise la «pertinence» en déduisant les intentions des utilisateurs à partir d’informations contextuelles telles que l’emplacement, le temps ou l’historique des interactions utilisateur. Les moteurs de recherche Web classiques de la fin des années 1990 et du début des années 2000 qui classent les résultats et fournissent une liste de ressources – pensez au début de Google – dans cette catégorie.

Journaliste

Les journalistes vont au-delà des bibliothécaires. Tout en répondant souvent à ce que les gens veulent savoir, les journalistes organisent soigneusement cette information, éliminant parfois les mensonges et élaborant divers points de vue publics.

Les journalistes visent à rendre les gens mieux informés. Le modèle de recherche de journalistes fait quelque chose de similaire. Il peut personnaliser la présentation des résultats en fournissant des informations supplémentaires ou en diversifiant les résultats de recherche pour donner une liste plus équilibrée de points de vue ou de perspectives.

Professeur

Les enseignants humains, comme les journalistes, visent à donner des informations précises. Cependant, ils peuvent exercer encore plus de contrôle: les enseignants peuvent exciter vigoureusement des informations erronées, tout en indiquant aux apprenants vers les meilleures sources d’experts, y compris les plus connues. Ils peuvent même refuser de développer les affirmations qu’ils jugent fausses ou superficielles.

Les systèmes de recherche conversationnels basés sur LLM tels que Copilot ou Gemini peuvent jouer un rôle à peu près similaire. En fournissant une réponse synthétisée à une invite, ils exercent plus de contrôle sur les informations présentées que les moteurs de recherche Web classiques.

Ils peuvent également essayer de discréditer explicitement les opinions problématiques sur des sujets tels que la santé, la politique, l’environnement ou l’histoire. Ils pourraient répondre avec « Je ne peux pas promouvoir la désinformation » ou « ce sujet nécessite des nuances ». Certains LLMS transmettent une «opinion» forte sur ce qui est une véritable connaissance et ce qui est sans édification.

Aucun modèle de recherche n’est le meilleur

Nous soutenons que chaque modèle d’outil de recherche présente des forces et des inconvénients.

Le serviteur client est très explicable: chaque résultat peut être directement lié aux mots clés de votre requête. Mais cette précision limite également le système, car elle ne peut pas saisir les besoins d’informations plus larges ou plus profondes au-delà des termes exacts utilisés.

Le modèle de bibliothécaire utilise des signaux supplémentaires tels que des données sur les clics pour renvoyer le contenu plus aligné sur ce que les utilisateurs recherchent vraiment. La capture est que ces systèmes peuvent introduire des biais. Même avec les meilleures intentions, les choix concernant la pertinence et les sources de données peuvent refléter les jugements de valeur sous-jacents.

Le modèle journaliste déplace l’attention pour aider les utilisateurs à comprendre les sujets, de la science aux événements mondiaux, plus en détail. Il vise à présenter des informations factuelles et diverses perspectives de manière équilibrée.

Cette approche est particulièrement utile dans les moments de crise – comme une pandémie mondiale – où la lutte contre la désinformation est essentielle. Mais il y a un compromis: peaufiner les résultats de recherche pour le bien social soulève des préoccupations concernant l’autonomie des utilisateurs. Il peut sembler paternaliste et pourrait ouvrir la porte à des interventions de contenu plus larges.

Le modèle enseignant est encore plus interventionniste. Il guide les utilisateurs vers ce qu’il « juge » comme une bonne information, tout en critiquant ou en décourageant l’accès au contenu qu’il juge nocif ou faux. Cela peut favoriser l’apprentissage et la pensée critique.

Mais le filtrage ou le contenu de réduction peut également limiter le choix et augmente les drapeaux rouges si le « professeur » – si l’algorithme ou l’IA est biaisé ou tout simplement faux. Les modèles de langue actuels ont souvent des «garde-corps» intégrés pour s’aligner sur les valeurs humaines, mais celles-ci sont imparfaites. Les LLM peuvent également halluciner des non-sens à consonance plausible, ou éviter d’offrir des perspectives que nous pourrions réellement vouloir entendre.

Rester vigilant est la clé

Nous pourrions préférer différents modèles à différentes fins. Par exemple, comme les LLM de type enseignant synthétisent et analysent de grandes quantités de matériel Web, nous pouvons parfois vouloir leur perspective plus avisée sur un sujet, comme sur de bons livres, des événements mondiaux ou de la nutrition.

Pourtant, nous pouvons parfois vouloir explorer des sources spécifiques et vérifiables sur un sujet pour nous-mêmes. Nous pouvons également préférer les outils de recherche pour recommencer un peu de contenu: les théories de la conspiration, par exemple.

Les LLM font des erreurs et peuvent induire en erreur avec confiance. À mesure que ces modèles deviennent plus centraux pour la recherche, nous devons rester conscients de leurs inconvénients et exiger la transparence et la responsabilité des entreprises technologiques sur la façon dont les informations sont livrées.

Trouver le bon équilibre avec la conception et la sélection des moteurs de recherche n’est pas une tâche facile. Trop de risques de contrôle érodant le choix individuel et l’autonomie, tandis que trop peu de mal ne pouvaient laisser des dommages sans contrôle.

Nos quatre modèles éthiques offrent un point de départ pour une discussion robuste. Des recherches interdisciplinaires supplémentaires sont cruciales pour définir quand et comment les moteurs de recherche peuvent être utilisés de manière éthique et responsable.