Le GPT-3 nous (dés)informe mieux que les humains, selon une étude

Qu'est-ce qui fait que les gens font confiance à ChatGPT ?

Un véritable humain a écrit cet article, mais avec l’aide d’un logiciel de transcription. ChatGPT, ou un autre grand modèle de langage, l'aurait probablement composé beaucoup plus rapidement, mais les systèmes d'intelligence artificielle (IA) sont susceptibles d'halluciner – en générant des informations incorrectes – alors pourriez-vous faire confiance aux résultats ?

La précision des systèmes d’IA générative est importante, d’autant plus que de plus en plus de personnes utilisent l’IA pour rechercher des réponses en ligne et que les moteurs de recherche intègrent l’IA dans leurs systèmes.

Penn State News s'est entretenu avec S. Shyam Sundar, professeur James P. Jimirro d'effets médiatiques à Penn State, et l'étudiant diplômé Yongnam Jung à propos de leurs recherches sur ce qui pousse les gens à faire confiance à ChatGPT et à d'autres sources d'informations en ligne, et sur l'avenir potentiel de l'IA et des moteurs de recherche en ligne.

Q : Les gens utilisent-ils ChatGPT comme moteur de recherche ?

Sundar : Des éléments anecdotiques suggèrent que les gens se tournent vers ChatGPT pour une première réponse, alors qu'auparavant ils utilisaient la recherche Google. Par exemple, deux avocats de New York ont ​​utilisé ChatGPT pour rédiger un mémoire pour une affaire, et le juge a ensuite découvert que les précédents cités par ChatGPT étaient faux.

Mon laboratoire a mené une très petite étude préliminaire qui n’a montré aucune preuve à l’appui des preuves anecdotiques. Nos participants avaient tendance à utiliser Google en premier, suivi de Wikipédia, mais il s’agissait pour la plupart de personnes issues de l’enseignement supérieur qui ont été bombardées d’informations ces dernières années sur les lacunes de l’IA générative. Ce n’est donc clairement pas un échantillon représentatif.

Notre intérêt est de découvrir quelles fonctionnalités de ChatGPT, de la recherche Google et de Wikipédia incitent un utilisateur à faire confiance aux plateformes.

Jung : Les participants à notre étude ont indiqué qu'ils utilisent ChatGPT pour des cas d'utilisation spécifiques, par exemple pour améliorer leur écriture ou pour faire référence à un format spécifique, comme un CV.

Ils l'utilisent également pour rechercher des informations, mais ils ne font pas confiance aux résultats. Des études et articles de presse antérieurs ont suggéré que les utilisateurs font parfois preuve d'une confiance aveugle dans ChatGPT, mais nos entretiens de groupe ont suggéré que cette confiance aveugle n'est pas toujours le cas.

Nos participants ont déclaré qu'ils utilisaient ChatGPT pour rechercher des informations, mais ils étaient sceptiques quant aux résultats car ils n'incluent pas d'informations de référence comme le font Wikipedia et Google.

Q : En quoi ChatGPT se compare-t-il à la recherche Google et à Wikipédia ?

Sundar : La principale différence réside dans le caractère conversationnel de ChatGPT : le fait qu'il s'agit d'une interface de chat qui va et vient en réponse à votre question spécifique. Chaque message qu'il vous donne dépend de ce que vous y mettez et de ce que vous avez mis avant cela. À cet égard, cela ressemble beaucoup à un majordome qui vous sert.

Plus il vous connaît, plus il personnalise les informations pour vous, puis il vous donne exactement ce que vous voulez en pointant spécifiquement vers votre question, alors que Google pourrait simplement renvoyer tout un tas de résultats basés sur une correspondance de mot-clé.

Les gens utilisent ChatGPT pour devenir leur compagnon de conversation ou leur ami. Il semble intuitif et fiable, comme s'il savait de quoi il parle. Les réponses sont bien organisées. Toutes ces fonctionnalités peuvent le rendre plus fiable. Mais ce que les utilisateurs ne réalisent souvent pas, c'est que ChatGPT donne des réponses génériques et généralement applicables.

Jung : Les participants ont déclaré qu'ils faisaient confiance aux plateformes pour différentes raisons. Ils apprécient particulièrement le fait que Google propose des résultats de recherche diversifiés. Ils apprécient également les fonctionnalités telles que l'étiquetage des annonces sponsorisées, car cela montre que Google essaie d'être transparent.

Pour Wikipédia, les participants ont apprécié la fonction d'édition, car si n'importe qui peut modifier une entrée, cela signifie que si quelque chose ne va pas, quelqu'un le corrigera. C'est pourquoi ils font confiance aux informations de Wikipédia. En ce qui concerne ChatGPT, ils apprécient vraiment les fonctionnalités interactives, qui leur permettent d'avoir une conversation humaine avec ChatGPT, ce qui augmente la confiance dans le système.

Q : Nous commençons à voir des moteurs de recherche en ligne intégrer l'IA générative dans leurs résultats. Selon vous, quel sera l'avenir des moteurs de recherche et de l'IA ?

Sundar : La plupart des moteurs de recherche, fournisseurs d'informations, chatbots, agents du service client, ont tous adopté une technologie de modélisation linguistique à grande échelle pour améliorer le transfert ou la remise des informations aux utilisateurs. Ils ont amélioré la convivialité, de sorte que les informations apparaissent comme beaucoup plus conversationnelles et plus bavardes que la manière traditionnelle de fournir des informations.

Du point de vue de la communication, les grands modèles linguistiques (LLM) ont révolutionné toutes ces différentes technologies en leur montrant la voie vers une meilleure communication avec les utilisateurs et une interaction plus ciblée et conversationnelle. À cette fin, nous nous sommes beaucoup rapprochés de l'idée que l'IA est une autre entité à laquelle vous pourriez poser des questions comme vous le feriez avec un être humain.

Pour parcourir les résultats du moteur de recherche Google, ou même ceux de Wikipédia, vous devez avoir un certain niveau de compétence pour en tirer des informations exploitables. Avec ces moteurs de recherche intégrant des LLM, ce qui se passe, c'est que cela évite aux utilisateurs de se retrouver dans une situation compliquée, cela leur évite d'avoir à se débrouiller seuls ou à avoir cette compétence particulière pour aller plus loin et tirer des informations des résultats.

Au lieu de cela, il peut me dire essentiellement ce que j'ai besoin de savoir. Cela dit, les LLM sont connus pour avoir des hallucinations. Ils ne sont pas connus pour être particulièrement factuels car ils sont basés sur la probabilité d’apparition du mot ou de la phrase suivante dans l’histoire d’un texte généré par l’homme. La technologie des moteurs de recherche, quant à elle, est basée sur la recherche d’informations. Il s'agit d'interroger des bases de données, de rechercher en ligne et de récupérer des informations. Marier ces deux-là a la promesse de surmonter les déficits de chacun.

D'une part, les LLM comblent le déficit des moteurs de recherche traditionnels en termes de capacité à entretenir une conversation avec les utilisateurs, tandis que d'autre part, les moteurs de recherche surmontent le problème qu'ont les LLM d'halluciner en fournissant des informations vérifiées avec des références ou des liens.

Q : Quelles sont les bonnes pratiques à garder à l’esprit lors de l’utilisation de ChatGPT pour trouver des réponses spécifiques et précises ?

Sundar : Les utilisateurs doivent être beaucoup plus systématiques dans la manière dont ils traitent les informations. Ils doivent évaluer les informations du message central. Est-ce suffisamment spécifique à ma question ou cela semble-t-il très général ? Souvent, simplement parce que les gens posent une question spécifique, ils pensent que la réponse est également spécifique, alors qu'en réalité il s'agit d'une réponse très générique.

Ils doivent voir si le résultat est très spécifique à leur situation et, si c'est le cas, ils doivent procéder à une vérification croisée avec un autre fournisseur de sources d'informations. Idéalement, il serait préférable qu'ils le fassent avec une technologie non LLM. Par exemple, si j'obtiens un résultat de ChatGPT, je peux aller sur le moteur de recherche classique de Google pour voir si j'obtiens quelque chose de similaire.

Les utilisateurs doivent également réfléchir à l’authenticité des informations. Dans quelle mesure les informations sont-elles basées sur des données fiables provenant de sources d’information crédibles plutôt que sur une simple combinaison de mots ?

Les avocats de l'affaire new-yorkaise auraient pu consulter LexisNexis, une base de données des affaires judiciaires, pour voir s'il existait une affaire spécifique portant ce nom et en savoir plus à son sujet. Souvent, les gens utilisent l’IA comme ChatGPT à la hâte, et c’est là le danger. Les gens se précipitent pour obtenir des informations qui ne sont peut-être pas entièrement vérifiées par les utilisateurs. Les réponses peuvent également comporter des biais inhérents dont nous ne nous rendons peut-être pas compte.

Jung : Les gens doivent mieux comprendre comment fonctionne l’IA générative. Même si un modèle d’IA peut se référer à un ensemble de données diversifié pour répondre à des questions, contrairement à un moteur de recherche ou à Wikipédia qui récupèrent des informations, l’IA générative crée de nouvelles informations. Ces informations ne sont pas toujours vraies ou actuelles.

Étant donné que l'IA générative propose diverses interactions, si vous posez des questions et que vous n'obtenez toujours pas de réponse claire, vous pouvez affiner vos invites pour obtenir des réponses plus spécifiques. Assurez-vous simplement de vérifier cette réponse à l'aide d'un moteur de recherche ou d'une autre plateforme.