Voici comment les chercheurs aident les AIS à obtenir leurs faits directement

L’IA a facilité la recherche d’informations: demander à Chatgpt presque tout, et le système fournit rapidement une réponse. Mais les grands modèles de langue qui alimentent les outils populaires comme le chatpt d’Openai ou le Claude d’Anthropic n’ont pas été conçus pour être exacts ou factuels. Ils «hallucinent régulièrement» et offrent des mensonges comme s’ils étaient des faits durs.

Pourtant, les gens comptent de plus en plus sur l’IA pour répondre à leurs questions. La moitié de toutes les personnes aux États-Unis âgées de 14 à 22 ans utilisent désormais une IA pour obtenir des informations, selon une étude de Harvard en 2024. Une analyse du Washington Post a révélé que plus de 17% des invites sur Chatgpt sont des demandes d’informations.

Une façon dont les chercheurs tentent d’améliorer les informations que les systèmes d’IA fournissent est que les systèmes indiquent à quel point ils sont confiants dans l’exactitude de leurs réponses. Je suis un informaticien qui étudie le traitement du langage naturel et l’apprentissage automatique. Mon laboratoire à l’Université du Michigan a développé une nouvelle façon de dériver des scores de confiance qui améliorent la précision des réponses de l’IA Chatbot. Mais les scores de confiance ne peuvent faire que beaucoup.

Populaire et problématique

Les principales sociétés technologiques intégrent de plus en plus l’IA dans les moteurs de recherche. Google propose désormais des aperçus en IA qui apparaissent sous forme de résumés de texte au-dessus de la liste habituelle des liens dans tout résultat de recherche. D’autres moteurs de recherche parvenu, tels que la perplexité, remettent en question les moteurs de recherche traditionnels avec leurs propres résumés générés par l’IA.

La commodité de ces résumés a rendu ces outils très populaires. Pourquoi parcourir le contenu de plusieurs sites Web lorsque l’IA peut fournir les informations les plus pertinentes en quelques secondes?

Les outils d’IA semblent offrir une avenue plus fluide et plus opportun pour obtenir des informations. Mais ils peuvent également faire égarer les gens ou même les exposer à des mensonges nocifs. Mon laboratoire a constaté que même les modèles d’IA les plus précis hallucinent dans 25% des réclamations. Ce taux d’hallucination est préoccupant car d’autres recherches suggèrent que l’IA peut influencer ce que les gens pensent.

Les modèles de langue hallucinent parce qu’ils apprennent et fonctionnent sur des modèles statistiques tirés d’une quantité massive de données texte, dont une grande partie provient d’Internet. Cela signifie qu’ils ne sont pas nécessairement ancrés dans des faits du monde réel. Ils manquent également d’autres compétences humaines, comme le bon sens et la capacité de faire la distinction entre les expressions sérieuses et les expressions sérieuses.

Tout cela était exposé au printemps dernier, lorsqu’un utilisateur a demandé à l’outil de vue d’ensemble de Google pour suggérer un moyen d’empêcher le fromage de glisser une pizza. L’outil a rapidement recommandé de mélanger le fromage avec de la colle. Il a ensuite été révélé que quelqu’un avait publié une fois cette recommandation évidemment ironique sur Reddit. Comme la plupart des modèles de langues, le modèle de Google avait probablement été formé avec des informations éraquées à partir d’une myriade de sources Internet, y compris Reddit. Il a ensuite interprété à tort la blague de cet utilisateur comme une véritable suggestion.

Bien que la plupart des utilisateurs ne prennent pas la recommandation de colle au sérieux, certaines informations hallucinées peuvent causer des dommages réels. Les moteurs de recherche et les chatbots de l’IA ont été pris à plusieurs reprises en citant la pseudoscience raciste démystifiée comme fait. L’année dernière, Perplexity AI a déclaré qu’un policier en Californie était coupable d’un crime qu’il n’avait pas commis.

Faire preuve de confiance

La construction de systèmes d’IA qui priorise la véracité est difficile, mais pas impossible. Une façon dont les développeurs d’IA abordent ce problème consiste à concevoir des modèles qui communiquent leur confiance dans leurs réponses. Cela se présente généralement sous la forme d’un score de confiance – un nombre indiquant quelle est la probabilité qu’un modèle fournisse des informations précises. Mais l’estimation de la confiance d’un modèle dans le contenu qu’il fournit est également une tâche compliquée.

Une approche commune pour faire cette estimation consiste à demander au modèle de répondre à plusieurs reprises à une requête donnée. Si le modèle est fiable, il devrait générer des réponses similaires à la même requête. S’il ne peut pas répondre de manière cohérente, l’IA n’a probablement pas les informations dont il a besoin pour répondre avec précision. Au fil du temps, les résultats de ces tests deviennent les scores de confiance de l’IA pour des sujets spécifiques.

D’autres approches évaluent la précision de l’IA en invitant directement et en formant des modèles à dire à quel point ils sont confiants dans leurs réponses. Mais cela n’offre aucune responsabilité réelle. Permettre à une IA d’évaluer sa propre confiance laisse la place au système pour se donner une note de passage et continuer à offrir des informations fausses ou nuisibles.

Mon laboratoire a conçu des algorithmes qui attribuent des scores de confiance en décomposant les réponses d’un grand modèle dans les affirmations individuelles qui peuvent être automatiquement croisées avec Wikipedia. Nous évaluons l’équivalence sémantique entre la sortie du modèle AI et les entrées Wikipedia référencées pour les affirmations. Notre approche permet à l’IA d’évaluer rapidement la précision de toutes ses déclarations. Bien sûr, s’appuyant sur les articles de Wikipedia, qui sont généralement mais pas toujours exacts, a également ses limites.

La publication des scores de confiance ainsi que les réponses d’un modèle pourraient aider les gens à réfléchir de manière plus critique à la véracité de l’information que ces outils fournissent. Un modèle linguistique peut également être formé pour retenir des informations s’il gagne un score de confiance qui tombe en dessous d’un seuil défini. Mon laboratoire a également montré que les scores de confiance peuvent être utilisés pour aider les modèles d’IA à générer des réponses plus précises.

Limites de confiance

Il y a encore un long chemin à parcourir pour assurer une IA vraiment précise. La plupart de ces approches supposent que les informations nécessaires pour évaluer correctement la précision d’une IA se trouvent sur Wikipedia et d’autres bases de données en ligne.

Mais lorsque des informations précises ne sont tout simplement pas si faciles à trouver, les estimations de confiance peuvent être trompeuses. Pour tenir compte de cas comme ceux-ci, Google a développé des mécanismes spéciaux pour évaluer les déclarations générées par l’IA. Mon laboratoire a également compilé un ensemble de données d’analyse comparative d’invites qui provoquent généralement des hallucinations.

Mais toutes ces approches vérifient les faits de base – il n’y a pas de méthodes automatisées pour évaluer d’autres facettes de contenu long, telles que les relations de cause à effet ou la capacité d’une IA à raisonner sur un texte composé de plus d’une phrase.

Le développement d’outils qui améliorent ces éléments de l’IA sont des étapes clés pour faire de la technologie une source d’informations dignes de confiance et éviter les dommages que la désinformation peut causer.