Que font réellement les chatbots IA lorsqu’ils « hallucinent » ? Voici pourquoi les experts n'aiment pas le terme

Que font réellement les chatbots IA lorsqu’ils « hallucinent » ? Le terme illustre-t-il avec précision pourquoi les outils d’IA dits génératifs – presque omniprésents dans de nombreux contextes professionnels – génèrent parfois de fausses informations lorsqu’ils y sont invités ?

Alors que le débat sur la véritable nature, la capacité et la trajectoire des applications de l’IA couve en arrière-plan, un expert de premier plan dans le domaine s’oppose au concept d’« hallucination », arguant qu’il explique en grande partie le fonctionnement erroné des modèles d’IA actuels.

« De manière générale, nous n’aimons pas ce terme parce que ces modèles font des erreurs et nous pouvons expliquer pourquoi ils font des erreurs », explique Usama Fayyad, directeur exécutif de l’Institut d’intelligence artificielle expérientielle de la Northeastern University.

Fayyad affirme que le terme hallucination a été popularisé par Google en réponse au lancement du très influent ChatGPT d’OpenAI. Bien qu’il serve d’analogue convaincant aux qualités et faiblesses humaines de la technologie, le terme est quelque peu abusif avec des implications potentiellement négatives pour la compréhension du public de la technologie de l’IA.

« Quand vous parlez d’hallucinations, vous attribuez trop de choses au modèle », poursuit Fayyad. « Vous attribuez une intention ; vous attribuez une conscience ; vous attribuez un mode de fonctionnement rationnel par défaut ; et vous attribuez une certaine forme de compréhension de la part de la machine. »

Fayyad souligne que les chatbots « n’ont aucune intention ; [they] n’ont pas de compréhension. » Il dit que les types d’erreurs qu’ils commettent ne sont pas si différents des erreurs inhérentes à tout modèle de prévision, comme celles utilisées dans les prévisions économiques ou financières, où les erreurs sont facilement anticipées et prises en compte de manière appropriée.

La fréquence à laquelle les chatbots « hallucinent » est encore peu connue, même si certaines entreprises ont travaillé dur pour tenter de quantifier les taux d’erreur des grands modèles de langage largement utilisés. L’une de ces sociétés, une start-up fondée par d’anciens employés de Google appelée Vectara, a découvert que les modèles d’OpenAI hallucinaient environ 3 % du temps, tandis qu’une plateforme de Google appelée « Palm chat » générait de fausses informations dans un taux de 27 %, selon le New York Times. Fois.

Le fait que le résultat de la saisie semi-automatique produit par les modèles d’IA génératifs actuels dépend encore davantage de l’invite, explique Fayyad, complique encore les choses. Ajustez un tout petit peu l’invite et vous obtenez un résultat très différent.

Byron Wallace, directeur du programme de science des données et professeur agrégé interdisciplinaire Sy et Laurie Sternberg au Khoury College, a un jour qualifié ces conceptions rapides de « pas tout à fait d’ingénierie rapide » – le processus de conception d’entrées pour les chatbots – mais plutôt d’« incantations ». et la magie noire. »

En réduisant tout ce tour de passe-passe, Fayyad souhaite simplifier la conversation autour de l’application potentielle des outils d’IA générative.

« Je pourrais dire que ces modèles ont halluciné ; ou, pour être plus précis, je pourrais dire, eh bien, le modèle a fait une erreur, et nous comprenons que ces modèles font des erreurs », dit Fayyad.

Pour mélanger davantage les métaphores, Fayyad fait valoir qu’une plus grande confiance est nécessaire entre les êtres humains et les machines IA à l’avenir. Il affirme que « les praticiens, les utilisateurs et les organisations doivent avoir confiance dans la manière dont un système prend des décisions, dans son fonctionnement et dans le fait qu’il ne présentera pas de comportements irréguliers. [unpredictable] ou un comportement dangereux. »

« Le sujet de l’IA engendre le mystère et l’ambiguïté », écrit-il. « Démystifier la technologie et les comportements présentés par les algorithmes, bons ou mauvais, établit de réels progrès et crée des résultats précieux sur tous les fronts : théorique, académique, commercial et pratique. »

Dans l’état actuel des choses, les grands modèles de langage tels que ChatGPT fonctionnent comme des applications de « saisie semi-automatique glorifiées » formées sur d’énormes quantités de texte numérique provenant de bases de données en ligne, d’articles et d’autres sources. « Ils produisent simplement des résultats comme n’importe quel appareil de saisie semi-automatique : votre téléphone portable ou autre. »

« Ces modèles ne font pas la différence entre une séquence correcte et une erreur », explique Fayyad. « Comprendre où se produit cette erreur et essayer de s’en remettre est le problème très difficile de l’IA pour lequel nous n’avons pas de très bonnes solutions aujourd’hui. »

Dans le but de maîtriser les hallucinations, les chercheurs ont commencé à utiliser d’autres grands modèles de langage pour vérifier l’exactitude de divers chatbots. Bien entendu, ces outils sont également capables de générer des erreurs (hallucinations), note Fayyad.

Il souligne la nécessité pour les êtres humains de continuer à vérifier les résultats générés par ces outils – un concept appelé « humain dans la boucle ».

« C’est à vous, l’utilisateur, de décider si la saisie semi-automatique n’est pas correcte », puis de la corriger », dit-il.