Les chatbots inventent parfois des choses. Tout le monde ne pense pas que le problème d’hallucination de l’IA est réparable
Passez suffisamment de temps avec ChatGPT et d’autres chatbots d’intelligence artificielle et il ne leur faudra pas longtemps pour débiter des mensonges.
Décrit comme une hallucination, une confabulation ou simplement une invention, c’est maintenant un problème pour chaque entreprise, organisation et lycéen essayant d’obtenir un système d’IA générative pour composer des documents et faire le travail. Certains l’utilisent pour des tâches pouvant avoir des conséquences importantes, de la psychothérapie à la recherche et à la rédaction de mémoires juridiques.
« Je ne pense pas qu’il existe aujourd’hui un modèle qui ne souffre pas d’hallucinations », a déclaré Daniela Amodei, co-fondatrice et présidente d’Anthropic, fabricant du chatbot Claude 2.
« Ils sont vraiment en quelque sorte conçus pour prédire le mot suivant », a déclaré Amodei. « Et il y aura donc un certain rythme auquel le modèle le fera de manière inexacte. »
Anthropic, OpenAI, fabricant de ChatGPT, et d’autres grands développeurs de systèmes d’IA connus sous le nom de grands modèles de langage disent qu’ils travaillent pour les rendre plus véridiques.
Combien de temps cela prendra – et s’ils seront jamais assez bons pour, disons, donner des conseils médicaux en toute sécurité – reste à voir.
« Ce n’est pas réparable », a déclaré Emily Bender, professeur de linguistique et directrice du laboratoire de linguistique informatique de l’Université de Washington. « C’est inhérent à l’inadéquation entre la technologie et les cas d’utilisation proposés. »
Beaucoup dépend de la fiabilité de la technologie d’IA générative. Le McKinsey Global Institute prévoit qu’il ajoutera l’équivalent de 2,6 billions de dollars à 4,4 billions de dollars à l’économie mondiale. Les chatbots ne sont qu’une partie de cette frénésie, qui comprend également une technologie capable de générer de nouvelles images, vidéos, musiques et codes informatiques. Presque tous les outils incluent une composante linguistique.
Google propose déjà un produit d’IA pour la rédaction d’actualités aux agences de presse, pour lesquelles la précision est primordiale. L’Associated Press explore également l’utilisation de la technologie dans le cadre d’un partenariat avec OpenAI, qui paie pour utiliser une partie des archives de texte d’AP pour améliorer ses systèmes d’IA.
En partenariat avec les instituts de gestion hôtelière indiens, l’informaticien Ganesh Bagler travaille depuis des années pour obtenir des systèmes d’IA, y compris un précurseur ChatGPT, pour inventer des recettes pour les cuisines sud-asiatiques, telles que de nouvelles versions de biryani à base de riz. Un seul ingrédient « halluciné » pourrait faire la différence entre un repas savoureux et immangeable.
Lorsque Sam Altman, PDG d’OpenAI, s’est rendu en Inde en juin, le professeur de l’Indraprastha Institute of Information Technology Delhi avait des questions pointues.
« Je suppose que les hallucinations dans ChatGPT sont toujours acceptables, mais lorsqu’une recette donne des hallucinations, cela devient un problème sérieux », a déclaré Bagler, se levant dans un auditorium bondé du campus pour s’adresser à Altman lors de l’étape de New Delhi de la tournée mondiale de l’exécutif américain de la technologie. .
« Quel est votre point de vue ? » Bagler a finalement demandé.
Altman a exprimé son optimisme, sinon un engagement pur et simple.
« Je pense que nous allons amener le problème des hallucinations à un bien meilleur endroit », a déclaré Altman. « Je pense que cela nous prendra un an et demi, deux ans. Quelque chose comme ça. Mais à ce moment-là, nous n’en parlerons plus. Il y a un équilibre entre créativité et précision parfaite, et le modèle devra apprendre quand tu veux l’un ou l’autre. »
Mais pour certains experts qui ont étudié la technologie, comme le linguiste Bender de l’Université de Washington, ces améliorations ne suffiront pas.
Bender décrit un modèle de langage comme un système pour « modéliser la probabilité de différentes chaînes de formes de mots », compte tenu de certaines données écrites sur lesquelles il a été formé.
C’est ainsi que les correcteurs orthographiques sont capables de détecter quand vous avez tapé le mauvais mot. Cela aide également à alimenter les services de traduction et de transcription automatiques, « lissant la sortie pour qu’elle ressemble davantage à un texte typique dans la langue cible », a déclaré Bender. De nombreuses personnes s’appuient sur une version de cette technologie chaque fois qu’elles utilisent la fonction « autocomplétion » lors de la rédaction de messages texte ou d’e-mails.
La dernière génération de chatbots tels que ChatGPT, Claude 2 ou Google’s Bard essaie de faire passer cela au niveau supérieur, en générant de nouveaux passages de texte entiers, mais Bender a déclaré qu’ils sélectionnaient toujours à plusieurs reprises le mot suivant le plus plausible dans une chaîne.
Lorsqu’ils sont utilisés pour générer du texte, les modèles de langage « sont conçus pour inventer des choses. C’est tout ce qu’ils font », a déclaré Bender. Ils sont bons pour imiter les formes d’écriture, telles que les contrats légaux, les scripts télévisés ou les sonnets.
« Mais comme ils ne font qu’inventer des choses, lorsque le texte qu’ils ont extrudé se trouve être interprétable comme quelque chose que nous jugeons correct, c’est par hasard », a déclaré Bender. « Même s’ils peuvent être réglés pour avoir raison la plupart du temps, ils auront toujours des modes d’échec – et les échecs se produiront probablement dans les cas où il est plus difficile pour une personne lisant le texte de les remarquer, car ils sont plus obscurs. »
Ces erreurs ne sont pas un gros problème pour les sociétés de marketing qui se sont tournées vers Jasper AI pour les aider à rédiger des argumentaires, a déclaré le président de la société, Shane Orlick.
« Les hallucinations sont en fait un bonus supplémentaire », a déclaré Orlick. « Nous avons tout le temps des clients qui nous disent comment ils ont trouvé des idées – comment Jasper a créé des histoires ou des angles auxquels ils n’auraient jamais pensé eux-mêmes. »
La startup basée au Texas travaille avec des partenaires comme OpenAI, Anthropic, Google ou Meta parent de Facebook pour offrir à ses clients un assortiment de modèles de langage d’IA adaptés à leurs besoins. Pour quelqu’un soucieux de l’exactitude, cela pourrait proposer le modèle d’Anthropic, tandis qu’une personne soucieuse de la sécurité de ses données sources propriétaires pourrait obtenir un modèle différent, a déclaré Orlick.
Orlick a déclaré qu’il savait que les hallucinations ne seraient pas faciles à réparer. Il compte sur des entreprises comme Google, qui, selon lui, doit avoir un « très haut niveau de contenu factuel » pour son moteur de recherche, pour mettre beaucoup d’énergie et de ressources dans les solutions.
« Je pense qu’ils doivent résoudre ce problème », a déclaré Orlick. « Ils doivent résoudre ce problème. Je ne sais donc pas si ce sera jamais parfait, mais cela continuera probablement à s’améliorer avec le temps. »
Les techno-optimistes, dont le co-fondateur de Microsoft, Bill Gates, prévoient des perspectives optimistes.
« Je suis optimiste sur le fait qu’avec le temps, les modèles d’IA pourront apprendre à distinguer les faits de la fiction », a déclaré Gates dans un article de blog en juillet détaillant ses réflexions sur les risques sociétaux de l’IA.
Il a cité un article de 2022 d’OpenAI comme exemple de « travail prometteur sur ce front ».
Mais même Altman, du moins pour l’instant, ne compte pas sur les modèles pour être véridiques.
« Je fais probablement confiance aux réponses qui sortent de ChatGPT le moins de quiconque sur Terre », a déclaré Altman à la foule de l’université de Bagler, en riant.