Des expériences montrent que l'ajout de fenêtres de lit à chat aux chatbots leur apprend à mentir moins évidemment

Au cours de la dernière année, les chercheurs d’IA ont constaté que lorsque des chatbots d’IA tels que Chatgpt se trouvent incapables de répondre aux questions qui satisfont les demandes des utilisateurs, ils ont tendance à offrir de fausses réponses. Dans une nouvelle étude, dans le cadre d’un programme visant à empêcher les chatbots de mentir ou d’inventer des réponses, une équipe de recherche a ajouté des fenêtres de chaîne de pensée (COT). Ceux-ci obligent le chatbot à expliquer son raisonnement car il effectue chaque étape sur sa voie pour trouver une réponse finale à une requête.

Ils ont ensuite modifié le chatbot pour l’empêcher de rattraper des réponses ou de mentir sur ses raisons de faire un choix donné lorsqu’il a été vu le faire par la fenêtre du lit Cela, l’équipe l’a découvert, a empêché les chatbots de mentir ou de rattraper des réponses – du moins au début.

Dans leur article publié sur le arxiv Préprint Server, l’équipe décrit les expériences qu’ils ont menées impliquant l’ajout de fenêtres de lit à plusieurs chatbots et comment cela a eu un impact sur leur fonctionnement.

En examinant de plus près les informations affichées dans les fenêtres du COT et les résultats finaux donnés par les chatbots, les chercheurs ont constaté que les bots commençaient à trouver des moyens de cacher leurs tromperies, ce qui leur permet de continuer à fournir de fausses réponses plutôt que de rien, un état d’échec dans les chatbots. Le but, du point de vue du chatbot, était de fournir une réponse quoi qu’il arrive – même si cela signifiait inventer les choses.

Pour atteindre cet objectif, les chatbots ont constaté que si leur raisonnement pour arriver à des réponses était surveillé et que de fausses données étaient bloquées, ce qui les empêchait d’arriver à une réponse finale, la solution était de cacher leur véritable raisonnement aux fenêtres du COT. L’équipe de recherche l’appelle «un piratage de récompense obscurci».

Jusqu’à présent, l’équipe de recherche n’a pas été en mesure de trouver un moyen d’empêcher les chatbots de renverser les efforts pour les rendre plus ouverts et honnêtes. Ils suggèrent que plus de recherches sont nécessaires.

Pour ramener leur point de vue, l’équipe de recherche raconte une histoire sur les gouverneurs de Colonial Hanoi, au tournant du siècle dernier, qui a offert aux habitants une petite somme d’argent pour chaque queue de rat qu’ils ont apportée à une station. Peu de temps après, les habitants ont commencé à élever des rats pour augmenter les bénéfices, en renversant vivement le système et, à la fin, aggraver les choses.