ChatGPT peut-il co-écrire votre étude ?  (Non, mais cela peut aider pour la recherche)

Utiliser un ensemble de données à grande échelle contenant un million de conversations réelles pour étudier la manière dont les gens interagissent avec les LLM

Une équipe d’informaticiens de l’Université de Californie à Berkeley, en collaboration avec un collègue de l’Université de Californie à San Diego et un autre de l’Université Carnegie Mellon, a créé un ensemble de données à grande échelle d’un million de conversations réelles pour étudier la façon dont les gens interagissent avec grands modèles de langage (LLM). Ils ont publié un article décrivant leurs travaux et leurs conclusions sur le arXiv serveur de préimpression.

Au cours des dernières années, des LLM tels que ChatGPT ont fait irruption dans le domaine public, offrant aux utilisateurs du monde entier la possibilité d’interagir avec des chatbots soutenus par l’intelligence artificielle. Un tel accès a donné lieu à des millions de conversations « intelligentes » entre humains et chatbots, aboutissant non seulement à des discussions, mais aussi à une assistance pour des activités telles que la programmation, la rédaction de textes et la passation de tests.

Dans cette nouvelle étude, l’équipe de recherche souhaitait savoir quels types d’interactions se produisent avec les chatbots IA par pourcentage de catégorie, par exemple quel pourcentage de ces conversations portent sur la programmation ou sur un sujet connexe. Pour le savoir, ils ont obtenu les textes de plus d’un million de conversations réelles entre des personnes et leurs chatbots IA (25 d’entre eux), puis les ont analysés par type de sujet.

Les conversations étaient de nature mondiale, impliquant des personnes et leurs chatbots parlant 150 langues. Pour en savoir plus sur la nature de ces conversations, les chercheurs ont utilisé un programme pour en choisir au hasard 100 000 à étudier.

L’équipe de recherche a découvert qu’environ la moitié de toutes les conversations des chatbots IA étaient centrées sur ce qu’ils décrivent comme des sujets « sûrs », tels que la programmation informatique, les demandes d’aide pour rédiger des textes ou même le jardinage. Le sujet le plus populaire concernait la résolution d’erreurs logicielles. et des solutions.

Ils ont également constaté qu’environ 10 % de ces conversations impliquaient ce que leur équipe décrit comme des sujets « dangereux », c’est-à-dire ceux à contenu sexuel ou violent. Ils ont par exemple trouvé de nombreux exemples de personnes demandant à leur chatbot de leur proposer des histoires érotiques ou de s’engager avec elles dans des jeux de rôle sexuels.

Les chercheurs suggèrent que l’étude des conversations LLM/humaines du monde réel peut aider les fabricants de tels systèmes à définir la manière dont ils souhaitent que leurs produits soient utilisés et également à découvrir comment fonctionnent les contrôles efficaces conçus pour empêcher une utilisation « dangereuse » de ces produits.