Les IA de chat peuvent jouer le rôle des humains dans les enquêtes et les études pilotes
Étudier les gens dans la recherche sur l’interaction homme-machine (HCI) peut être lent. C’est pourquoi les chercheurs du Centre finlandais pour l’intelligence artificielle (FCAI) ont récemment exploité la puissance des grands modèles de langage (LLM), en particulier le GPT-3, pour générer des réponses ouvertes aux questions sur l’expérience des joueurs de jeux vidéo.
Ces réponses générées par l’IA étaient souvent plus convaincantes, telles qu’évaluées par les humains, que les réponses réelles. Ces entretiens synthétiques offrent une nouvelle approche pour collecter des données rapidement et à faible coût, ce qui peut aider à une itération rapide et à des tests initiaux des conceptions d’étude et des pipelines d’analyse de données. Cependant, toute découverte basée sur des données générées par l’IA doit également être confirmée par des données réelles.
Les chercheurs, basés à l’Université Aalto et à l’Université d’Helsinki, ont découvert des différences subtiles dans différentes versions de GPT-3 qui affectaient la diversité des réponses générées par l’IA. Mais une implication plus décourageante est que les données des plates-formes de crowdsourcing populaires peuvent désormais être automatiquement suspectes, car les réponses générées par l’IA sont difficiles à distinguer des vraies.
Mechanical Turk (MTurk) d’Amazon, par exemple, peut héberger des enquêtes ou des tâches de recherche pour HCI, la psychologie ou des domaines scientifiques connexes et payer les utilisateurs pour leur participation, mais « maintenant que les LLM sont si faciles d’accès, toutes les données autodéclarées sur Internet Les incitations économiques peuvent pousser les utilisateurs malveillants à utiliser des bots et des LLM pour générer de fausses réponses de haute qualité », déclare Perttu Hämäläinen, professeur associé à l’Université Aalto.
Les implications des données synthétiques pour l’anonymat, la vie privée et la protection des données dans le domaine médical et des domaines similaires sont claires. Cependant, dans le domaine du HCI, ou de la science plus largement, les entretiens synthétiques et les expériences artificielles soulèvent des questions sur la fiabilité des approches de crowdsourcing qui cherchent à collecter des données utilisateur en ligne.
« Les LLM ne peuvent pas et ne doivent pas remplacer les vrais participants, mais des données synthétiques peuvent être utiles pour l’exploration initiale et le pilotage d’idées de recherche », suggère Hämäläinen. « Il est peut-être temps d’abandonner des plates-formes comme Mturk pour la collecte de données réelles et de revenir aux études en laboratoire. »
La recherche a été publiée dans le Actes de la conférence CHI 2023 sur les facteurs humains dans les systèmes informatiques.