À mesure que les LLM grandissent, ils sont plus susceptibles de donner de mauvaises réponses que d'admettre leur ignorance.
Une équipe de chercheurs en IA de l'Universitat Politècnica de València, en Espagne, a découvert qu'à mesure que les LLM (Large Language Models) populaires deviennent plus grands et plus sophistiqués, ils sont moins susceptibles d'admettre à un utilisateur qu'ils ne connaissent pas la réponse.
Dans leur étude publiée dans la revue Naturele groupe a testé la dernière version de trois des chatbots IA les plus populaires en ce qui concerne leurs réponses, leur précision et la capacité des utilisateurs à repérer les mauvaises réponses.
À mesure que les LLM sont devenus courants, les utilisateurs se sont habitués à les utiliser pour rédiger des articles, des poèmes ou des chansons et résoudre des problèmes mathématiques et d'autres tâches, et la question de l'exactitude est devenue un problème plus important. Dans cette nouvelle étude, les chercheurs se sont demandés si les LLM les plus populaires devenaient plus précis à chaque nouvelle mise à jour et ce qu'ils faisaient lorsqu'ils se trompaient.
Pour tester l'exactitude de trois des LLM les plus populaires, BLOOM, LLaMA et GPT, le groupe leur a posé des milliers de questions et a comparé les réponses qu'ils ont reçues avec les réponses des versions antérieures aux mêmes questions.
Ils ont également varié les thèmes, notamment les mathématiques, les sciences, les anagrammes et la géographie, ainsi que la capacité des LLM à générer du texte ou à effectuer des actions telles que classer une liste. Pour toutes les questions, ils ont d’abord attribué un degré de difficulté.
Ils ont constaté qu’à chaque nouvelle itération d’un chatbot, la précision s’améliorait en général. Ils ont également constaté qu’à mesure que les questions devenaient plus difficiles, la précision diminuait, comme prévu. Mais ils ont également constaté qu’à mesure que les LLM devenaient plus grands et plus sophistiqués, ils avaient tendance à être moins ouverts quant à leur propre capacité à répondre correctement à une question.
Dans les versions antérieures, la plupart des LLM répondaient en indiquant aux utilisateurs qu'ils ne trouvaient pas les réponses ou qu'ils avaient besoin de plus d'informations. Dans les versions les plus récentes, les LLM étaient plus susceptibles de deviner, ce qui conduisait à davantage de réponses en général, à la fois correctes et incorrectes. Ils ont également constaté que tous les LLM produisaient parfois des réponses incorrectes, même à des questions faciles, ce qui suggère qu'ils ne sont toujours pas fiables.
L'équipe de recherche a ensuite demandé à des volontaires d'évaluer les réponses de la première partie de l'étude comme étant correctes ou incorrectes et a constaté que la plupart avaient du mal à repérer les réponses incorrectes.