Les grands modèles linguistiques commettent des erreurs de raisonnement semblables à celles des humains, selon les chercheurs

Les grands modèles linguistiques (LLM) peuvent réaliser des tâches de raisonnement abstrait, mais ils sont susceptibles de commettre de nombreuses erreurs similaires à celles commises par les humains. Andrew Lampinen, Ishita Dasgupta et leurs collègues ont testé des LLM de pointe et des humains sur trois types de tâches de raisonnement : l'inférence en langage naturel, l'évaluation de la validité logique des syllogismes et la tâche de sélection de Wason.

Les résultats sont publiés dans Nexus PNAS.

Les auteurs ont constaté que les LLM étaient sujets aux mêmes effets de contenu que les humains. Les humains et les LLM sont plus susceptibles de qualifier par erreur un argument invalide comme valide lorsque le contenu sémantique est sensé et crédible.

Les LLM sont également tout aussi mauvais que les humains dans la tâche de sélection de Wason, dans laquelle le participant se voit présenter quatre cartes avec des lettres ou des chiffres écrits dessus (par exemple, « D », « F », « 3 » et « 7 ») et on lui demande quelles cartes il devrait retourner pour vérifier l'exactitude d'une règle telle que « si une carte a un « D » d'un côté, alors elle a un « 3 » de l'autre côté ».

Les humains choisissent souvent de retourner des cartes qui n'offrent aucune information sur la validité de la règle mais qui testent la règle contraposée. Dans cet exemple, les humains auraient tendance à choisir la carte étiquetée « 3 », même si la règle n'implique pas qu'une carte avec « 3 » aurait « D » au verso. Les LLM commettent cette erreur et d'autres, mais présentent un taux d'erreur global similaire à celui des humains.

Les performances des étudiants et des LLM dans la tâche de sélection de Wason s'améliorent si les règles concernant les lettres et les chiffres arbitraires sont remplacées par des relations socialement pertinentes, telles que l'âge des personnes et le fait qu'une personne boive de l'alcool ou du soda. Selon les auteurs, les étudiants en LLM formés sur des données humaines semblent présenter certaines faiblesses humaines en termes de raisonnement et, comme les humains, peuvent nécessiter une formation formelle pour améliorer leurs performances en raisonnement logique.

Fourni par PNAS Nexus