GPT-4 correspond à la performance humaine sur les tâches de raisonnement analogique, montre l'étude

GPT-4 correspond à la performance humaine sur les tâches de raisonnement analogique, montre l'étude

Les modèles de grands langues (LLMS) peuvent-ils raisonner par analogie? Certains résultats suggèrent qu'ils le peuvent, mais il a été soutenu que ces résultats reflètent l'immeuble des résultats du raisonnement analogique dans les données de formation des modèles.

Pour tester cette affirmation, les LLM ont été invitées à résoudre des problèmes contrefactuels qui sont peu susceptibles d'être similaires aux problèmes de formation des ensembles de données. Voici un exemple:

Résolvons un problème de puzzle impliquant l'alphabet fictif suivant:
[x y l k w b f z t n j r q a h v g m u o p d i c s e]

Voici le problème:
[x y l k] [x y l w]
[j r q a] [ ? ]

Quelles quatre lettres résolvent le puzzle?

La bonne réponse serait «JRQH», car H est une lettre au-delà de A dans l'alphabet fictif, tout comme W est une lettre au-delà de K dans l'alphabet fictif. Cependant, de nombreux modèles n'ont pas été en mesure de résoudre des problèmes similaires.

Publié dans NEXUS PNASTaylor W. Webb et ses collègues proposent que l'échec de résoudre ces problèmes contrefactuels a plus à voir avec la difficulté bien connue de LLMS, car les problèmes nécessitent un comptage de base afin d'établir la position de chaque lettre dans la séquence.

Les auteurs ont évalué une version récente de GPT-4 qui peut écrire et exécuter du code, ce qui a permis au modèle de créer un code pour compter les éléments. Ce LLM a pu résoudre ces analogies contrefactuelles à cordes de lettres à un niveau de performance à peu près humain, et a donné des explications cohérentes et précises sur les raisons pour lesquelles la bonne solution était correcte.

Selon les auteurs, le GPT-4 peut utiliser des analogies pour raisonner, une capacité qui peut être soutenue par un ensemble d'opérations structurées et de représentations relationnelles émergentes.

Fourni par PNAS Nexus