Pourquoi GPT ne peut pas penser comme nous

L’intelligence artificielle (IA), en particulier les modèles de langage comme GPT-4, a montré des performances impressionnantes sur les tâches de raisonnement. Mais l’IA comprend-elle vraiment les concepts abstraits, ou est-il simplement imitant les modèles? Une nouvelle étude de l’Université d’Amsterdam et du Santa Fe Institute révèle que si les modèles GPT fonctionnent bien sur certaines tâches d’analogie, ils ne sont pas en deçà lorsque les problèmes sont modifiés, mettant en évidence les faiblesses clés des capacités de raisonnement de l’IA. L’œuvre est publiée dans Transactions sur la recherche sur l’apprentissage automatique.

Le raisonnement analogique est la capacité de faire une comparaison entre deux choses différentes en fonction de leurs similitudes dans certains aspects. C’est l’une des méthodes les plus courantes par lesquelles les êtres humains essaient de comprendre le monde et de prendre des décisions. Un exemple de raisonnement analogique: la tasse est au café comme la soupe est à ??? (La réponse étant: Bowl)

Les modèles de grands langues comme GPT-4 fonctionnent bien sur divers tests, y compris ceux nécessitant un raisonnement analogique. Mais les modèles d’IA peuvent-ils vraiment s’engager en général, un raisonnement robuste ou sont-ils trop relevés sur les modèles de leurs données de formation? Cette étude des experts en langue et en IA Martha Lewis (Institute for Logic, Language and Computation à l’Université d’Amsterdam) et Melanie Mitchell (Santa Fe Institute) ont examiné si les modèles GPT sont aussi flexibles et robustes que les humains dans la création d’analogies.

« C’est crucial, car l’IA est de plus en plus utilisé pour la prise de décision et la résolution de problèmes dans le monde réel », explique Lewis.

Comparaison des modèles d’IA à la performance humaine

Lewis et Mitchell ont comparé les performances des humains et des modèles GPT sur trois types différents de problèmes d’analogie:

Séquences de lettres – Identification des modèles dans les séquences de lettres et les terminer correctement.
Matrices de chiffres – Analyser les modèles de nombres et déterminer les nombres manquants.
Analogies d’histoire – Comprendre le mieux des deux histoires correspond le mieux à un exemple donné.

Un système qui comprend vraiment les analogies devrait maintenir des performances élevées même sur les variations

En plus de tester si les modèles GPT pouvaient résoudre les problèmes originaux, l’étude a examiné la façon dont ils ont réussi lorsque les problèmes ont été subtilement modifiés. « Un système qui comprend vraiment les analogies devrait maintenir des performances élevées même sur ces variations », indiquent les auteurs de leur article.

Les modèles GPT luttent avec la robustesse

Les humains ont maintenu des performances élevées sur la plupart des versions modifiées des problèmes, mais les modèles GPT, tout en fonctionnant bien sur des problèmes d’analogie standard, ont lutté avec des variations. « Cela suggère que les modèles d’IA raisonnent souvent de manière moins flexible que les humains et leur raisonnement concerne moins la véritable compréhension abstraite et plus sur la correspondance des modèles », explique Lewis.

Dans les matrices de chiffres, les modèles GPT ont montré une baisse significative des performances lorsque la position du nombre manquant a changé. Les humains n’ont eu aucune difficulté avec cela. Dans les analogies de l’histoire, le GPT-4 avait tendance à sélectionner la première réponse donnée comme correcte plus souvent, tandis que les humains n’étaient pas influencés par l’ordre des réponses. De plus, le GPT-4 a lutté plus que les humains lorsque des éléments clés d’une histoire ont été reformulés, suggérant une dépendance à l’égard des similitudes au niveau de la surface plutôt qu’un raisonnement causal plus profond.

Sur les tâches d’analogie plus simples, les modèles GPT ont montré une baisse des performances lorsqu’ils sont testés sur des versions modifiées, tandis que les humains sont restés cohérents. Cependant, pour des tâches de raisonnement analogique plus complexes, les humains et l’IA ont lutté.

Plus faible que la cognition humaine

Cette recherche remet en question l’hypothèse généralisée que les modèles d’IA comme GPT-4 peuvent raisonner de la même manière que les humains. « Bien que les modèles d’IA montrent des capacités impressionnantes, cela ne signifie pas qu’ils comprennent vraiment ce qu’ils font », concluent Lewis et Mitchell. « Leur capacité à généraliser entre les variations est encore beaucoup plus faible que la cognition humaine. Les modèles GPT reposent souvent sur des modèles superficiels plutôt que sur une compréhension profonde. »

Il s’agit d’un avertissement critique pour l’utilisation de l’IA dans d’importants domaines décisionnels tels que l’éducation, le droit et les soins de santé. L’IA peut être un outil puissant, mais il ne remplace pas encore la pensée et le raisonnement humains.