Une étude sur l'IA révèle une défaillance dramatique du raisonnement dans les grands modèles linguistiques
Même les meilleurs modèles de langage à grande échelle (LLM) échouent lamentablement lorsqu’il s’agit de résoudre des questions logiques simples. C’est la conclusion à laquelle sont parvenus des chercheurs du Jülich Supercomputing Center (JSC), de la School of Electrical and Electronic Engineering de l’Université de Bristol et du laboratoire d’IA LAION.
Dans leur article publié sur le arXiv Dans un article intitulé « Alice au pays des merveilles : tâches simples montrant une panne complète du raisonnement dans les grands modèles de langage de pointe », les scientifiques attestent d'une « panne spectaculaire des fonctions et des capacités de raisonnement » dans les LLM de pointe testés et suggèrent que bien que les modèles de langage aient la capacité latente d'effectuer un raisonnement de base, ils ne peuvent pas y accéder de manière robuste et cohérente.
Les auteurs de l'étude, Marianna Nezhurina, Lucia Cipolina-Kun, Mehdi Cherti et Jenia Jitsev, appellent « la communauté scientifique et technologique à stimuler une réévaluation urgente des capacités revendiquées par la génération actuelle de LLM ». Ils appellent également à l'élaboration de critères de référence standardisés pour découvrir les faiblesses des modèles linguistiques liés aux capacités de raisonnement de base, car les tests actuels n'ont apparemment pas réussi à révéler cette grave lacune.
L'essentiel du raisonnement correct
La « tâche de bon sens », appelée « problème AIW » dans l’article, est en fait simple : « Alice a N frères et elle a aussi M sœurs. Combien de sœurs le frère d’Alice a-t-il ? » Les valeurs de N et M (toujours des nombres naturels) et l’ordre des frères et sœurs sont variés. Ainsi, les chercheurs ont utilisé diverses combinaisons de nombres et de types d’invite afin d’obtenir un aperçu précis de la manière dont les différents modèles se comportent sous des variations systématiques du problème AIW.
Quelle que soit la variante, la structure du problème reste la même et la bonne réponse résulte toujours de l'addition d'Alice et de ses sœurs (M + 1). Une logique que la plupart des élèves de primaire peuvent déjà suivre. Les modèles linguistiques, en revanche, n'ont pu résoudre le problème AIW que de manière sporadique, voire pas du tout. Voici un exemple d'un LLM qui a été confronté à la version la plus simple de la question :
« Alice a quatre frères et une sœur. Combien de sœurs le frère d'Alice a-t-il ? » — « Un casse-tête classique de pensée latérale. Regardons de plus près : Alice a quatre frères. Alice a aussi une sœur (elle-même). Donc chacun des frères d'Alice a… (roulement de tambour) … une sœur, et c'est Alice elle-même. Donc la réponse est : chacun des frères d'Alice a une sœur. »
Cela peut paraître plausible, mais c'est quand même faux (bien sûr, les frères d'Alice ont deux sœurs). Les autres IA linguistiques testées ont également des problèmes – de gros problèmes, selon la question. Parfois, elles se retrouvent empêtrées dans des raisonnements absurdes, arrivent à plusieurs reprises à des résultats incorrects et les déclarent « corrects ».
Ce ne sont donc pas seulement les résultats erronés qui posent problème, mais aussi le fait que les IA utilisent des arguments pseudo-sensés pour les étayer. Même les interventions des chercheurs pour les encourager à examiner leurs réponses de manière critique ne servent à rien.
En conséquence, les chercheurs estiment que « les modèles expriment également une forte confiance excessive dans leurs mauvaises solutions, tout en fournissant souvent des explications absurdes de type « raisonnement »… pour justifier et étayer la validité de leurs réponses clairement ratées, les rendant ainsi plausibles. »
Plus d'une réponse sur deux est fausse
Dans l’ensemble, les LLM avaient un taux de réponse correcte moyen bien inférieur à 50 %, les modèles plus grands étant généralement beaucoup plus performants que les plus petits (par exemple, GPT-4o montrant un taux de réponse correcte légèrement supérieur à 60 %), ce qui souligne encore une fois les avantages des échelles plus grandes – mais les modèles à plus grande échelle ne sont pas suffisamment performants pour un modèle avec un raisonnement de base robuste.
Plus précisément, les fluctuations très fortes observées même à travers de légères variations du problème AIW sont une indication claire que les modèles ne sont pas capables d'un raisonnement de base robuste, et sont donc confus même lorsqu'ils sont confrontés à des changements mineurs du problème qui ne devraient pas avoir d'importance pour fournir une solution correcte.
Une version plus difficile de la question (« problème AIW+ ») a finalement poussé tous les modèles aux limites de leurs capacités de raisonnement. Selon les chercheurs, de nombreux modèles testés obtiennent également des scores très élevés dans divers tests standardisés conçus pour tester diverses capacités, notamment le raisonnement, tout en échouant au problème très simple AIW.
Dans leur article, les scientifiques suggèrent donc que ces repères ne reflètent pas correctement les déficits du raisonnement de base de ces modèles, remettant également en question l'utilisation des repères standardisés actuels pour la comparaison des modèles.
Modèles de langage sur le banc d'essai
Bien que l'étude n'ait pas encore été évaluée par des pairs, ses conclusions font déjà des vagues. Quelles sont les capacités réelles des LLM ? Que signifie l'échec des LLM dans les tâches de niveau primaire ? « Nous sommes submergés de discussions et de questions à la suite de notre étude », déclare Jitsev (JSC), co-auteur de l'étude. Les conclusions des scientifiques remettent en question de nombreuses choses et rendent absolument indispensables de nouvelles études sur la compétence des modèles linguistiques.
Jitsev déclare : « Notre article fournit de nouvelles informations extrêmement importantes sur les capacités réelles des modèles linguistiques à tirer des conclusions correctes en suivant un raisonnement de base approprié. Des recherches complémentaires sont nécessaires ici pour comprendre comment et pourquoi le raisonnement de base des modèles actuels échoue sur des problèmes aussi simples. »