Les chatbots IA nous parlent comme s’ils étaient capables de raisonner. C'est un gros mensonge

Les chatbots IA nous parlent comme s’ils étaient capables de raisonner. C'est un gros mensonge

On demande quelque chose à ChatGPT et il semble que ce chatbot soit vraiment capable non seulement de comprendre ce que nous demandons, mais aussi de répondre de manière humaine. Comme si je pouvais raisonner. Ces derniers temps, nous voyons effectivement comment des entreprises comme OpenAI (avec o1) ou Microsoft (avec Think Deeper) se vantent de modèles qui raisonnent, mais rien ne pourrait être plus éloigné de la réalité.

Les chatbots à l'étude. Six chercheurs d'Apple souhaitaient tester à la fois des modèles d'IA Open Source et des modèles propriétaires. L'idée est de vérifier vos limites en matière de « raisonnement ». Dans l'étude résultant de ce projet, ils analysent Llama, Phi, Gemma, Mistral, ainsi que GPT-4o et o1.

Les benchmarks nous trompent. Parmi les tests, se distingue GSM8K, un benchmark développé par OpenAI et très populaire pour évaluer la capacité de raisonnement mathématique de ces modèles d'IA. GPT-3 (175B) a obtenu un score de 35 %, et aujourd'hui, des modèles de paramètres 3B beaucoup plus petits dépassent 85 % et certains des grands LLM dépassent 95 %. Cela veut-il dire qu’ils raisonnent vraiment ? Il s’avère que ce n’est pas vraiment le cas.

Jouer pour changer les valeurs. Mehrdad Farajtabar, l'un des responsables de l'étude – un autre de ceux qui l'ont signé est Samy Bengio, frère de Yoshua Bengio – a expliqué dans un fil sur X (Twitter) comment ils avaient conçu leur analyse. Ils ont développé un outil appelé GSM-Symbolic avec lequel ils ont pu générer des expériences contrôlées avec différentes valeurs et noms pour voir comment les modèles d'IA se comportent lorsqu'ils sont modifiés.

Précision discutable. La première chose que ces chercheurs ont découverte est que la précision du test GSM8K était assez variable. Mais Farajtabar a souligné à quel point ce « raisonnement » était particulièrement fragile. « Les LLM restent très sensibles aux changements de noms propres (personnes, aliments, objets) et encore plus lorsque les nombres sont modifiés. Les résultats des étudiants à un examen de mathématiques changeraient-ils de 10 % si l'on changeait seulement les noms des choses qui sont énoncées ? dans les problèmes ?

GSM 1
GSM 1

L’ajout ou la suppression d’informations affecte trop la capacité de « raisonnement » du LLM, ont conclu ces chercheurs.

Encore plus difficile. Si une phrase était supprimée de l'énoncé du problème, une ou deux autres étaient ajoutées, les performances diminuaient et la variabilité des résultats du test GSM8K augmentait, ce qui, pour ces chercheurs, rend les modèles « de moins en moins fiables ».

Trompons l'IA. Pour tourner la vis encore plus loin, les chercheurs ont décidé d'ajouter au problème une phrase qui semblait pertinente mais qui ne contribuait pas réellement au processus de « raisonnement » ni à la conclusion. Ce qui s’est passé, c’est que les modèles ont considérablement réduit leurs performances. Cette information non pertinente a provoqué une baisse de leurs capacités précisément parce qu'ils ont essayé d'en tenir compte, alors qu'en réalité, s'ils « raisonnaient », ils découvriraient que cela n'avait aucun sens de le faire.

Astuces d'échecs. L’étude de ces chercheurs confirme ce que les analystes et les experts soulignent depuis un certain temps. Des tests simples, comme demander à un chatbot de compter les R ou de multiplier des matrices, le démontrent, mais nous pouvons également le constater si nous demandons à un chatbot à IA générative de jouer aux échecs : le plus normal est qu'il finisse par faire des mouvements illégaux.

Attention à ne pas faire confiance à votre chatbot. Une fois le message clair pour ceux qui utilisent ces chatbots, mais aussi pour ceux qui les développent. La véritable capacité de raisonnement de ces modèles est un mythe, ce qui signifie que, par exemple, créer des agents d’IA fiables qui agissent sur certaines informations peut s’avérer très contre-productif.

À Simseo | L’un des pionniers de l’IA s’est penché sur l’IA générative actuelle et est arrivé à la conclusion : c’est stupide