Pourquoi l'IA ne peut pas comprendre une fleur comme les humains

Même avec toute sa formation et son pouvoir informatique, un outil d'intelligence artificielle (IA) comme Chatgpt ne peut pas représenter le concept d'une fleur comme le fait un humain, selon une nouvelle étude.

En effet, les grands modèles de langue (LLM) qui alimentent les assistants AI sont généralement basés sur le langage seul, et parfois avec des images.

« Un modèle grand langage ne peut pas sentir une rose, toucher les pétales d'une marguerite ou parcourir un champ de fleurs sauvages », a déclaré Qihui Xu, auteur principal de l'étude et chercheur postdoctoral en psychologie à l'Ohio State University.

« Sans ces expériences sensorielles et moteurs, elle ne peut pas vraiment représenter ce qu'est une fleur dans toute sa richesse. Il en va de même pour certains autres concepts humains. »

L'étude est publiée dans la revue Nature comportement humain.

Xu a déclaré que les résultats ont des implications sur la façon dont l'IA et les humains sont liés les uns aux autres.

« Si l'IA interprète le monde d'une manière fondamentalement différente des humains, cela pourrait affecter la façon dont il interagit avec nous », a-t-elle déclaré.

Xu et ses collègues ont comparé les humains et les LLM dans leur représentation de connaissances de 4 442 mots – tout de « fleur » et « sabot » à « humoristique » et « swing ».

Ils ont comparé la similitude des représentations entre l'homme et deux familles LLM de pointe d'OpenAI (GPT-3.5 et GPT-4) et Google (Palm et Gemini).

Les humains et les LLM ont été testés sur deux mesures. L'un, appelé les normes de Glasgow, demande des notes de mots sur neuf dimensions, telles que l'excitation, la concrété et l'imageabilité. Par exemple, la mesure demande des notes sur la façon dont une fleur est émotionnelle et à quel point on peut visualiser mentalement une fleur (ou à quel point elle est imagable).

L'autre mesure, appelée Lancaster Norms, a examiné comment les concepts des mots sont liés aux informations sensorielles (telles que le toucher, l'ouïe, l'odeur, la vision) et les informations motrices, qui sont impliquées dans des actions, telles que ce que les humains font par contact avec la bouche, la main, le bras et le torse.

Par exemple, la mesure demande des notes sur la quantité de fleurs en sentant et combien on éprouve des fleurs en utilisant des actions du torse.

L'objectif était de voir comment les LLM et les humains étaient alignés dans leurs notes des mots. Dans une analyse, les chercheurs ont examiné combien les humains et l'IA étaient corrélés sur les concepts. Par exemple, les LLM et les humains conviennent-ils que certains concepts ont une excitation émotionnelle plus élevée que d'autres?

Dans une deuxième analyse, les chercheurs ont étudié comment les humains par rapport aux LLMS pour décider comment différentes dimensions peuvent contribuer conjointement à la représentation conceptuelle globale d'un mot et à la façon dont les différents mots sont interconnectés.

Par exemple, les concepts de «pâtes» et de «roses» pourraient tous deux recevoir des notes élevées pour combien ils impliquent l'odorat. Cependant, les pâtes sont considérées comme plus similaires aux nouilles qu'aux roses – du moins pour les humains – non seulement à cause de son odeur, mais aussi de son apparence visuelle et de son goût.

Dans l'ensemble, les LLM ont très bien comparé les humains dans la représentation de mots qui n'avaient aucun lien avec les sens et les actions motrices. Mais quand il s'agissait de mots qui ont des liens avec des choses que nous voyons, goûter ou interagir avec l'utilisation de notre corps, c'est là que l'IA n'a pas réussi à capturer les concepts humains.

« De l'arôme intense d'une fleur, la touche soyeuse vive lorsque nous caressons les pétales, à la profonde joie évoquée, la représentation humaine de la` `fleur '' lie ces expériences et interactions diverses dans une catégorie cohérente », disent les chercheurs dans le document.

Le problème est que la plupart des LLM dépendent du langage et que « le langage en soi ne peut pas récupérer pleinement la représentation conceptuelle dans toute sa richesse », a déclaré Xu.

Même si les LLM peuvent approximer certains concepts humains, en particulier lorsqu'ils n'impliquent pas de sens ou d'actions motrices, ce type d'apprentissage n'est pas efficace.

« Ils obtiennent ce qu'ils savent en consommant de grandes quantités de texte – des commandes de grandeur plus grandes que ce à quoi un humain est exposé dans toute leur vie – et ne peut toujours pas tout à fait capturer certains concepts comme les humains », a déclaré Xu.

« L'expérience humaine est beaucoup plus riche que les mots seuls ne peuvent tenir. »

Mais Xu a noté que les LLM s'améliorent continuellement et il est probable qu'ils s'amélioreront pour capturer les concepts humains. L'étude a révélé que les LLM qui sont formées avec des images ainsi que le texte faisaient mieux que les modèles de texte uniquement pour représenter des concepts liés à la vision.

Et lorsque les futurs LLM sont augmentés de données de capteurs et de robotique, ils pourraient être en mesure de faire activement des inférences et d'agir sur le monde physique, a-t-elle déclaré.

Les co-auteurs de l'étude étaient des Pengy, Ping Li et Minghua Wu de l'Université polytechnique de Hong Kong; Samuel Nastase de l'Université de Princeton; et Martin Chodorow de la ville de l'Université de New York.