Des absurdités verbales révèlent les limites des chatbots IA

Des absurdités verbales révèlent les limites des chatbots IA

Différents modèles de langage d’IA peuvent porter des jugements différents quant au sens ou à l’absurdité des phrases. Crédit : Institut Zuckerman de l’Université de Columbia

L’ère des chatbots à intelligence artificielle qui semblent comprendre et utiliser le langage comme nous, les humains, a commencé. Sous le capot, ces chatbots utilisent de grands modèles de langage, un type particulier de réseau neuronal. Mais une nouvelle étude montre que les grands modèles de langage restent vulnérables à la possibilité de confondre des absurdités avec du langage naturel. Pour une équipe de chercheurs de l’Université de Columbia, il s’agit d’une faille qui pourrait permettre d’améliorer les performances des chatbots et de révéler comment les humains traitent le langage.

Dans un article publié en ligne dans Intelligence des machines naturelles, les scientifiques décrivent comment ils ont défié neuf modèles de langage différents avec des centaines de paires de phrases. Pour chaque paire, les personnes ayant participé à l’étude ont choisi laquelle des deux phrases leur semblait la plus naturelle, ce qui signifie qu’elle était la plus susceptible d’être lue ou entendue dans la vie de tous les jours. Les chercheurs ont ensuite testé les modèles pour voir s’ils évalueraient chaque paire de phrases de la même manière que les humains.

Dans les tests face-à-face, les IA plus sophistiquées basées sur ce que les chercheurs appellent les réseaux neuronaux transformateurs ont tendance à mieux fonctionner que les modèles de réseaux neuronaux récurrents plus simples et les modèles statistiques qui ne font que comptabiliser la fréquence des paires de mots trouvées sur Internet ou dans des bases de données en ligne. . Mais tous les modèles ont commis des erreurs, choisissant parfois des phrases qui semblent absurdes à une oreille humaine.

« Le fait que certains des grands modèles de langage fonctionnent aussi bien suggère qu’ils capturent quelque chose d’important qui manque aux modèles les plus simples », a déclaré le Dr Nikolaus Kriegeskorte, Ph.D., chercheur principal à l’Institut Zuckerman de Columbia et co- auteur sur le papier. « Le fait que même les meilleurs modèles que nous avons étudiés puissent encore être trompés par des phrases absurdes montre que leurs calculs manquent quelque chose sur la façon dont les humains traitent le langage. »

Considérez la paire de phrases suivante que les participants humains et les IA ont évaluées dans l’étude :

C’est le récit qu’on nous a vendu.

C’est la semaine où tu meurs.

Les personnes condamnées à ces peines dans l’étude ont jugé que la première phrase était plus susceptible d’être prononcée que la seconde. Mais selon BERT, l’un des meilleurs modèles, la deuxième phrase est plus naturelle. GPT-2, peut-être le modèle le plus connu, a correctement identifié la première phrase comme étant plus naturelle, correspondant aux jugements humains.

« Chaque modèle présentait des angles morts, qualifiant certaines phrases de significatives que les participants humains pensaient être du charabia », a déclaré l’auteur principal Christopher Baldassano, Ph.D., professeur adjoint de psychologie à Columbia. « Cela devrait nous faire réfléchir sur la mesure dans laquelle nous voulons que les systèmes d’IA prennent des décisions importantes, du moins pour le moment. »

Les performances bonnes mais imparfaites de nombreux modèles sont l’un des résultats de l’étude qui intrigue le plus le Dr Kriegeskorte. « Comprendre pourquoi cet écart existe et pourquoi certains modèles surpassent d’autres peut faire progresser les modèles linguistiques », a-t-il déclaré.

Une autre question clé pour l’équipe de recherche est de savoir si les calculs des chatbots IA peuvent inspirer de nouvelles questions et hypothèses scientifiques qui pourraient guider les neuroscientifiques vers une meilleure compréhension du cerveau humain. Le fonctionnement de ces chatbots pourrait-il indiquer quelque chose sur les circuits de notre cerveau ?

Une analyse plus approfondie des forces et des faiblesses des différents chatbots et de leurs algorithmes sous-jacents pourrait aider à répondre à cette question.

« En fin de compte, nous souhaitons comprendre comment les gens pensent », a déclaré Tal Golan, Ph.D., l’auteur correspondant du journal qui a quitté cette année un poste postdoctoral à l’Institut Zuckerman de Columbia pour créer son propre laboratoire à l’Université Ben Gourion de le Néguev en Israël.

« Ces outils d’IA sont de plus en plus puissants, mais ils traitent le langage différemment de la nôtre. Comparer leur compréhension du langage à la nôtre nous donne une nouvelle approche pour réfléchir à notre façon de penser. »