Test de langage Flunk AIS qui élimine la grammaire de l'équation

Les systèmes d’IA génératifs comme les modèles de grande langue et les générateurs de texte à l’image peuvent passer des examens rigoureux qui sont requis à quiconque cherche à devenir médecin ou avocat. Ils peuvent mieux performer que la plupart des gens des Olympiades mathématiques. Ils peuvent écrire de la poésie décente à mi-chemin, générer des peintures esthétiquement agréables et composer la musique originale.

Ces capacités remarquables peuvent donner l’impression que les systèmes d’intelligence artificielle génératrices sont sur le point de reprendre les emplois humains et ont un impact majeur sur presque tous les aspects de la société. Pourtant, bien que la qualité de leur production ne rivalise parfois que le travail par l’homme, ils sont également enclins à produire en toute confiance des informations factuellement incorrectes. Les sceptiques ont également remis en question leur capacité à raisonner.

De grands modèles de langue ont été conçus pour imiter le langage humain et la pensée, mais ils sont loin d’être humains. Dès l’enfance, les êtres humains apprennent à travers d’innombrables expériences sensorielles et interactions avec le monde qui les entoure. Les modèles de grandes langues n’apprennent pas comme les humains – ils sont plutôt formés sur de vastes mâts de données, dont la plupart sont tirés d’Internet.

Les capacités de ces modèles sont très impressionnantes, et il y a des agents de l’IA qui peuvent assister à des réunions pour vous, acheter pour vous ou gérer les réclamations d’assurance. Mais avant de remettre les clés à un modèle grand langage sur n’importe quelle tâche importante, il est important d’évaluer comment leur compréhension du monde se compare à celle des humains.

Je suis un chercheur qui étudie le langage et le sens. Mon groupe de recherche a développé une nouvelle référence qui peut aider les gens à comprendre les limites des grands modèles de langue pour comprendre le sens.

Donner un sens aux combinaisons de mots simples

Alors, qu’est-ce qui «a du sens» pour les grands modèles de langue? Notre test consiste à juger la signification des phrases nominales à deux mots. Pour la plupart des gens qui parlent couramment l’anglais, les paires de mots-noms comme « Back Ball » et « Apple Cake » sont significatives, mais « Ball Beach » et « Cake Apple » n’ont pas de sens couramment compris. Les raisons de cela n’ont rien à voir avec la grammaire. Ce sont des phrases que les gens sont venus apprendre et accepter généralement comme significatifs, en parlant et en interagissant les uns avec les autres au fil du temps.

Nous voulions voir si un modèle de langue large avait le même sens du sens des combinaisons de mots, nous avons donc construit un test qui mesurait cette capacité, en utilisant des paires de nomin-noun pour lesquelles les règles de grammaire seraient inutiles pour déterminer si une phrase avait un sens reconnaissable. Par exemple, une paire adjective-nom tel que « Ball rouge » est significative, tout en le renversant, « Ball Red », rend une combinaison de mots dénuée de sens.

La référence ne demande pas au modèle de grande langue ce que signifient les mots. Il teste plutôt la capacité du modèle grand langage à glaner le sens des paires de mots, sans compter sur la béquille d’une logique grammaticale simple. Le test n’évalue pas une bonne réponse objective en soi, mais juge si les modèles de langues importants ont un sentiment de signification similaire à celle des gens.

Nous avons utilisé une collection de 1 789 paires de substancières qui avaient été précédemment évaluées par des évaluateurs humains sur une échelle de 1, n’a pas de sens du tout, à 5, a un sens total. Nous avons éliminé les paires avec des notes intermédiaires afin qu’il y ait une séparation claire entre les paires avec des niveaux de signification élevés et faibles.

Nous avons ensuite demandé à des modèles de langue de pointe de la pointe de la technologie d’évaluer ces paires de mots de la même manière que les participants humains de l’étude précédente avaient été invités à les évaluer, en utilisant des instructions identiques. Les grands modèles de langue ont mal fonctionné. Par exemple, « Cake Apple » a été évaluée comme ayant une faible signification par les humains, avec une note moyenne d’environ 1 sur une échelle de 0 à 4. Mais tous les modèles de grande langue l’ont jugé plus significatif que 95% des humains le feraient, le noter entre 2 et 4. La différence n’était pas aussi large pour des phrases plus significatives telles que « Dog Sled », bien qu’il y ait eu des cas de grande langue donnant des phrases plus faibles que 95% des humains.

Pour aider les grands modèles de langue, nous avons ajouté plus d’exemples aux instructions pour voir si elles bénéficieraient de plus de contexte sur ce qui est considéré comme une paire de mots non significative contre une paire de mots non significative. Bien que leurs performances se soient légèrement améliorées, elle était encore beaucoup plus pauvre que celle des humains. Pour faciliter la tâche, nous avons demandé aux grands modèles de langue de porter un jugement binaire – disons-vous ou non si la phrase était logique – au lieu de noter le niveau de signification sur une échelle de 0 à 4. Ici, les performances se sont améliorées, avec GPT-4 et Claude 3 Opus mieux que les autres – mais ils étaient encore bien inférieurs aux performances humaines.

Créatif à une faute

Les résultats suggèrent que les grands modèles de langue n’ont pas les mêmes capacités de création de sens que les êtres humains. Il convient de noter que notre test repose sur une tâche subjective, où l’étalon-or est des notes données par les personnes. Il n’y a pas de réponse objectivement bonne, contrairement aux repères d’évaluation des modèles de grande langue typiques impliquant le raisonnement, la planification ou la génération de code.

Les faibles performances ont été largement motivées par le fait que les modèles de grande langue avaient tendance à surestimer le degré auquel une paire de noms a été qualifiée de significative. Ils avaient un sens des choses qui ne devraient pas avoir beaucoup de sens. D’une manière de parler, les modèles étaient trop créatifs. Une explication possible est que les paires de mots à faible invention pourraient avoir un sens dans un contexte. Une plage recouverte de boules pourrait être appelée une «plage de balle». Mais il n’y a pas d’utilisation commune de cette combinaison de noms entre les anglophones.

Si de grands modèles de langage doivent remplacer partiellement ou complètement les humains dans certaines tâches, ils devront être développés davantage afin qu’ils puissent mieux donner un sens au monde, dans un alignement plus étroit sur les façons dont les humains font. Lorsque les choses ne sont pas claires, déroutantes ou tout simplement non-sens – qu’elles soient en raison d’une erreur ou d’une attaque malveillante – il est important pour les modèles de signaler cela au lieu d’essayer de manière créative de donner un sens à presque tout.

Si un agent d’IA répond automatiquement aux e-mails reçoit un message destiné à un autre utilisateur par erreur, une réponse appropriée peut être, « désolé, cela n’a pas de sens », plutôt qu’une interprétation créative. Si quelqu’un lors d’une réunion a fait des remarques incompréhensibles, nous voulons qu’un agent qui a assisté à la réunion dise que les commentaires n’avaient pas de sens. L’agent devrait dire: « Cela semble parler d’une réclamation d’assurance différente » plutôt que de « réclamation refusée » si les détails d’une réclamation n’ont pas de sens.

En d’autres termes, il est plus important qu’un agent d’IA ait un sens du sens similaire et se comporte comme un humain lorsqu’il était incertain, plutôt que de toujours fournir des interprétations créatives.