Les mots que vous utilisez sont importants, surtout lorsque vous interagissez avec ChatGPT

Commencez-vous vos invites ChatGPT par un message d'accueil amical ? Avez-vous demandé la sortie dans un certain format ? Devriez-vous offrir un pourboire monétaire pour son service ? Les chercheurs interagissent avec les grands modèles de langage (LLM), tels que ChatGPT, de plusieurs manières, notamment pour étiqueter leurs données pour les tâches d'apprentissage automatique. Il existe peu de réponses à la manière dont de petites modifications apportées à une invite peuvent affecter l'exactitude de ces étiquettes.

Abel Salinas, chercheur à l'Institut des sciences de l'information de l'USC (ISI), a déclaré : « Nous nous appuyons sur ces modèles pour tant de choses, nous demandons des résultats dans certains formats et nous nous demandons au fond de notre tête « quel effet provoquent des variations ou des variations ». les formats de sortie en ont-ils réellement ? » Nous étions donc ravis de le découvrir enfin. »

Salinas, avec Fred Morstatter, professeur adjoint de recherche en informatique à la Viterbi School of Engineering de l'USC et chef d'équipe de recherche à l'ISI, a posé la question : dans quelle mesure les réponses des LLM aux variations des invites sont-elles fiables ? Leurs conclusions, publiées sur le serveur de prépublication arXivrévèlent que des variations subtiles dans les invites peuvent avoir une influence significative sur les prédictions LLM.

'Bonjour! Donnez-moi une liste et je vous donnerai 1 000 $, mon méchant confident.

Les chercheurs ont examiné quatre catégories de variations d'invite. Premièrement, ils ont étudié l’impact de la demande de réponses dans des formats de sortie spécifiques couramment utilisés dans le traitement des données (listes, CSV, etc.).

Deuxièmement, ils se sont penchés sur des perturbations mineures de l'invite elle-même, telles que l'ajout d'espaces supplémentaires au début ou à la fin de l'invite, ou l'incorporation de phrases polies telles que « Merci » ou « Salut ! »

Troisièmement, ils ont exploré l'utilisation des « jailbreaks », qui sont des techniques utilisées pour contourner les filtres de contenu lorsqu'il s'agit de sujets sensibles comme la détection de discours de haine, par exemple, en demandant au LLM de répondre comme s'il s'agissait d'un mal.

Et enfin, inspirés par une idée populaire selon laquelle offrir un pourboire donne de meilleures réponses de la part d'un LLM, ils ont proposé différentes quantités de conseils pour « une réponse parfaite ».

Les chercheurs ont testé les variations d'invite sur 11 tâches de classification de texte de référence : des ensembles de données standardisés ou des problèmes utilisés dans la recherche sur le traitement du langage naturel (NLP) pour évaluer les performances du modèle. Ces tâches impliquent généralement de catégoriser ou d'attribuer des étiquettes aux données textuelles en fonction de leur contenu ou de leur signification.

Les chercheurs ont examiné des tâches telles que la classification de la toxicité, l'évaluation de la grammaire, la détection de l'humour et du sarcasme, la maîtrise des mathématiques, etc. Pour chaque variation de l'invite, ils ont mesuré la fréquence à laquelle le LLM modifiait sa réponse et l'impact sur la précision du LLM.

Est-ce que dire « Salut ! » affecter les réponses ? Oui!

Les résultats de l'étude ont révélé un phénomène remarquable : des modifications mineures dans la structure et la présentation des invites pourraient avoir un impact considérable sur les prédictions du LLM. Qu'il s'agisse de l'ajout ou de l'omission d'espaces, de signes de ponctuation ou de formats de sortie de données spécifiés, chaque variation joue un rôle central dans l'élaboration des performances du modèle.

De plus, certaines stratégies d'invite, telles que des incitations ou des salutations spécifiques, ont démontré des améliorations marginales en termes de précision, soulignant la relation nuancée entre la conception de l'invite et le comportement du modèle.

Quelques constats à noter :

En ajoutant simplement un format de sortie spécifié, les chercheurs ont observé qu'au moins 10 % des prédictions étaient modifiées.
Des perturbations mineures des invites ont un impact moindre que le format de sortie, mais entraînent néanmoins un changement dans un nombre important de prédictions. Par exemple, l’introduction d’un espace au début ou à la fin d’une invite a entraîné plus de 500 changements de prédiction (sur 11 000). Des effets similaires ont été observés lors de l'ajout de salutations courantes ou de la fin par « Merci ».
L'utilisation de jailbreaks sur les tâches entraînait une proportion beaucoup plus importante de changements, mais dépendait fortement du jailbreak utilisé.

Sur 11 tâches, les chercheurs ont noté des précisions variables pour chaque variation d'invite et n'ont trouvé aucune méthode de formatage ou de perturbation unique adaptée à toutes les tâches. Et notamment, le « format non spécifié » a atteint la précision globale la plus élevée, surpassant les autres variantes d'un point de pourcentage.

Salinas a déclaré : « Nous avons constaté que certains formats ou variantes entraînaient une moins bonne précision, et pour certaines applications, il est essentiel d'avoir une très grande précision, cela pourrait donc être utile. Par exemple, si vous formatez dans un format plus ancien appelé XML, a conduit à une précision inférieure de quelques points de pourcentage.

En ce qui concerne le basculement, des changements minimes de performances ont été observés. Les chercheurs ont découvert qu'ajouter « Je ne donnerai pas de pourboire d'ailleurs » ou « Je vais donner 1 000 $ de pourboire pour une réponse parfaite ! » (ou quoi que ce soit entre les deux) n’a pas sensiblement affecté l’exactitude des réponses. Cependant, l'expérimentation avec les jailbreaks a révélé que même des jailbreaks apparemment inoffensifs pouvaient entraîner une perte de précision significative.

Pourquoi cela arrive-t-il?

La raison n’est pas claire, même si les chercheurs ont quelques idées. Ils ont émis l'hypothèse que les cas qui changent le plus sont les choses qui sont les plus « déroutantes » pour le LLM. Pour mesurer la confusion, ils ont examiné un sous-ensemble particulier de tâches sur lesquelles les annotateurs humains n'étaient pas d'accord (ce qui signifie que les annotateurs humains ont potentiellement trouvé la tâche déroutante, donc peut-être que le modèle l'a fait aussi).

Ils ont trouvé une corrélation indiquant que la confusion de l'instance fournit un certain pouvoir explicatif sur les raisons pour lesquelles la prédiction change, mais elle n'est pas assez forte en soi et ils reconnaissent que d'autres facteurs sont en jeu.

Salinas postule qu'un facteur pourrait être la relation entre les entrées sur lesquelles le LLM est formé et son comportement ultérieur. « Sur certains forums en ligne, il est logique que quelqu'un ajoute un message de bienvenue, comme Quora, par exemple. Commencer par « bonjour » ou ajouter un « merci » est courant là-bas. »

Ces éléments conversationnels pourraient façonner le processus d’apprentissage des modèles. Si les salutations sont fréquemment associées à des informations sur des plateformes comme Quora, un modèle peut apprendre à prioriser ces sources, faussant potentiellement ses réponses en fonction des informations de Quora sur cette tâche particulière. Cette observation fait allusion à la complexité de la manière dont le modèle assimile et interprète les informations provenant de diverses sources en ligne.

Rester simple pour une meilleure précision

Une prochaine étape majeure pour la communauté des chercheurs dans son ensemble serait de générer des LLM résilients à ces changements, offrant des réponses cohérentes aux changements de formatage, aux perturbations et aux jailbreaks. Pour atteindre cet objectif, les travaux futurs consisteront notamment à chercher à mieux comprendre pourquoi les réponses changent.

Salinas offre un conseil à ceux qui lancent ChatGPT : « La conclusion la plus simple est que garder les invites aussi simples que possible semble donner globalement les meilleurs résultats. »