Comment pouvons-nous savoir si l'IA ment? Une nouvelle méthode teste si les explications de l'IA sont véridiques

Compte tenu de l'explosion récente de modèles de grandes langues (LLM) qui peuvent faire des déclarations de type humain convaincantes, il est logique que l'accent a été approfondi sur le développement des modèles pour être en mesure d'expliquer comment ils prennent des décisions. Mais comment pouvons-nous être sûrs que ce qu'ils disent, c'est la vérité?

Dans un nouvel article, les chercheurs du Laboratoire d'intelligence informatique et d'intelligence artificielle (CSAIL) de Microsoft et du MIT proposent une nouvelle méthode pour mesurer les explications LLM en ce qui concerne leur «fidélité» – c'est-à-dire comment une explication représente précisément le processus de raisonnement derrière la réponse du modèle.

En tant qu'auteur principal et doctorat. L'étudiante Katie Matton explique que la fidélité n'est pas une préoccupation mineure: si un LLM produit des explications plausibles mais infidèles, les utilisateurs peuvent développer une fausse confiance dans ses réponses et ne pas reconnaître lorsque les recommandations sont mal alignées avec leurs propres valeurs, comme éviter les biais dans l'embauche.

Dans des domaines tels que les soins de santé ou le droit, des explications infidèles pourraient avoir des conséquences graves: les chercheurs appellent spécifiquement un exemple dans lequel le GPT-3,5 a donné des notes plus élevées aux femmes infirmières par rapport aux hommes, même lorsque les sexes ont été échangés, mais ont expliqué que ses réponses ne sont affectées que par l'âge, les compétences et les traits.

Les méthodes antérieures de mesure de la fidélité produisent des scores quantitatifs qui peuvent être difficiles à interpréter pour les utilisateurs – qu'est-ce que cela signifie pour une explication d'être, par exemple, 0,63 fidèle? Matton et ses collègues se sont concentrés sur le développement d'une métrique de fidélité qui pourrait aider les utilisateurs à comprendre les façons dont les explications sont trompeuses.

Pour ce faire, ils ont introduit la «fidélité du concept causal», qui mesure la différence entre l'ensemble des concepts dans le texte d'entrée que les explications LLM impliquent ont influencé ceux qui ont vraiment eu un effet causal sur la réponse du modèle. L'examen de l'écart entre ces deux ensembles de concepts révèle des modèles d'intervention interprétables – par exemple, que les explications d'un LLM ne mentionnent pas le genre alors qu'elles le devraient.

Les chercheurs ont d'abord utilisé un LLM auxiliaire pour identifier les concepts clés de la question d'entrée. Ensuite, pour évaluer l'effet causal de chaque concept sur la réponse du LLM primaire, ils examinent si la modification du concept modifie la réponse de la LLM.

Pour ce faire, ils utilisent le LLM auxiliaire pour générer des questions contrefactuelles réalistes dans lesquelles la valeur d'un concept est modifiée – par exemple, modifier le sexe d'un candidat ou supprimer un élément d'information clinique. Ils recueillent ensuite les réponses du LLM primaire aux questions contrefactuelles et examinent comment ses réponses changent.

L'estimation des effets du concept peut être coûteux car il implique des appels répétés au LLM pour recueillir ses réponses aux questions contrefactuelles. Pour y remédier, l'équipe utilise un modèle hiérarchique bayésien pour estimer conjointement les effets du concept pour plusieurs questions.

Dans les tests empiriques, les chercheurs ont comparé GPT-3.5, GPT-4O et Claude-3.5-Sonnet sur deux ensembles de données de réponses de questions. Matton cite deux résultats particulièrement importants:

Sur un ensemble de données de questions conçues pour tester les préjugés sociaux dans les modèles de langue, ils ont trouvé des cas dans lesquels les LLM fournissent des explications qui masquent leur dépendance à l'égard des préjugés sociaux. En d'autres termes, les LLM prennent des décisions qui sont influencées par les informations d'identité sociale, telles que la race, le revenu et le sexe, mais ils justifient alors leurs décisions en fonction d'autres facteurs, tels que le comportement d'un individu.
Sur un ensemble de données de questions médicales impliquant des scénarios hypothétiques de patients, la méthode de l'équipe a révélé des cas dans lesquels les explications de LLM omettent des éléments de preuve qui ont un effet important sur les réponses du modèle concernant le traitement et les soins du patient.

Les auteurs notent certaines limites à leur méthode et à leur analyse, y compris leur dépendance à l'égard du LLM auxiliaire, qui peut faire des erreurs occasionnelles. Leur approche peut également parfois sous-estimer les effets causaux des concepts fortement corrélés avec d'autres concepts dans l'entrée; Ils suggèrent des interventions multi-concept comme une amélioration future.

L'équipe de recherche dit qu'en découvrant des modèles spécifiques dans les explications trompeuses, leur méthode peut permettre une réponse ciblée à des explications infidèles. Par exemple, un utilisateur qui voit qu'un LLM présente un biais de genre peut éviter de l'utiliser pour comparer les candidats de différents genres – et un développeur de modèle pourrait déployer une correction sur mesure pour corriger le biais. Matton dit qu'elle considère leur méthode comme une étape importante vers la construction de systèmes d'IA plus dignes et transparents.