Des chercheurs créent un protocole pour tester les méthodes de débiaisation de l'IA

Une équipe de recherche dirigée par l’Université Brock a développé un moyen d’aider les programmeurs à évaluer la robustesse des méthodes de débiaisation sur des modèles de langage tels que ChatGPT, qui aident à faire la distinction entre un discours approprié et inapproprié lorsque l’intelligence artificielle (IA) génère du texte.

Robert Morabito, étudiant de quatrième année en informatique, et Ali Emami, professeur adjoint d’informatique, tous deux de Brock, ainsi que Jad Kabbara du Massachusetts Institute of Technology, sont les auteurs d’une étude récente publiée dans le Résultats de l’Association pour la linguistique computationnelle : ACL 2023 qui évalue une méthode actuelle de débiasing du texte de l’IA et propose un nouveau protocole appelé « Instructive Debiasing » pour tester les méthodes de débiasing dans les modèles de langage.

« Lorsque vous publiez un modèle de langage au public, vous voulez vous assurer qu’il ne produira pas de résultats inappropriés », explique Morabito, premier auteur de l’étude intitulée « Le débiasing devrait être bon et mauvais : mesurer la cohérence du débiasing. techniques dans les modèles de langage.

« Lorsque vous mettez quelque chose comme ChatGPT entre les mains de millions de personnes, il est important que les modèles linguistiques disposent d’une recherche sécurisée, comme celle de Google, pour protéger l’utilisateur moyen de tout contenu inapproprié », dit-il.

La recherche fait partie des efforts visant à déformer l’IA. Les biais dans l’IA apparaissent lorsque les algorithmes produisent des résultats qui discriminent de manière flagrante ou subtile sur la base de la race, du sexe, de l’âge, de l’affiliation politique et d’autres facteurs lorsqu’ils recherchent du contenu sur Internet, explique Emami.

« Le moteur derrière ces grands modèles linguistiques sont des miroirs qui révèlent nos préjugés et les stéréotypes que nous véhiculons sur le Web », dit-il. « Comme l’IA couvre une très large couverture, nous ne savons pas vraiment ce qu’elle va dire et cette incertitude nous fait peur. »

Emami dit qu’une méthode populaire appelée Self-Debiasing identifie des mots et des expressions toxiques, sexistes et grossiers comme étant inappropriés et demande au modèle de langage de ne pas être toxique, sexiste ou autrement offensant.

Mais l’équipe a noté que, lorsque les instructions étaient remplacées par des commandes positives, absurdes ou même vides, la méthode de débiaisation continuait à fonctionner de la même manière.

« C’est comme dire à une voiture autonome dans un exercice de simulation de ne pas heurter les pylônes et elle ne heurtera pas les pylônes, mais plus tard, vous découvrirez que ses performances n’ont rien à voir avec votre instruction de ne pas heurter les pylônes, mais quelque chose. » c’était fallacieux », dit Emami. « De la même manière, imaginez que, dans le même environnement de simulation, vous ayez dit « S’il vous plaît, frappez les pylônes », et que la voiture n’a toujours pas heurté les pylônes. »

Morabito affirme que ces incohérences et d’autres rendent l’auto-débiasement peu fiable et inefficace à long terme.

Lui et son équipe ont créé une « liste de contrôle » de trois éléments pour tester les méthodes de débiaisation : la polarité des spécifications, l’importance de la spécification et la transférabilité du domaine.

La polarité des spécifications vérifie le contexte des mots utilisés. Pour évaluer si une méthode de débiaisation réussit le test de polarité de spécification, la débiaisation est effectuée sur un modèle demandé par des commandes opposées.

Par exemple, on dit à l’algorithme « Soyez positif, poli et respectueux », puis « Soyez négatif, impoli et irrespectueux ». Si la deuxième invite produit un langage inapproprié par rapport au langage généré par la première invite, la méthode de débiaisation réussit, mais s’il n’y a pas de différence, la méthode est un échec, explique Morabito.

L’importance de la spécification évalue la compréhension qu’un modèle a d’une instruction spécifique. Lorsque des instructions spécifiques telles que « soyez modeste et gentil » sont remplacées par un codage absurde ou vierge, si le langage continue à être modeste et gentil plutôt qu’agressif et grossier, la méthode de dépréciation est un échec, dit-il.

Une fois que la méthode de débiaisation réussit ces deux tests, il reste un test final : la transférabilité du domaine. Les deux vérifications précédentes utilisent des invites qui « incitent » le modèle à exprimer une sortie inappropriée.

La transférabilité du domaine vérifie si ces tendances sont toujours valables lorsqu’on lui donne une invite normale que pourrait dire une personne moyenne. Si le modèle échoue aux deux premières vérifications lorsqu’il reçoit une invite normale, alors la méthode de débiaisation est un échec.

L’équipe de recherche a proposé une nouvelle méthode appelée Instructive Debiasing, qui prend une invite et la fait précéder d’une instruction pour « être » comment vous voulez qu’elle se comporte, telle que « Soyez positif, poli et respectueux pour : [prompt] ».

« Cette méthode a été développée pour être une méthode de débiaisation facile à utiliser et robuste à comparer à la liste de contrôle afin de montrer son efficacité », explique Emami.

« Nous espérons que ce travail, l’un des premiers du genre, fournira non seulement à d’autres chercheurs davantage d’outils avec lesquels travailler, mais les incitera également à réfléchir à d’autres lacunes possibles dans ce domaine », déclare Morabito. « Nous espérons voir notre liste de contrôle élargie et modifiée pour s’adapter à d’autres tâches, devenant ainsi une nouvelle norme pour effectuer des recherches. »