Un nouvel outil aide les gens à choisir la bonne méthode pour évaluer les modèles d’IA
Lorsque des modèles d’apprentissage automatique sont déployés dans des situations réelles, peut-être pour signaler une maladie potentielle dans les rayons X pour qu’un radiologue l’examine, les utilisateurs humains doivent savoir quand faire confiance aux prédictions du modèle.
Mais les modèles d’apprentissage automatique sont si vastes et complexes que même les scientifiques qui les conçoivent ne comprennent pas exactement comment les modèles font des prédictions. Ainsi, ils créent des techniques connues sous le nom de méthodes de saillance qui cherchent à expliquer le comportement du modèle.
Avec de nouvelles méthodes publiées en permanence, des chercheurs du MIT et d’IBM Research ont créé un outil pour aider les utilisateurs à choisir la meilleure méthode de saillance pour leur tâche particulière. Ils ont développé des cartes de saillance, qui fournissent une documentation standardisée sur le fonctionnement d’une méthode, y compris ses forces et ses faiblesses et des explications pour aider les utilisateurs à l’interpréter correctement.
Ils espèrent que, armés de ces informations, les utilisateurs pourront délibérément sélectionner une méthode de saillance appropriée à la fois pour le type de modèle d’apprentissage automatique qu’ils utilisent et pour la tâche que le modèle effectue, explique la co-auteure principale Angie Boggust, étudiante diplômée en électricité. ingénierie et informatique au MIT et membre du groupe de visualisation du laboratoire d’informatique et d’intelligence artificielle du MIT (CSAIL).
Des entretiens avec des chercheurs en IA et des experts d’autres domaines ont révélé que les cartes aident les gens à effectuer rapidement une comparaison côte à côte de différentes méthodes et à choisir une technique adaptée à la tâche. Choisir la bonne méthode donne aux utilisateurs une image plus précise du comportement de leur modèle, de sorte qu’ils sont mieux équipés pour interpréter correctement ses prédictions.
« Les cartes de saillance sont conçues pour donner un résumé rapide et rapide d’une méthode de saillance et également la décomposer en attributs les plus critiques centrés sur l’humain. Elles sont vraiment conçues pour tout le monde, des chercheurs en apprentissage automatique aux utilisateurs non professionnels qui essaient de comprendre quelle méthode utiliser et en choisir une pour la première fois », déclare Boggust.
Rejoindre Boggust sur le papier sont co-auteur principal Harini Suresh, un post-doctorant du MIT; Hendrik Strobelt, chercheur principal chez IBM Research ; John Guttag, professeur Dugald C. Jackson d’informatique et de génie électrique au MIT ; et l’auteur principal Arvind Satyanarayan, professeur agrégé d’informatique au MIT qui dirige le groupe de visualisation au CSAIL. La recherche sera présentée à la conférence ACM sur l’équité, la responsabilité et la transparence.
Choisir la bonne méthode
Les chercheurs ont précédemment évalué les méthodes de saillance en utilisant la notion de fidélité. Dans ce contexte, la fidélité capture la précision avec laquelle une méthode reflète le processus de prise de décision d’un modèle.
Mais la fidélité n’est pas en noir et blanc, explique Boggust. Une méthode peut bien fonctionner sous un test de fidélité, mais échouer dans un autre. Avec autant de méthodes de saillance et autant d’évaluations possibles, les utilisateurs optent souvent pour une méthode parce qu’elle est populaire ou parce qu’un collègue l’a utilisée.
Cependant, choisir la « mauvaise » méthode peut avoir de graves conséquences. Par exemple, une méthode de saillance, connue sous le nom de gradients intégrés, compare l’importance des caractéristiques d’une image à une ligne de base dénuée de sens. Les caractéristiques les plus importantes par rapport à la ligne de base sont les plus significatives pour la prédiction du modèle. Cette méthode utilise généralement tous les 0 comme ligne de base, mais si elle est appliquée aux images, tous les 0 correspondent à la couleur noire.
« Cela vous dira que tous les pixels noirs de votre image ne sont pas importants, même s’ils le sont, car ils sont identiques à cette ligne de base sans signification. Cela pourrait être un gros problème si vous regardez des rayons X car le noir pourrait être significatif aux cliniciens », déclare Boggust.
Les cartes de saillance peuvent aider les utilisateurs à éviter ces types de problèmes en résumant le fonctionnement d’une méthode de saillance en termes de 10 attributs axés sur l’utilisateur. Les attributs capturent la façon dont la saillance est calculée, la relation entre la méthode de saillance et le modèle, et la façon dont un utilisateur perçoit ses sorties.
Par exemple, un attribut est la dépendance des hyperparamètres, qui mesure la sensibilité de cette méthode de saillance aux paramètres spécifiés par l’utilisateur. Une carte de saillance pour les gradients intégrés décrirait ses paramètres et comment ils affectent ses performances. Avec la carte, un utilisateur pouvait rapidement voir que les paramètres par défaut – une ligne de base de tous les 0 – pouvaient générer des résultats trompeurs lors de l’évaluation des rayons X.
Les cartes pourraient également être utiles aux scientifiques en exposant les lacunes dans l’espace de recherche. Par exemple, les chercheurs du MIT n’ont pas été en mesure d’identifier une méthode de saillance efficace sur le plan informatique, mais qui pourrait également être appliquée à n’importe quel modèle d’apprentissage automatique.
« Pouvons-nous combler cette lacune ? Existe-t-il une méthode de saillance qui peut faire les deux choses ? Ou peut-être que ces deux idées sont théoriquement en conflit l’une avec l’autre », dit Boggust.
Montrant leurs cartes
Après avoir créé plusieurs cartes, l’équipe a mené une étude utilisateur auprès de huit experts du domaine, allant d’informaticiens à un radiologue qui n’était pas familier avec l’apprentissage automatique. Au cours des entretiens, tous les participants ont déclaré que les descriptions concises les avaient aidés à hiérarchiser les attributs et à comparer les méthodes. Et même s’il n’était pas familier avec l’apprentissage automatique, le radiologue a pu comprendre les cartes et les utiliser pour participer au processus de choix d’une méthode de saillance, explique Boggust.
Les entretiens ont également révélé quelques surprises. Les chercheurs s’attendent souvent à ce que les cliniciens souhaitent une méthode précise, c’est-à-dire qu’elle se concentre sur un objet particulier dans une image médicale. Mais le clinicien de cette étude a en fait préféré un peu de bruit dans les images médicales pour les aider à atténuer l’incertitude.
« Lorsque nous l’avons décomposé en ces différents attributs et que nous avons demandé aux gens, pas une seule personne n’avait les mêmes priorités que n’importe qui d’autre dans l’étude, même lorsqu’elle occupait le même rôle », dit-elle.
À l’avenir, les chercheurs souhaitent explorer certains des attributs les plus sous-évalués et peut-être concevoir des méthodes de saillance spécifiques à la tâche. Ils veulent également développer une meilleure compréhension de la façon dont les gens perçoivent les résultats de la méthode de saillance, ce qui pourrait conduire à de meilleures visualisations. En outre, ils hébergent leur travail sur un référentiel public afin que d’autres puissent fournir des commentaires qui orienteront les travaux futurs, explique Boggust.
« Nous espérons vraiment qu’il s’agira de documents vivants qui se développeront à mesure que de nouvelles méthodes et évaluations de saillance seront développées. En fin de compte, ce n’est vraiment que le début d’une conversation plus large sur les attributs d’une méthode de saillance et sur la manière différentes tâches », dit-elle.