Une nouvelle technique réduit les biais dans les modèles d’IA tout en préservant ou en améliorant la précision
Les modèles d’apprentissage automatique peuvent échouer lorsqu’ils tentent de faire des prédictions pour des individus sous-représentés dans les ensembles de données sur lesquels ils ont été formés.
Par exemple, un modèle qui prédit la meilleure option de traitement pour une personne atteinte d’une maladie chronique peut être formé à l’aide d’un ensemble de données contenant principalement des patients de sexe masculin. Ce modèle pourrait faire des prédictions incorrectes pour les patientes lorsqu’elles sont déployées dans un hôpital.
Pour améliorer les résultats, les ingénieurs peuvent essayer d'équilibrer l'ensemble de données de formation en supprimant des points de données jusqu'à ce que tous les sous-groupes soient représentés de manière égale. Bien que l'équilibrage des ensembles de données soit prometteur, il nécessite souvent de supprimer de grandes quantités de données, ce qui nuit aux performances globales du modèle.
Les chercheurs du MIT ont développé une nouvelle technique qui identifie et supprime les points spécifiques d'un ensemble de données de formation qui contribuent le plus aux échecs d'un modèle sur les sous-groupes minoritaires. En supprimant beaucoup moins de points de données que les autres approches, cette technique maintient la précision globale du modèle tout en améliorant ses performances concernant les groupes sous-représentés.
De plus, la technique peut identifier les sources cachées de biais dans un ensemble de données de formation dépourvu d’étiquettes. Les données non étiquetées sont bien plus répandues que les données étiquetées pour de nombreuses applications.
Cette méthode pourrait également être combinée avec d’autres approches pour améliorer l’équité des modèles d’apprentissage automatique déployés dans des situations à enjeux élevés. Par exemple, cela pourrait un jour contribuer à garantir que les patients sous-représentés ne soient pas mal diagnostiqués en raison d’un modèle d’IA biaisé.
« De nombreux autres algorithmes qui tentent de résoudre ce problème supposent que chaque point de données compte autant que tout autre point de données. Dans cet article, nous montrons que cette hypothèse n'est pas vraie.
« Il y a des points spécifiques dans notre ensemble de données qui contribuent à ce biais, et nous pouvons trouver ces points de données, les supprimer et obtenir de meilleures performances », explique Kimia Hamidieh, étudiante diplômée en génie électrique et informatique (EECS) au MIT et co-auteur principal d'un article sur cette technique publié sur le arXiv serveur de préimpression.
Elle a rédigé l'article avec les co-auteurs principaux Saachi Jain Ph.D. '24 et Kristian Georgiev, étudiant diplômé de l'EECS; Andrew Ilyas MEng '18, Ph.D. '23, Stein Fellow à l'Université de Stanford ; et les auteurs principaux Marzyeh Ghassemi, professeur agrégé à l'EECS et membre de l'Institut des sciences de l'ingénierie médicale et du Laboratoire des systèmes d'information et de décision, et Aleksander Madry, professeur de systèmes de conception de cadence au MIT.
La recherche sera présentée lors de la conférence sur les systèmes de traitement de l'information neuronale (NeurIPS 2024), qui se tiendra à Vancouver du 10 au 15 décembre.
Supprimer les mauvais exemples
Souvent, les modèles d’apprentissage automatique sont formés à l’aide d’énormes ensembles de données collectées à partir de nombreuses sources sur Internet. Ces ensembles de données sont beaucoup trop volumineux pour être soigneusement organisés à la main. Ils peuvent donc contenir de mauvais exemples qui nuisent aux performances du modèle.
Les scientifiques savent également que certains points de données ont plus d’impact sur les performances d’un modèle sur certaines tâches en aval que sur d’autres.
Les chercheurs du MIT ont combiné ces deux idées dans une approche qui identifie et supprime ces points de données problématiques. Ils cherchent à résoudre un problème connu sous le nom d’erreur du pire groupe, qui se produit lorsqu’un modèle sous-performe sur des sous-groupes minoritaires dans un ensemble de données de formation.
La nouvelle technique des chercheurs s'appuie sur des travaux antérieurs dans lesquels ils ont introduit une méthode, appelée TRAK, qui identifie les exemples de formation les plus importants pour un résultat de modèle spécifique.
Pour cette nouvelle technique, ils prennent les prédictions incorrectes du modèle sur les sous-groupes minoritaires et utilisent TRAK pour identifier les exemples de formation qui ont le plus contribué à cette prédiction incorrecte.
« En regroupant correctement ces informations sur les mauvaises prédictions de tests, nous sommes en mesure de trouver les parties spécifiques de la formation qui font baisser globalement la précision du groupe le plus mauvais », explique Ilyas.
Ensuite, ils suppriment ces échantillons spécifiques et recyclent le modèle sur les données restantes.
Étant donné que disposer de plus de données donne généralement de meilleures performances globales, la suppression uniquement des échantillons qui entraînent les pires échecs de groupe maintient la précision globale du modèle tout en améliorant ses performances sur les sous-groupes minoritaires.
Une approche plus accessible
Sur trois ensembles de données d’apprentissage automatique, leur méthode a surpassé plusieurs techniques. Dans un cas, elle a amélioré la précision du pire groupe tout en supprimant environ 20 000 échantillons d’apprentissage de moins qu’une méthode conventionnelle d’équilibrage des données. Leur technique permet également d’obtenir une plus grande précision que les méthodes qui nécessitent d’apporter des modifications au fonctionnement interne d’un modèle.
Étant donné que la méthode du MIT implique plutôt de modifier un ensemble de données, elle serait plus facile à utiliser pour un praticien et pourrait être appliquée à de nombreux types de modèles.
Il peut également être utilisé lorsque le biais est inconnu, car les sous-groupes d'un ensemble de données de formation ne sont pas étiquetés. En identifiant les points de données qui contribuent le plus à une fonctionnalité que le modèle apprend, ils peuvent comprendre les variables qu'il utilise pour faire une prédiction.
« Il s'agit d'un outil que tout le monde peut utiliser lorsqu'il forme un modèle d'apprentissage automatique. Ils peuvent examiner ces points de données et voir s'ils correspondent à la capacité qu'ils tentent d'enseigner au modèle », explique Hamidieh.
L’utilisation de la technique pour détecter les biais de sous-groupes inconnus nécessiterait une intuition quant aux groupes à rechercher. Les chercheurs espèrent donc la valider et l’explorer plus en profondeur grâce à de futures études sur l’homme.
Ils souhaitent également améliorer les performances et la fiabilité de leur technique et garantir que la méthode soit accessible et facile à utiliser pour les praticiens qui pourraient un jour la déployer dans des environnements réels.
« Lorsque vous disposez d'outils qui vous permettent d'examiner les données de manière critique et de déterminer quels points de données vont conduire à des biais ou à d'autres comportements indésirables, cela vous donne un premier pas vers la création de modèles qui seront plus justes et plus fiables. » dit Ilyas.