Le cadre va au-delà des décisions binaires pour offrir une approche plus nuancée

Le cadre va au-delà des décisions binaires pour offrir une approche plus nuancée

Deux des qualités les plus délicates à équilibrer dans le monde de l’apprentissage automatique sont l’équité et la précision. Les algorithmes optimisés pour l’exactitude peuvent involontairement perpétuer des préjugés à l’encontre de groupes spécifiques, tandis que ceux qui privilégient l’équité peuvent compromettre l’exactitude en classifiant mal certains points de données.

Ayant ce défi à l’esprit, une équipe du CSAIL a pris les devants en concevant un cadre permettant une approche plus nuancée pour équilibrer ces qualités.

Au lieu de forcer une décision binaire en étiquetant tous les points de données comme « bons » ou « mauvais », leur cadre utilise leur algorithme de classification des options de rejet (ROC) qui attribue une troisième catégorie d'« échantillons rejetés », lui permettant d'identifier les cas où le modèle pourraient être moins certains ou dans lesquels les prédictions pourraient potentiellement conduire à des injustices.

En rejetant ces cas, le cadre peut réduire la probabilité de résultats injustes pour certains groupes (c'est-à-dire selon l'âge ou le sexe) sans sacrifier considérablement la précision globale.

Les instances « rejetées » peuvent également être analysées plus en détail pour comprendre les sources potentielles de biais dans les données ou le modèle. Ces informations, à leur tour, peuvent être utilisées pour améliorer le modèle et le processus de collecte de données afin d’atténuer les biais futurs.

Le développement du cadre a été dirigé par le chercheur du MIT et ancien professeur Amar Gupta, aux côtés de l'affilié de recherche Rashmi Nagpal et de l'étudiant en MEng Ariba Khan. Gupta affirme que les systèmes existants se concentrent souvent sur l'optimisation uniquement pour « l'équité de groupe », garantissant la non-discrimination entre les groupes protégés. En revanche, leur cadre intègre à la fois l’équité collective et l’équité individuelle, ce qui implique de traiter de la même manière des utilisateurs individuels comparables.

Par exemple, supposons qu’un modèle d’apprentissage automatique soit utilisé pour prédire la probabilité d’approbation d’un prêt pour les personnes demandant un prêt hypothécaire. « L'équité de groupe » exige que le modèle prévoie l'approbation des prêts à des taux similaires pour les hommes et les femmes, garantissant ainsi un traitement équitable entre les sexes. En revanche, « l’équité individuelle » signifie que le modèle fournirait des prédictions similaires pour des individus ayant des qualifications comparables, quels que soient leur âge, leur sexe ou leur origine ethnique.

L'analyse expérimentale de l'équipe comparant leur cadre basé sur ROC à des systèmes similaires a démontré sa capacité à atteindre à la fois une précision et une équité élevées. Sur un ensemble de données de cotes de crédit allemandes, il a atteint une précision de plus de 94 %, ce qui signifie que le modèle devrait fournir des prédictions similaires pour des individus ayant des qualifications et des circonstances comparables, quelles que soient les caractéristiques sensibles telles que l'âge, le sexe ou l'origine ethnique. »

Gupta affirme que la plupart des études existantes réalisées dans ce domaine ont impliqué des ensembles de données publics, mais l'équipe souhaitait explorer davantage d'ensembles de données privés pour améliorer l'applicabilité de la correction des algorithmes qui sont utilisés de manière si omniprésente dans de nombreux secteurs industriels différents.

« Ces problèmes d'équité et de justice ne se limitent pas à une seule organisation ou à un seul secteur, ni à un seul facteur isolé », explique Gupta. « Un outil comme ROC pourrait vraiment être utilisé partout où vous avez besoin de porter un jugement éclairé sur les données dont vous disposez, de la finance aux soins de santé. »

L'équipe a présenté son cadre dans le cadre d'un article publié dans un numéro spécial de Apprentissage automatique et extraction de connaissances. Un deuxième article connexe (« Optimiser l'équité et l'exactitude : une approche Pareto optimale pour la prise de décision ») a également été publié plus tôt cette année dans la revue IA et éthique journal.

Dans le deuxième article, les chercheurs ont travaillé en étroite collaboration avec des collègues d'Ernst and Young et d'autres sociétés affiliées au CSAIL pour étudier une approche décisionnelle fondée sur le concept économique d'optimalité de Pareto. Cette approche vise un état d'allocation des ressources dans lequel l'amélioration d'un aspect d'un ensemble de solutions (c'est-à-dire l'exactitude) ne peut se produire sans dégrader un autre aspect (l'équité).

Les chercheurs ont spécifiquement développé une extension d'un cadre appelé « Minimax Pareto Fairness » (MMPF), qui utilise une fonction de perte multi-objectifs qui, encore une fois, combine des éléments d'équité de groupe et d'équité individuelle pour atteindre l'optimalité de Pareto.

L’équipe a testé son cadre sur plusieurs ensembles de données open source, notamment les ensembles de données sur le revenu du recensement des adultes, COMPAS et le crédit allemand, et a montré une réduction significative du compromis précision-équité pour diverses caractéristiques sensibles.

Le nouveau cadre se concentre sur l’équilibre entre l’équité et la performance à l’aide de deux mesures d’équité, avec des plans pour en explorer davantage à l’avenir. Les chercheurs visent à combiner des méthodes de formation avec des stratégies de pré- ou post-traitement pour améliorer les résultats. Nagpal indique que les prochaines étapes consistent à affiner les compromis d'équité à l'aide de poids différentiels et à affiner le processus de repesage de Pareto pour attribuer des poids individuels aux points de données pour une meilleure optimisation.