Diversifier les données pour vaincre les biais

Diversifier les données pour vaincre les biais

L’IA a le potentiel de révolutionner les soins de santé, mais elle pose également un défi de taille : les préjugés. Par exemple, un dermatologue pourrait utiliser un système basé sur l’IA pour identifier les grains de beauté suspects. Mais que se passerait-il si le modèle d’apprentissage automatique était formé principalement sur des données d’images provenant de tons de peau plus clairs et manquait une forme courante de cancer de la peau chez un patient à la peau plus foncée ?

Il s’agit d’un problème du monde réel. En 2021, des chercheurs ont découvert que les bases de données d’images gratuites qui pourraient être utilisées pour entraîner les systèmes d’IA à diagnostiquer le cancer de la peau contiennent très peu d’images de personnes à la peau plus foncée. Il s’avère que l’IA est aussi efficace que ses données, et des données biaisées peuvent entraîner des conséquences graves, notamment des interventions chirurgicales inutiles et même l’omission de cancers traitables.

Dans un nouvel article présenté à la conférence AAAI sur l’intelligence artificielle, des chercheurs en informatique de l’USC proposent une nouvelle approche pour atténuer les biais dans la formation des modèles d’apprentissage automatique, en particulier dans la génération d’images.

Les chercheurs ont utilisé une famille d’algorithmes, appelés « algorithmes qualité-diversité » ou algorithmes QD, pour créer divers ensembles de données synthétiques qui peuvent stratégiquement « combler les lacunes » dans les données d’entraînement du monde réel.

L’article, intitulé « Échantillonnage génératif qualité-diversité pour l’apprentissage avec des données synthétiques », apparaît sur le serveur de pré-impression. arXiv et a été rédigé par Allen Chang, titulaire d’une double spécialisation en informatique et en mathématiques appliquées.

« Je pense qu’il est de notre responsabilité en tant qu’informaticiens de mieux protéger toutes les communautés, y compris les groupes minoritaires ou moins fréquents, dans les systèmes que nous concevons », a déclaré Chang. « Nous espérons que l’optimisation de la qualité et de la diversité pourra contribuer à générer des données synthétiques équitables ayant un impact important sur les applications médicales et d’autres types de systèmes d’IA. »

Augmenter l’équité

Bien que des modèles d’IA génératifs aient été utilisés pour créer des données synthétiques dans le passé, « il existe un risque de produire des données biaisées, qui peuvent biaiser davantage les modèles en aval, créant ainsi un cercle vicieux », a déclaré Chang.

Les algorithmes de diversité de qualité, en revanche, sont généralement utilisés pour générer diverses solutions à un problème, par exemple en aidant les robots à explorer des environnements inconnus ou en générant des niveaux de jeu dans un jeu vidéo. Dans ce cas, les algorithmes ont été utilisés d’une nouvelle manière : pour résoudre le problème de la création de divers ensembles de données synthétiques.

Grâce à cette méthode, l’équipe a pu générer un ensemble de données diversifié d’environ 50 000 images en 17 heures, soit environ 20 fois plus efficacement que les méthodes traditionnelles d’« échantillonnage par rejet », a déclaré Chang. L’équipe a testé l’ensemble de données sur jusqu’à quatre mesures de diversité : le teint, le sexe, l’âge et la longueur des cheveux.

« Nous avons constaté que les données d’entraînement produites avec notre méthode ont le potentiel d’augmenter l’équité dans le modèle d’apprentissage automatique, en augmentant la précision sur les visages à la peau plus foncée, tout en conservant la précision de l’entraînement sur des données supplémentaires », a déclaré Chang.

« Il s’agit d’une direction prometteuse pour augmenter les modèles avec un échantillonnage tenant compte des biais, ce qui, nous l’espérons, pourra aider les systèmes d’IA à fonctionner avec précision pour tous les utilisateurs. »

Notamment, la méthode augmente la représentation des groupes intersectionnels (terme désignant les groupes aux identités multiples) dans les données. Par exemple, les personnes qui ont à la fois une peau foncée et qui portent des lunettes, ce qui constituerait des caractéristiques particulièrement limitées dans les ensembles de données traditionnels du monde réel.

« Bien qu’il y ait eu des travaux antérieurs sur l’exploitation des algorithmes QD pour générer un contenu diversifié, nous montrons pour la première fois que les modèles génératifs peuvent utiliser QD pour réparer les classificateurs biaisés », a déclaré Nikolaidis.

« Pour ce faire, ils génèrent et rééquilibrent de manière itérative le contenu entre les fonctionnalités spécifiées par l’utilisateur, en utilisant le contenu nouvellement équilibré pour améliorer l’équité du classificateur. Ce travail est un premier pas vers la possibilité de permettre aux modèles biaisés de s’auto-réparer en générant et en rééquilibrant de manière itérative. reconversion sur des données synthétiques. »