Les biais dans le modèle d’IA image-texte de grande taille favorisent les perspectives occidentales plus riches : étude

Dans une étude évaluant le biais du CLIP d’OpenAI, un modèle qui associe texte et images et fonctionne en coulisses dans le populaire générateur d’images DALL-E, des chercheurs de l’Université du Michigan ont découvert que CLIP fonctionnait mal sur les images représentant des personnes à faible revenu et non-. Modes de vie occidentaux.

« À une époque où les outils d’IA sont déployés à travers le monde, il est essentiel que tout le monde soit représenté dans ces outils. Pourtant, nous constatons qu’une grande partie de la population n’est pas reflétée par ces applications – sans surprise, celles issues des revenus sociaux les plus faibles. Cela peut rapidement conduire à des inégalités encore plus grandes », a déclaré Rada Mihalcea, professeure collégiale Janice M. Jenkins d’informatique et d’ingénierie qui a lancé et conseillé le projet.

Les modèles d’IA comme CLIP agissent comme des modèles de base ou des modèles formés sur une grande quantité de données non étiquetées qui peuvent être adaptées à de nombreuses applications. Lorsque les modèles d’IA sont entraînés avec des données reflétant une vision unilatérale du monde, ce biais peut se propager aux applications et outils en aval qui s’appuient sur l’IA.

« Si le logiciel utilisait CLIP pour filtrer les images, il pourrait exclure les images provenant d’un groupe à faible revenu ou d’un groupe minoritaire au lieu d’images vraiment mal étiquetées. Il pourrait balayer toute la diversité qu’un conservateur de base de données a travaillé dur pour inclure », a déclaré Joan Nwatu, un doctorant en informatique et ingénierie.

Nwatu a dirigé l’équipe de recherche avec Oana Ignat, chercheuse postdoctorale dans le même département. Ils ont co-écrit un article présenté lors de la conférence Empirical Methods in Natural Language Processing le 8 décembre à Singapour. Le document est également publié sur le arXiv serveur de préimpression.

Les chercheurs ont évalué les performances de CLIP à l’aide de Dollar Street, un ensemble de données d’images diversifiées à l’échelle mondiale créées par la Fondation Gapminder. Dollar Street contient plus de 38 000 images collectées auprès de ménages de différents revenus en Afrique, aux Amériques, en Asie et en Europe. Les revenus mensuels représentés dans l’ensemble de données vont de 26 $ à près de 20 000 $. Les images capturent des objets du quotidien et sont annotées manuellement avec un ou plusieurs sujets contextuels, tels que « cuisine » ou « lit ».

CLIP associe le texte et les images en créant une partition destinée à représenter la correspondance entre l’image et le texte. Ce score peut ensuite être intégré aux applications en aval pour un traitement ultérieur tel que le marquage et l’étiquetage des images. Les performances du DALL-E d’OpenAI reposent fortement sur CLIP, qui a été utilisé pour évaluer les performances du modèle et créer une base de données de légendes d’images qui ont entraîné DALL-E.

Les chercheurs ont évalué le biais de CLIP en notant d’abord la correspondance entre les images de l’ensemble de données de Dollar Street et le texte annoté manuellement dans CLIP, puis en mesurant la corrélation entre le score CLIP et le revenu du ménage.

« Nous avons constaté que la plupart des images provenant de ménages à revenus plus élevés avaient toujours des scores CLIP plus élevés que les images provenant de ménages à faibles revenus », a déclaré Nwatu.

Le thème « source de lumière », par exemple, présente généralement des scores CLIP plus élevés pour les lampes électriques des ménages les plus riches que pour les lampes au kérosène des ménages les plus pauvres.

CLIP a également démontré un biais géographique puisque la majorité des pays ayant les scores les plus bas provenaient de pays africains à faible revenu. Ce biais pourrait potentiellement éliminer la diversité des grands ensembles de données d’images et entraîner une sous-représentation des ménages non occidentaux à faible revenu dans les applications qui s’appuient sur CLIP.

« De nombreux modèles d’IA visent à parvenir à une « compréhension générale » en utilisant des données anglaises provenant de pays occidentaux. Cependant, nos recherches montrent que cette approche entraîne un écart de performance considérable selon les données démographiques », a déclaré Ignat.

« Cet écart est important dans la mesure où les facteurs démographiques façonnent nos identités et influencent directement l’efficacité du modèle dans le monde réel. Négliger ces facteurs pourrait exacerber la discrimination et la pauvreté. Notre recherche vise à combler cet écart et à ouvrir la voie à des modèles plus inclusifs et plus fiables. «

Les chercheurs proposent plusieurs étapes concrètes aux développeurs d’IA pour créer des modèles d’IA plus équitables :

Investissez dans des ensembles de données géographiquement diversifiés pour aider les outils d’IA à découvrir des antécédents et des perspectives plus diversifiés.
Définissez des mesures d’évaluation qui représentent chacun en tenant compte de la localisation et des revenus.
Documentez les données démographiques des données sur lesquelles les modèles d’IA sont formés.

« Le public doit savoir sur quoi l’IA a été formée afin de pouvoir prendre des décisions éclairées lorsqu’il utilise un outil », a déclaré Nwatu.