L'industrie de l'IA influence le monde. Abeba Birhane, conseillère chez Mozilla, remet en question ses valeurs fondamentales
« Scaling up » est un slogan dans le secteur de l'intelligence artificielle, alors que les entreprises technologiques se précipitent pour améliorer leurs systèmes d'IA avec des ensembles de données Internet toujours plus volumineux.
C'est également un signal d'alarme pour Abeba Birhane de Mozilla, une experte en IA qui, depuis des années, remet en question les valeurs et les pratiques de son domaine et l'influence qu'il exerce sur le monde.
Ses dernières recherches révèlent que l’augmentation des données en ligne utilisées pour former les outils populaires de génération d’images d’IA entraîne de manière disproportionnée des résultats racistes, en particulier à l’encontre des hommes noirs.
Birhane est conseillère principale en matière de responsabilité de l'IA à la Fondation Mozilla, l'organisation mère à but non lucratif de la société de logiciels libres qui gère le navigateur Web Firefox. Élevée en Éthiopie et vivant en Irlande, elle est également professeure adjointe adjointe au Trinity College de Dublin.
Son entretien avec l’Associated Press a été édité pour des raisons de longueur et de clarté.
Q : Comment avez-vous commencé dans le domaine de l’IA ?
R : Je suis un scientifique cognitif de formation. La science cognitive n'a pas son propre département, quel que soit l'endroit où vous l'étudiez. Donc, là où j'ai étudié, c'était sous la rubrique informatique. J'ai été placé dans un laboratoire rempli d'apprenants automatiques. Ils faisaient tellement de choses incroyables et personne ne prêtait attention aux données. J'ai trouvé cela très amusant et aussi très intéressant parce que je pensais que les données étaient l'un des éléments les plus importants pour le succès de votre modèle. Mais j'ai trouvé étrange que les gens ne fassent pas autant attention ou ne passent pas autant de temps à se demander : « Qu'y a-t-il dans mon ensemble de données ? » C'est comme ça que je me suis intéressé à ce domaine. Et puis, finalement, j'ai commencé à faire des audits d'ensembles de données à grande échelle.
Q : Pouvez-vous parler de votre travail sur les fondements éthiques de l’IA ?
R : Tout le monde a sa propre opinion sur ce qu’est l’apprentissage automatique. Les spécialistes de l’apprentissage automatique, c’est-à-dire les gens de la communauté de l’IA, vous disent que cela n’a aucune valeur. Ce n’est que des mathématiques, c’est objectif, c’est neutre, etc. Alors que les spécialistes des sciences sociales vous disent que, comme toute technologie, l’apprentissage automatique encode les valeurs de ceux qui l’alimentent. Nous avons donc étudié systématiquement une centaine d’articles parmi les plus influents sur l’apprentissage automatique pour découvrir ce qui intéresse réellement ce domaine et pour le faire de manière très rigoureuse.
R : Et l’une de ces valeurs était la mise à l’échelle ?
Q : L'échelle est considérée comme le Saint Graal du succès. Des chercheurs issus de grandes entreprises comme DeepMind, Google et Meta affirment que l'échelle l'emporte sur le bruit et que l'échelle annule le bruit. L'idée est qu'à mesure que vous augmentez l'échelle, tout dans votre ensemble de données devrait en quelque sorte s'équilibrer. Et vous devriez vous retrouver avec quelque chose comme une distribution normale ou quelque chose de plus proche de la vérité fondamentale. C'est l'idée.
Q : Mais vos recherches ont exploré la manière dont l’intensification peut entraîner des dommages. Quels sont certains d’entre eux ?
R : Au moins en ce qui concerne les contenus haineux ou toxiques, etc., la mise à l’échelle de ces ensembles de données permet également de mettre à l’échelle les problèmes qu’ils contiennent. Plus précisément, dans le contexte de notre étude, la mise à l’échelle des ensembles de données augmente également le contenu haineux dans l’ensemble de données. Nous avons mesuré la quantité de contenu haineux dans deux ensembles de données. Le contenu haineux, le contenu ciblé et le contenu agressif ont augmenté lorsque l’ensemble de données est passé de 400 millions à 2 milliards. Il s’agit d’une conclusion très concluante qui montre que les lois de mise à l’échelle ne tiennent pas vraiment la route lorsqu’il s’agit de données d’entraînement. (Dans un autre article), nous avons constaté que les femmes à la peau plus foncée, et les hommes en particulier, ont tendance à se voir attribuer les étiquettes de personne suspecte ou de criminel à un taux beaucoup plus élevé.
Q : Dans quelle mesure êtes-vous confiant ou optimiste quant au fait que le secteur de l’IA apportera les changements que vous avez proposés ?
R : Il ne s’agit pas seulement de résultats purement mathématiques et techniques. Ce sont aussi des outils qui façonnent la société, qui l’influencent. Les recommandations préconisent également d’encourager et de prêter attention à des valeurs telles que la justice, l’équité, la vie privée, etc. En toute honnêteté, je n’ai aucune confiance dans le fait que l’industrie suivra nos recommandations. Elle n’a jamais suivi de recommandations de ce type qui les encouragent réellement à prendre ces questions sociétales au sérieux. Elle ne le fera probablement jamais. Les entreprises et les grandes sociétés ont tendance à agir lorsque la loi l’exige. Nous avons besoin d’une réglementation très forte et applicable. Elles réagissent également à l’indignation et à la sensibilisation du public. Si la situation atteint un stade où leur réputation est entachée, elles ont tendance à apporter des changements.