Le travail humain au cœur du développement de l’IA

L’entreprise technologique finlandaise Metroc a récemment commencé à utiliser le travail pénitentiaire pour former un grand modèle de langage afin d’améliorer la technologie de l’intelligence artificielle (IA). Pour 1,54 euros de l’heure, les détenus répondent à des questions simples sur des extraits de texte selon un processus appelé étiquetage des données.

L’étiquetage des données est souvent externalisé vers les marchés du travail des pays du Sud, où les entreprises peuvent trouver des travailleurs parlant couramment l’anglais et disposés à travailler pour de bas salaires.

Cependant, en raison du manque de finnophones dans ces pays, Metroc a puisé dans une source locale de main-d’œuvre bon marché. Sans le programme de travail pénitentiaire, Metroc aurait probablement du mal à trouver des Finlandais disposés à accepter des emplois dans le domaine de l’étiquetage de données qui ne paient qu’une fraction du salaire moyen en Finlande.

Ces stratégies de réduction des coûts mettent non seulement en évidence la quantité importante de travail humain encore nécessaire pour affiner l’IA, mais elles soulèvent également d’importantes questions sur la durabilité à long terme de tels modèles et pratiques économiques.

Le problème du travail de l’IA

L’ambiguïté éthique de l’IA issue du travail pénitentiaire fait partie d’une histoire plus vaste sur le coût humain derrière la croissance significative de l’IA au cours des dernières années. Un problème qui est devenu plus évident au cours de la dernière année concerne la question du travail.

Les grandes entreprises d’IA ne nient pas avoir recours à une main-d’œuvre externalisée et à bas salaire pour effectuer des tâches telles que l’étiquetage des données. Cependant, le battage médiatique autour d’outils tels que ChatGPT d’OpenAI a détourné l’attention de cet aspect du développement de la technologie.

Alors que les chercheurs, dont moi-même, tentent de comprendre les perceptions et l’utilisation de l’IA dans l’enseignement supérieur, les problèmes éthiques associés aux modèles d’IA actuels continuent de s’accumuler. Ceux-ci incluent les préjugés que l’IA a tendance à reproduire, l’impact environnemental des centres de données d’IA et les problèmes de confidentialité et de sécurité.

Les pratiques actuelles d’externalisation du travail d’étiquetage des données révèlent une répartition mondiale inégale des coûts et des avantages de l’IA, avec peu de solutions proposées.

Les implications de cette situation sont doubles.

Premièrement, la quantité massive de travail humain qui est encore nécessaire pour façonner « l’intelligence » des outils d’IA devrait inciter les utilisateurs à réfléchir lorsqu’ils évaluent les résultats de ces outils.

Deuxièmement, jusqu’à ce que les entreprises d’IA prennent des mesures sérieuses pour lutter contre leurs pratiques de travail abusives, les utilisateurs et les institutions voudront peut-être reconsidérer les soi-disant valeurs ou avantages des outils d’IA.

Qu’est-ce que l’étiquetage des données ?

La composante « intelligence » de l’IA nécessite encore un apport humain important pour développer ses capacités de traitement des données. Les chatbots populaires comme ChatGPT sont pré-entraînés (d’où le PT dans GPT). Une phase critique du processus de pré-formation consiste en l’apprentissage supervisé.

Au cours de l’apprentissage supervisé, les modèles d’IA apprennent à générer des sorties à partir d’ensembles de données étiquetés par des humains. Les étiqueteurs de données, comme les prisonniers finlandais, accomplissent différentes tâches. Par exemple, les étiqueteurs peuvent avoir besoin de confirmer si une image contient une certaine fonctionnalité ou de signaler un langage offensant.

En plus d’améliorer la précision, l’étiquetage des données est nécessaire pour améliorer la « sécurité » des systèmes d’IA. La sécurité est définie selon les objectifs et les principes de chaque entreprise d’IA. Un modèle « sûr » pour une entreprise pourrait signifier éviter le risque de violation du droit d’auteur. D’autre part, cela pourrait impliquer de minimiser les fausses informations ou les contenus biaisés et les stéréotypes.

Pour les modèles les plus populaires, la sécurité signifie que le modèle ne doit pas générer de contenu basé sur des idéologies préjugées. Ceci est en partie réalisé grâce à un ensemble de données de formation correctement étiquetées.

Qui sont les étiqueteurs de données ?

La tâche de passer au peigne fin des milliers d’images et d’extraits de texte potentiellement graphiques a incombé aux étiqueteurs de données largement concentrés dans les pays du Sud.

Début 2023, le magazine Time a fait état du contrat d’OpenAI avec Sama, une société d’étiquetage de données basée à San Francisco. Le rapport révèle que les employés d’un bureau satellite au Kenya étaient payés à peine 1,32 dollars de l’heure pour lire des textes qui « semblaient avoir été tirés des recoins les plus sombres d’Internet ».

Wired a également étudié les réalités économiques mondiales des étiqueteurs de données en Amérique du Sud et en Asie de l’Est, dont certains travaillaient plus de 18 heures par jour pour gagner moins que le salaire minimum de leur pays.

Le Washington Post s’est penché de près sur ScaleAI, qui emploie au moins 10 000 personnes aux Philippines. Le journal a révélé que l’entreprise basée à San Francisco « payait les travailleurs à des taux extrêmement bas, retardait ou retenait régulièrement les paiements et offrait peu de voies de recours aux travailleurs ».

Le secteur de l’étiquetage des données et la main-d’œuvre requise sont appelés à se développer considérablement dans les années à venir. Les consommateurs qui utilisent de plus en plus les systèmes d’IA doivent savoir comment ils sont construits ainsi que les dommages et les inégalités qui s’y perpétuent.

La transparence est nécessaire

Des prisonniers aux travailleurs de chantier, le potentiel d’exploitation est réel pour tous ceux qui sont mêlés à la soif de données des grandes IA pour alimenter des modèles plus grands (et peut-être plus imprévisibles).

Alors que les institutions et les individus sont emportés par l’élan de l’IA et toutes ses promesses, le public a tendance à accorder moins d’attention aux aspects éthiques du développement de la technologie.

Des chercheurs de l’Université de Stanford ont récemment lancé un site Web présentant leur Foundation Model Transparency Index. L’indice fournit des mesures de transparence pour les modèles d’IA les plus largement utilisés. Ces mesures vont de la transparence des entreprises quant à l’origine de leurs données à leur clarté sur les risques potentiels de leurs modèles.

Dix modèles d’IA ont été examinés sur la base de critères de transparence de l’entreprise qui les exploite quant à ses pratiques de travail. L’indice montre que les entreprises technologiques ont encore beaucoup à faire pour améliorer la transparence.

L’IA prend une place croissante dans nos vies de plus en plus numériques. C’est pourquoi nous devons rester critiques à l’égard d’un ensemble de technologies qui, si elles ne sont pas contrôlées et non examinées, pourraient causer plus de problèmes qu’elles n’en résolvent et aggraver les divisions dans le monde au lieu de les éliminer.