Les grands modèles linguistiques formés en anglais utilisent cette langue en interne, même pour les invites dans d'autres langues.

La transparence fait souvent défaut dans les ensembles de données utilisés pour former de grands modèles linguistiques, selon une étude

Pour former des modèles linguistiques plus puissants, les chercheurs utilisent de vastes collections de données qui mélangent diverses données provenant de milliers de sources Web. Mais lorsque ces ensembles de données sont combinés et recombinés en plusieurs collections, des informations importantes sur leurs origines et les restrictions sur la façon dont ils peuvent être utilisés sont souvent perdues ou confondues dans le mélange.

Cela soulève non seulement des problèmes juridiques et éthiques, mais peut également nuire aux performances d'un modèle. Par exemple, si un ensemble de données est mal catégorisé, une personne qui entraîne un modèle d'apprentissage automatique pour une certaine tâche peut finir par utiliser sans le savoir des données qui ne sont pas conçues pour cette tâche.

De plus, les données provenant de sources inconnues peuvent contenir des biais qui amènent un modèle à faire des prédictions injustes lors de son déploiement.

Pour améliorer la transparence des données, une équipe de chercheurs multidisciplinaires du MIT et d’autres universités a lancé un audit systématique de plus de 1 800 ensembles de données textuelles sur des sites d’hébergement populaires. Ils ont découvert que plus de 70 % de ces ensembles de données omettaient certaines informations de licence, tandis qu’environ 50 % contenaient des informations contenant des erreurs.

Sur la base de ces informations, ils ont développé un outil convivial appelé Data Provenance Explorer qui génère automatiquement des résumés faciles à lire des créateurs, des sources, des licences et des utilisations autorisées d'un ensemble de données.

« Ces types d'outils peuvent aider les régulateurs et les praticiens à prendre des décisions éclairées sur le déploiement de l'IA et à favoriser le développement responsable de l'IA », déclare Alex « Sandy » Pentland, professeur au MIT, responsable du Human Dynamics Group au MIT Media Lab et co-auteur d'un article en libre accès sur le projet, paru dans Nature Intelligence artificielle

Le Data Provenance Explorer pourrait aider les praticiens de l'IA à créer des modèles plus efficaces en leur permettant de sélectionner des ensembles de données de formation adaptés à l'objectif visé par leur modèle. À long terme, cela pourrait améliorer la précision des modèles d'IA dans des situations réelles, telles que celles utilisées pour évaluer les demandes de prêt ou répondre aux questions des clients.

« L’une des meilleures façons de comprendre les capacités et les limites d’un modèle d’IA est de comprendre sur quelles données il a été formé. Lorsque des erreurs d’attribution et des confusions existent quant à la provenance des données, il y a un sérieux problème de transparence », explique Robert Mahari, étudiant diplômé du MIT Human Dynamics Group, candidat au doctorat en droit à la Harvard Law School et co-auteur principal de l’article.

Mahari et Pentland sont rejoints dans l'article par le co-auteur principal Shayne Longpre, étudiant diplômé du Media Lab ; Sara Hooker, qui dirige le laboratoire de recherche Cohere pour l'IA ; ainsi que d'autres personnes du MIT, de l'Université de Californie à Irvine, de l'Université de Lille en France, de l'Université du Colorado à Boulder, d'Olin College, de l'Université Carnegie Mellon, de Contextual AI, de ML Commons et de Tidelift.

Se concentrer sur le réglage fin

Les chercheurs ont souvent recours à une technique appelée « réglage fin » pour améliorer les capacités d'un modèle linguistique de grande taille qui sera déployé pour une tâche spécifique, comme la réponse à des questions. Pour effectuer ce réglage fin, ils créent soigneusement des ensembles de données soigneusement organisés, conçus pour améliorer les performances d'un modèle pour cette tâche.

Les chercheurs du MIT se sont concentrés sur ces ensembles de données de réglage fin, qui sont souvent développés par des chercheurs, des organisations universitaires ou des entreprises et sous licence pour des utilisations spécifiques.

Lorsque les plateformes collaboratives regroupent de tels ensembles de données dans des collections plus vastes que les praticiens peuvent utiliser pour affiner leurs recherches, certaines des informations de licence d'origine sont souvent laissées de côté.

« Ces licences devraient avoir de l’importance et être applicables », déclare Mahari.

Par exemple, si les conditions de licence d’un ensemble de données sont erronées ou manquantes, quelqu’un pourrait dépenser beaucoup d’argent et de temps pour développer un modèle qu’il pourrait être obligé de supprimer plus tard parce que certaines données de formation contenaient des informations privées.

« Les gens peuvent finir par former des modèles dont ils ne comprennent même pas les capacités, les préoccupations ou les risques, qui découlent en fin de compte des données », ajoute Longpre.

Pour commencer cette étude, les chercheurs ont formellement défini la provenance des données comme la combinaison de l'origine, de la création et de l'héritage de licences d'un ensemble de données, ainsi que de ses caractéristiques. À partir de là, ils ont développé une procédure d'audit structurée pour retracer la provenance des données de plus de 1 800 collections d'ensembles de données textuelles provenant de référentiels en ligne populaires.

Après avoir découvert que plus de 70 % de ces ensembles de données contenaient des licences « non spécifiées » qui omettaient de nombreuses informations, les chercheurs ont travaillé à rebours pour combler les lacunes. Grâce à leurs efforts, ils ont réduit le nombre d'ensembles de données avec des licences « non spécifiées » à environ 30 %.

Leurs travaux ont également révélé que les licences correctes étaient souvent plus restrictives que celles attribuées par les référentiels.

En outre, ils ont découvert que la quasi-totalité des créateurs de jeux de données étaient concentrés dans les pays du Nord, ce qui pourrait limiter les capacités d'un modèle s'il est formé pour être déployé dans une autre région. Par exemple, un jeu de données en langue turque créé principalement par des personnes aux États-Unis et en Chine pourrait ne contenir aucun aspect culturel significatif, explique Mahari.

« Nous avons presque tendance à penser que les ensembles de données sont plus diversifiés qu’ils ne le sont en réalité », dit-il.

Il est intéressant de noter que les chercheurs ont également constaté une augmentation spectaculaire des restrictions imposées aux ensembles de données créés en 2023 et 2024, ce qui pourrait être dû aux inquiétudes des universitaires quant au fait que leurs ensembles de données pourraient être utilisés à des fins commerciales non prévues.

Un outil convivial

Pour aider les autres à obtenir ces informations sans avoir à procéder à un audit manuel, les chercheurs ont créé le Data Provenance Explorer. En plus de trier et de filtrer les ensembles de données en fonction de certains critères, l'outil permet aux utilisateurs de télécharger une carte de provenance des données qui fournit un aperçu succinct et structuré des caractéristiques de l'ensemble de données.

« Nous espérons que cela constituera une étape, non seulement pour comprendre le paysage, mais aussi pour aider les gens à faire des choix plus éclairés sur les données sur lesquelles ils s'entraînent », explique Mahari.

À l’avenir, les chercheurs souhaitent étendre leur analyse à l’étude de la provenance des données multimodales, notamment la vidéo et la parole. Ils souhaitent également étudier la manière dont les conditions d’utilisation des sites Web qui servent de sources de données sont reprises dans les ensembles de données.

À mesure qu’ils élargissent leurs recherches, ils contactent également les régulateurs pour discuter de leurs conclusions et des implications uniques en matière de droit d’auteur liées à l’affinage des données.

« Nous avons besoin de la provenance des données et de la transparence dès le départ, lorsque les gens créent et publient ces ensembles de données, pour permettre à d'autres d'obtenir plus facilement ces informations », explique Longpre.