Des lignes directrices claires sont nécessaires pour les données synthétiques afin de garantir la transparence, la responsabilité et l'équité, selon une étude

Des lignes directrices claires sont nécessaires pour les données synthétiques afin de garantir la transparence, la responsabilité et l'équité, selon une étude

Selon une nouvelle étude, des lignes directrices claires devraient être établies pour la génération et le traitement de données synthétiques afin de garantir la transparence, la responsabilité et l'équité.

Les données synthétiques, générées par des algorithmes d'apprentissage automatique à partir de données originales du monde réel, gagnent en importance car elles peuvent offrir des alternatives aux sources de données traditionnelles qui préservent la confidentialité. Cela peut être particulièrement utile dans les situations où les données réelles sont trop sensibles pour être partagées, trop rares ou de trop mauvaise qualité.

Les données synthétiques diffèrent des données du monde réel car elles sont générées par des modèles algorithmiques appelés générateurs de données synthétiques, tels que les réseaux contradictoires génératifs ou les réseaux bayésiens.

L'étude prévient que les lois existantes sur la protection des données qui s'appliquent uniquement aux données personnelles ne sont pas suffisamment adaptées pour réglementer le traitement de tous les types de données synthétiques.

Les lois telles que le RGPD ne s'appliquent qu'au traitement des données personnelles. La définition des données personnelles du RGPD englobe « toute information relative à une personne physique identifiée ou identifiable ». Cependant, tous les ensembles de données synthétiques ne sont pas entièrement artificiels : certains peuvent contenir des informations personnelles ou présenter un risque de ré-identification. Les ensembles de données entièrement synthétiques sont, en principe, exemptés des règles du RGPD, sauf lorsqu'il existe une possibilité de ré-identification.

On ne sait toujours pas quel niveau de risque de réidentification serait suffisant pour déclencher leur application dans le contexte d’un traitement de données entièrement synthétiques. Cela crée une insécurité juridique et des difficultés pratiques pour le traitement de ces ensembles de données.

L'étude, réalisée par le professeur Ana Beduschi de l'Université d'Exeter, est publiée dans la revue Big Data et société.

Il estime qu'il devrait y avoir des procédures claires pour demander des comptes aux responsables de la génération et du traitement des données synthétiques. Il devrait y avoir des garanties que les données synthétiques ne sont pas générées et utilisées d’une manière qui aurait des effets néfastes sur les individus et la société, par exemple en perpétuant les préjugés existants ou en en créant de nouveaux.

Le professeur Beduschi a déclaré : « Des lignes directrices claires pour tous les types de données synthétiques devraient être établies. Elles devraient donner la priorité à la transparence, à la responsabilité et à l'équité. Avoir de telles lignes directrices est particulièrement important dans le cas de l'IA générative et des modèles de langage avancés tels que DALL-E 3 et GPT-4. qui peuvent à la fois être formées et générer des données synthétiques – peuvent faciliter la diffusion d’informations trompeuses et avoir des effets néfastes sur la société. L’adhésion à ces principes pourrait ainsi contribuer à atténuer les dommages potentiels et à encourager l’innovation responsable.

« En conséquence, les données synthétiques devraient être clairement étiquetées comme telles et les informations sur leur génération devraient être fournies aux utilisateurs. »