Des chercheurs créent une technique de confidentialité qui protège les données sensibles tout en maintenant les performances

Des chercheurs créent une technique de confidentialité qui protège les données sensibles tout en maintenant les performances

Crédit : Pixabay/CC0 Domaine public

Imaginez qu’une équipe de scientifiques ait développé un modèle d’apprentissage automatique capable de prédire si un patient a un cancer à partir d’images de scanner pulmonaire. Ils veulent partager ce modèle avec les hôpitaux du monde entier afin que les cliniciens puissent commencer à l’utiliser dans les diagnostics.

Mais il y a un problème. Pour apprendre à leur modèle à prédire le cancer, ils lui ont montré des millions d’images réelles de scanner pulmonaire, un processus appelé entraînement. Ces données sensibles, qui sont désormais encodées dans le fonctionnement interne du modèle, pourraient potentiellement être extraites par un agent malveillant. Les scientifiques peuvent empêcher cela en ajoutant du bruit, ou un caractère aléatoire plus générique, au modèle, ce qui rend plus difficile pour un adversaire de deviner les données d’origine. Cependant, la perturbation réduit la précision d’un modèle, donc moins on peut ajouter de bruit, mieux c’est.

Les chercheurs du MIT ont maintenant développé une technique qui permet à l’utilisateur d’ajouter potentiellement la plus petite quantité de bruit possible, tout en garantissant la protection des données sensibles.

Les chercheurs ont créé une nouvelle métrique de confidentialité, qu’ils appellent Confidentialité Probablement Approximativement Correcte (PAC), et ont construit un cadre basé sur cette métrique qui peut déterminer automatiquement la quantité minimale de bruit qui doit être ajoutée. De plus, ce cadre n’a pas besoin de connaître le fonctionnement interne d’un modèle ou son processus de formation, ce qui le rend plus facile à utiliser pour différents types de modèles et d’applications.

Dans plusieurs cas, les chercheurs montrent que la quantité de bruit nécessaire pour protéger les données sensibles des adversaires est bien moindre avec PAC Privacy qu’avec d’autres approches. Cela pourrait aider les ingénieurs à créer des modèles d’apprentissage automatique qui cachent de manière prouvée les données de formation, tout en maintenant la précision dans les paramètres du monde réel.

« PAC Privacy exploite l’incertitude ou l’entropie des données sensibles de manière significative, et cela nous permet d’ajouter, dans de nombreux cas, un ordre de grandeur en moins de bruit. Ce cadre nous permet de comprendre les caractéristiques du traitement arbitraire des données et de le privatiser automatiquement sans modifications artificielles. Alors que nous en sommes aux premiers jours et que nous faisons des exemples simples, nous sommes enthousiasmés par la promesse de cette technique », déclare Srini Devadas, professeur de génie électrique Edwin Sibley Webster et co-auteur d’un nouvel article. sur PAC Confidentialité.

Devadas a écrit l’article avec l’auteur principal Hanshen Xiao, un étudiant diplômé en génie électrique et en informatique. La recherche sera présentée le 24 août à l’International Cryptology Conference (Crypto 2023).

Définir la confidentialité

Une question fondamentale en matière de confidentialité des données est : quelle quantité de données sensibles un adversaire pourrait-il récupérer à partir d’un modèle d’apprentissage automatique avec du bruit ajouté ?

La confidentialité différentielle, une définition populaire de la confidentialité, indique que la confidentialité est atteinte si un adversaire qui observe le modèle publié ne peut pas déduire si les données d’un individu arbitraire sont utilisées pour le traitement de la formation. Mais empêcher de manière prouvée un adversaire de distinguer l’utilisation des données nécessite souvent de grandes quantités de bruit pour l’obscurcir. Ce bruit réduit la précision du modèle.

PAC Privacy aborde le problème un peu différemment. Il caractérise à quel point il serait difficile pour un adversaire de reconstruire une partie de données sensibles échantillonnées ou générées de manière aléatoire après l’ajout de bruit, plutôt que de se concentrer uniquement sur le problème de distinction.

Par exemple, si les données sensibles sont des images de visages humains, la confidentialité différentielle se concentrerait sur la question de savoir si l’adversaire peut dire si le visage de quelqu’un se trouve dans l’ensemble de données. PAC Privacy, d’autre part, pourrait examiner si un adversaire peut extraire une silhouette – une approximation – que quelqu’un pourrait reconnaître comme le visage d’un individu particulier.

Une fois qu’ils ont établi la définition de PAC Privacy, les chercheurs ont créé un algorithme qui indique automatiquement à l’utilisateur la quantité de bruit à ajouter à un modèle pour empêcher un adversaire de reconstruire en toute confiance une approximation proche des données sensibles. Cet algorithme garantit la confidentialité même si l’adversaire dispose d’une puissance de calcul infinie, explique Xiao.

Pour trouver la quantité optimale de bruit, l’algorithme PAC Privacy s’appuie sur l’incertitude, ou l’entropie, des données d’origine du point de vue de l’adversaire.

Cette technique automatique prélève des échantillons de manière aléatoire à partir d’une distribution de données ou d’un grand pool de données et exécute l’algorithme d’apprentissage automatique de l’utilisateur sur ces données sous-échantillonnées pour produire un modèle appris en sortie. Il le fait plusieurs fois sur différents sous-échantillons et compare la variance entre toutes les sorties. Cette variance détermine la quantité de bruit à ajouter – une variance plus petite signifie que moins de bruit est nécessaire.

Avantages de l’algorithme

Différent des autres approches de confidentialité, l’algorithme de confidentialité PAC n’a pas besoin de connaître le fonctionnement interne d’un modèle ou le processus de formation.

Lors de la mise en œuvre de PAC Privacy, un utilisateur peut spécifier son niveau de confiance souhaité dès le départ. Par exemple, l’utilisateur souhaite peut-être avoir la garantie qu’un adversaire ne sera pas sûr à plus de 1 % qu’il a réussi à reconstruire les données sensibles à moins de 5 % de leur valeur réelle. L’algorithme PAC Privacy indique automatiquement à l’utilisateur la quantité optimale de bruit qui doit être ajoutée au modèle de sortie avant qu’il ne soit partagé publiquement, afin d’atteindre ces objectifs.

« Le bruit est optimal, dans le sens où si vous ajoutez moins que ce que nous vous disons, tous les paris pourraient être annulés. Mais l’effet de l’ajout de bruit sur les paramètres du réseau de neurones est compliqué, et nous ne faisons aucune promesse sur l’utilité d’abandonner le modèle. peut ressentir avec le bruit supplémentaire », dit Xiao.

Cela indique une limitation de la confidentialité PAC : la technique n’indique pas à l’utilisateur la précision que le modèle perdra une fois le bruit ajouté. PAC Privacy implique également la formation répétée d’un modèle d’apprentissage automatique sur de nombreux sous-échantillons de données, ce qui peut s’avérer coûteux en termes de calcul.

Pour améliorer la confidentialité PAC, une approche consiste à modifier le processus de formation d’apprentissage automatique d’un utilisateur afin qu’il soit plus stable, ce qui signifie que le modèle de sortie qu’il produit ne change pas beaucoup lorsque les données d’entrée sont sous-échantillonnées à partir d’un pool de données. Cette stabilité créerait de plus petites variances entre les sorties de sous-échantillons, donc non seulement l’algorithme PAC Privacy devrait être exécuté moins de fois pour identifier la quantité optimale de bruit, mais il devrait également ajouter moins de bruit.

Un avantage supplémentaire des modèles plus stables est qu’ils ont souvent moins d’erreur de généralisation, ce qui signifie qu’ils peuvent faire des prédictions plus précises sur des données inédites, une situation gagnant-gagnant entre l’apprentissage automatique et la confidentialité, ajoute Devadas.

« Dans les prochaines années, nous aimerions approfondir un peu cette relation entre stabilité et vie privée, et la relation entre vie privée et erreur de généralisation. Nous frappons à une porte ici, mais on ne sait pas encore où la porte mène. , » il dit.