Une nouvelle méthode protège efficacement les données de formation d’IA sensibles
La confidentialité des données comporte un coût. Il existe des techniques de sécurité qui protègent les données sensibles des utilisateurs, comme les adresses des clients, des attaquants qui peuvent tenter de les extraire des modèles d’IA, mais ils rendent souvent ces modèles moins précis.
Les chercheurs du MIT ont récemment développé un cadre, basé sur une métrique de confidentialité appelée PAC Privacy, qui pourrait maintenir les performances d’un modèle d’IA tout en garantissant des données sensibles, telles que des images médicales ou des dossiers financiers – se fait à l’abri des attaquants. Maintenant, ils ont poussé ce travail plus loin en rendant leur technique plus efficace sur le calcul, en améliorant le compromis entre la précision et la confidentialité, et la création d’un modèle formel qui peut être utilisé pour privatiser pratiquement n’importe quel algorithme sans avoir besoin d’accès au fonctionnement intérieur de cet algorithme.
L’équipe a utilisé sa nouvelle version de PAC Privacy pour privatiser plusieurs algorithmes classiques pour l’analyse des données et les tâches d’apprentissage automatique.
Ils ont également démontré que les algorithmes plus « stables » sont plus faciles à privatiser avec leur méthode. Les prédictions d’un algorithme stable restent cohérentes même lorsque ses données de formation sont légèrement modifiées. Une plus grande stabilité aide un algorithme à faire des prédictions plus précises sur les données précédemment invisibles.
Les chercheurs disent que l’efficacité accrue du nouveau cadre de confidentialité de PAC, et le modèle en quatre étapes que l’on peut suivre pour le mettre en œuvre, rendrait la technique plus facile à déployer dans des situations réelles.
« Nous avons tendance à considérer la robustesse et la vie privée comme sans rapport, ou peut-être même en conflit avec, construisant un algorithme haute performance. Tout d’abord, nous faisons un algorithme de travail, alors nous le rendons robuste, puis privé. Nous avons montré que ce n’est pas toujours le cadrage. Étudiant diplômé et auteur principal d’un article sur ce cadre de confidentialité.
Elle est rejointe dans le journal par Hanshen Xiao Ph.D., qui commencera en tant que professeur adjoint à l’Université Purdue à l’automne; et l’auteur principal Srini Devadas, le professeur d’Edwin Sibley Webster en génie électrique. La recherche sera présentée au Symposium IEEE sur la sécurité et la vie privée.
Estimation du bruit
Pour protéger les données sensibles qui ont été utilisées pour former un modèle d’IA, les ingénieurs ajoutent souvent du bruit ou de l’aléatoire générique au modèle afin qu’il devienne plus difficile pour un adversaire de deviner les données d’entraînement d’origine. Ce bruit réduit la précision d’un modèle, donc moins le bruit peut ajouter, mieux c’est.
PAC Privacy estime automatiquement la plus petite quantité de bruit dont on a besoin pour ajouter à un algorithme pour atteindre un niveau de confidentialité souhaité.
L’algorithme d’origine PAC Privacy exécute plusieurs fois un modèle d’IA d’un utilisateur sur différents échantillons d’un ensemble de données. Il mesure la variance ainsi que les corrélations entre ces nombreuses sorties et utilisent ces informations pour estimer la quantité de bruit à ajouter pour protéger les données.
Cette nouvelle variante de la confidentialité PAC fonctionne de la même manière mais n’a pas besoin de représenter toute la matrice des corrélations de données entre les sorties; Il a juste besoin des variances de sortie.
« Parce que la chose que vous estimez est beaucoup, beaucoup plus petite que toute la matrice de covariance, vous pouvez le faire beaucoup, beaucoup plus rapidement », explique Sridhar. Cela signifie que l’on peut évoluer jusqu’à des ensembles de données beaucoup plus importants.
L’ajout de bruit peut nuire à l’utilité des résultats, et il est important de minimiser la perte d’utilité. En raison du coût de calcul, l’algorithme de confidentialité PAC d’origine était limité à l’ajout de bruit isotrope, qui est ajouté uniformément dans toutes les directions. Étant donné que la nouvelle variante estime le bruit anisotrope, qui est adapté à des caractéristiques spécifiques des données de formation, un utilisateur pourrait ajouter moins de bruit global pour atteindre le même niveau d’intimité, augmentant la précision de l’algorithme privatisé.
Confidentialité et stabilité
Alors qu’elle étudiait la confidentialité du PAC, Sridhar a théorisé que des algorithmes plus stables seraient plus faciles à privatiser avec cette technique. Elle a utilisé la variante la plus efficace de la confidentialité PAC pour tester cette théorie sur plusieurs algorithmes classiques.
Les algorithmes plus stables ont moins de variance dans leurs sorties lorsque leurs données d’entraînement changent légèrement. Pac Privacy divise un ensemble de données en morceaux, exécute l’algorithme sur chaque morceau de données et mesure la variance entre les sorties. Plus la variance est grande, plus il faut ajouter de bruit pour privatiser l’algorithme.
L’utilisation de techniques de stabilité pour réduire la variance des résultats d’un algorithme réduirait également la quantité de bruit qui doit être ajoutée pour la privatiser, explique-t-elle.
« Dans les meilleurs cas, nous pouvons obtenir ces scénarios gagnant-gagnant », dit-elle.
L’équipe a montré que ces garanties de confidentialité sont restées solides malgré l’algorithme qu’ils ont testé et que la nouvelle variante de la confidentialité de PAC nécessitait un ordre de grandeur moins d’essais pour estimer le bruit. Ils ont également testé la méthode dans les simulations d’attaque, démontrant que ses garanties de confidentialité pouvaient résister aux attaques de pointe.
« Nous voulons explorer comment les algorithmes pourraient être co-conçus avec la confidentialité PAC, de sorte que l’algorithme est plus stable, sécurisé et robuste depuis le début », explique Devadas. Les chercheurs souhaitent également tester leur méthode avec des algorithmes plus complexes et explorer davantage le compromis de la confidentialité-utilité.
« La question est maintenant, quand ces situations gagnant-gagnant se produisent-elles, et comment pouvons-nous les faire se produire plus souvent? » Dit Sridhar.