Conseils pour évaluer une technique de protection de la vie privée à l’ère de l’IA
Voici une situation délicate : une entreprise qui vend des trackers de fitness aux consommateurs a constitué une vaste base de données de données de santé sur ses clients. Les chercheurs aimeraient avoir accès à ces informations pour améliorer les diagnostics médicaux. Bien que l’entreprise soit préoccupée par le partage d’informations aussi sensibles et privées, elle souhaite également soutenir cette recherche importante. Alors, comment les chercheurs peuvent-ils obtenir des informations utiles et précises qui pourraient profiter à la société tout en préservant la vie privée des individus ?
Aider les organisations centrées sur les données à trouver cet équilibre entre confidentialité et précision est l’objectif d’une nouvelle publication du National Institute of Standards and Technology (NIST) qui propose des conseils sur l’utilisation d’un type d’algorithme mathématique appelé confidentialité différentielle. L’application de la confidentialité différentielle permet aux données d’être rendues publiques sans révéler les individus contenus dans l’ensemble de données.
La confidentialité différentielle est l’une des technologies d’amélioration de la confidentialité (PET) les plus matures utilisées dans l’analyse des données, mais le manque de normes peut rendre difficile son utilisation efficace, créant potentiellement un obstacle pour les utilisateurs. Ce travail amène le NIST à accomplir l’une de ses tâches dans le cadre du récent décret sur l’IA : faire progresser la recherche sur les PET tels que la confidentialité différentielle. L’ordonnance impose la création de lignes directrices, dans un délai de 365 jours, pour évaluer l’efficacité des protections différentielles de garantie de confidentialité, y compris pour l’IA.
Bien que les nouvelles directives du NIST, officiellement intitulées « Projet de publication spéciale du NIST (SP) 800-226, Lignes directrices pour l’évaluation des garanties différentielles de confidentialité », soient conçues principalement pour d’autres agences fédérales, elles peuvent être utilisées par n’importe qui. Il vise à aider tout le monde, des développeurs de logiciels aux propriétaires d’entreprise en passant par les décideurs politiques, à comprendre et à réfléchir de manière plus cohérente aux affirmations concernant la confidentialité différentielle.
« Vous pouvez utiliser la confidentialité différentielle pour publier des analyses de données et de tendances sans pouvoir identifier aucun individu au sein de l’ensemble de données », a déclaré Naomi Lefkovitz, responsable du programme d’ingénierie de confidentialité du NIST et l’une des éditrices de la publication. « Mais la technologie de confidentialité différentielle est encore en train d’évoluer et il existe des risques dont vous devez être conscient. Nous souhaitons que cette publication aide les organisations à évaluer les produits de confidentialité différentielle et à mieux savoir si les affirmations de leurs créateurs sont exactes. »
Le besoin de comprendre la confidentialité différentielle et les autres PET est urgent, en partie à cause de la croissance rapide de l’intelligence artificielle, qui s’appuie sur de vastes ensembles de données pour entraîner ses modèles d’apprentissage automatique. Au cours de la dernière décennie, les chercheurs ont démontré qu’il était possible d’attaquer ces modèles et de reconstruire les données sur lesquelles ils ont été formés.
« S’il s’agit de données sensibles, vous ne voulez pas qu’elles soient révélées », a déclaré Lefkovitz. « Nous avons appris lors de nos récents concours PETs Prize entre les États-Unis et le Royaume-Uni que la confidentialité différentielle est la meilleure méthode que nous connaissons pour fournir une protection solide de la vie privée contre les attaques une fois le modèle formé. Elle n’empêchera pas tous les types d’attaques, mais elle peut ajouter un couche de défense. »
En tant qu’idée, la confidentialité différentielle existe depuis 2006, mais les logiciels commerciaux de confidentialité différentielle en sont encore à leurs balbutiements. Avant cette publication, le NIST a créé une série de blogs d’introduction conçus pour aider les propriétaires de processus métier et le personnel des programmes de confidentialité à comprendre et à mettre en œuvre les outils de confidentialité différentiels disponibles dans l’espace de collaboration d’ingénierie de confidentialité du NIST.
Cette nouvelle publication est une première ébauche et le NIST sollicite les commentaires du public pendant une période de 45 jours se terminant le 25 janvier 2024. Les commentaires éclaireront une version finale qui sera publiée plus tard en 2024.
Comme le titre de la publication l’indique, il a été difficile d’évaluer les affirmations des fabricants de logiciels de confidentialité différentielle. Une promesse ou une garantie typique qu’un fabricant peut faire est que si son logiciel est utilisé, toute tentative de réidentification d’un individu dont les données apparaissent dans la base de données échouera.
L’évaluation d’une garantie réelle de confidentialité nécessite une compréhension de multiples facteurs, que les auteurs identifient et organisent graphiquement dans une « pyramide différentielle de confidentialité ». La capacité de chaque composante de la pyramide à protéger la vie privée dépend des composantes situées en dessous, et l’évaluation de toute revendication de protection différentielle de la vie privée nécessite d’examiner chaque composante de la pyramide.
Son niveau supérieur contient les mesures les plus directes de garanties de confidentialité ; le niveau intermédiaire comprend des facteurs qui peuvent compromettre une garantie différentielle de confidentialité, comme le manque de sécurité suffisante ; et le niveau inférieur comprend les facteurs sous-jacents, tels que le processus de collecte de données.
L’un des principaux objectifs de la publication, a déclaré Lefkovitz, est de rendre ce sujet technique compréhensible pour les utilisateurs qui n’ont peut-être pas d’expertise technique.
« Nous montrons les calculs impliqués, mais nous essayons de nous concentrer sur la nécessité de rendre le document accessible », a-t-elle déclaré. « Nous ne voulons pas que vous ayez besoin d’être un expert en mathématiques pour utiliser efficacement la confidentialité différentielle. »