Une nouvelle attaque par inférence qui pourrait permettre l'accès aux données sensibles des utilisateurs

Un exemple d’illustration de VFL. La partie B est une société financière détenant les fonctionnalités 1 et 2, et la partie A est une banque possédant les fonctionnalités 3 et 4. Ils collaborent pour former un modèle prédisant si une demande de prêt doit être approuvée. Crédit : Morteza Varasteh.

Alors que l’utilisation d’algorithmes d’apprentissage automatique (ML) continue de croître, les informaticiens du monde entier tentent constamment d’identifier et de traiter les façons dont ces algorithmes pourraient être utilisés de manière malveillante ou inappropriée. En raison de leurs capacités avancées d’analyse de données, les approches ML ont en effet le potentiel de permettre à des tiers d’accéder à des données privées ou de mener des cyberattaques rapidement et efficacement.

Morteza Varasteh, chercheur à l’Université d’Essex au Royaume-Uni, a récemment identifié un nouveau type d’attaque par inférence qui pourrait potentiellement compromettre les données confidentielles des utilisateurs et les partager avec d’autres parties. Cette attaque, qui est détaillée dans un article prépublié sur arXivexploite l’apprentissage fédéré vertical (VFL), un scénario de ML distribué dans lequel deux parties différentes possèdent des informations différentes sur les mêmes individus (clients).

« Ce travail est basé sur ma précédente collaboration avec un collègue de Nokia Bell Labs, où nous avons introduit une approche pour extraire les informations des utilisateurs privés dans un centre de données, appelée partie passive (par exemple, une compagnie d’assurance) », a déclaré Varasteh à Tech. Xplore. « La partie passive collabore avec un autre centre de données, appelé la partie active (par exemple, une banque), pour créer un algorithme ML (par exemple, un algorithme d’approbation de crédit pour la banque). »

L’objectif clé de l’étude récente de Varasteh était de montrer qu’après avoir développé un modèle ML dans un contexte d’apprentissage fédéré vertical (VFL), une soi-disant «partie active» pourrait potentiellement extraire des informations confidentielles des utilisateurs, qui ne sont partagées qu’avec le autre partie impliquée dans la construction du modèle ML. La partie active pourrait le faire en utilisant ses propres données disponibles en combinaison avec d’autres informations sur le modèle ML.

Il est important de noter que cela pourrait être fait sans demander de renseignements sur un utilisateur de l’autre partie. Cela signifie que, par exemple, si une banque et une compagnie d’assurance développent en collaboration un algorithme de ML, la banque pourrait utiliser le modèle pour obtenir des informations sur ses propres clients qui sont également clients de la compagnie d’assurance, sans obtenir leur autorisation.

« Imaginez un scénario dans lequel une banque et une compagnie d’assurance ont de nombreux clients en commun, les clients partageant certaines informations avec la banque et d’autres avec la compagnie d’assurance », a expliqué Varasteh. « Pour construire un modèle d’approbation de crédit plus puissant, la banque collabore avec la compagnie d’assurance sur la création d’un algorithme d’apprentissage automatique (ML). Le modèle est construit et la banque l’utilise pour traiter les demandes de prêt, dont celle d’un client nommé Alex , qui est également client de la compagnie d’assurances. »

Dans le scénario décrit par Varasteh, la banque pourrait être intéressée à savoir quelles informations Alex (l’utilisateur hypothétique qu’elle partage avec une compagnie d’assurance) ont partagées avec la compagnie d’assurance. Ces informations sont bien sûr privées, de sorte que la compagnie d’assurance ne peut pas librement les partager avec la banque.

« Pour surmonter cela, la banque pourrait créer un autre modèle ML basé sur ses propres données pour imiter le modèle ML construit en collaboration avec la compagnie d’assurance », a déclaré Varasteh. « Le modèle ML autonome produit des estimations de la situation globale d’Alex dans la compagnie d’assurance, en tenant compte des données partagées par Alex avec la banque. Une fois que la banque a cet aperçu approximatif de la situation d’Alex, et en utilisant également les paramètres du modèle VFL, ils peut utiliser un ensemble d’équations pour résoudre les informations privées d’Alex partagées uniquement avec la compagnie d’assurance. »

L’attaque par inférence décrite par Varasteh dans son article est pertinente pour tous les scénarios dans lesquels deux parties (par exemple, des banques, des entreprises, des organisations, etc.) partagent des utilisateurs communs et détiennent les données sensibles de ces utilisateurs. L’exécution de ces types d’attaques nécessiterait qu’une partie « active » engage des développeurs pour créer des modèles ML autonomes, une tâche qui devient désormais plus facile à accomplir.

« Nous montrons qu’une banque (c’est-à-dire une partie active) peut utiliser ses données disponibles pour estimer le résultat du modèle VFL qui a été construit en collaboration avec une compagnie d’assurance », a déclaré Varasteh.

« Une fois cette estimation obtenue, il est possible de résoudre un ensemble d’équations mathématiques en utilisant les paramètres du modèle VFL pour obtenir les informations privées de l’utilisateur hypothétique Alex. Il convient de noter que les informations privées d’Alex ne sont censées être connues de personne. Bien que certaines contre-mesures ont en outre été introduites dans l’article pour empêcher ce type d’attaque, l’attaque elle-même est toujours une partie notable des résultats de la recherche. »

Les travaux de Varasteh jettent un nouvel éclairage sur les utilisations malveillantes possibles des modèles ML pour accéder illicitement aux informations personnelles des utilisateurs. Notamment, le scénario d’attaque et de violation de données qu’il a identifié n’avait pas été exploré dans la littérature précédente.

Dans son article, le chercheur de l’Université d’Essex propose des schémas de préservation de la vie privée (PPS) qui pourraient protéger les utilisateurs de ce type d’attaque par inférence. Ces schémas sont conçus pour déformer les paramètres d’un modèle VFL qui correspondent aux caractéristiques des données détenues par une partie dite passive, telle que la compagnie d’assurance dans le scénario décrit par Varasteh. En déformant ces paramètres à des degrés divers, les parties passives qui aident en collaboration une partie active à construire un modèle ML peuvent réduire le risque que la partie active accède aux données sensibles de leurs clients.

Ces travaux récents pourraient inspirer d’autres chercheurs à évaluer les risques de l’attaque par inférence récemment découverte et à identifier des attaques similaires à l’avenir. Pendant ce temps, Varasteh a l’intention d’examiner plus en détail les structures VFL, en recherchant d’éventuelles failles de confidentialité et en développant des algorithmes qui pourraient les fermer avec un minimum de dommages pour toutes les parties impliquées.

« L’objectif principal de VFL est de permettre la création de modèles ML puissants tout en garantissant que la confidentialité des utilisateurs est préservée », a ajouté Varasteh. « Cependant, il existe une dichotomie subtile dans Vdl entre la partie passive, qui est responsable de la sécurité des informations des utilisateurs, et la partie active, qui vise à obtenir une meilleure compréhension du modèle Vdl et de ses résultats. Fournir des éclaircissements sur les résultats du modèle peut intrinsèquement conduire à des moyens d’extraire des informations privées. Par conséquent, il reste encore beaucoup de travail à faire des deux côtés et pour divers scénarios dans le contexte de VdF.