Un mélangeur intégré optimise la confidentialité des données génomiques personnelles utilisées pour l'apprentissage automatique

En intégrant un ensemble d’algorithmes préservant la confidentialité, une équipe de recherche de KAUST a développé une approche d’apprentissage automatique qui répond à un défi important de la recherche médicale : comment utiliser la puissance de l’intelligence artificielle (IA) pour accélérer la découverte à partir de données génomiques tout en protégeant la vie privée des individus.

L’étude est publiée dans la revue Avancées scientifiques.

« Les données omiques contiennent généralement de nombreuses informations privées, telles que l’expression des gènes et la composition cellulaire, qui peuvent souvent être liées à la maladie ou à l’état de santé d’une personne », explique Xin Gao de KAUST. « Les modèles d’IA formés sur ces données, en particulier les modèles d’apprentissage profond, ont le potentiel de conserver des informations privées sur les individus. Notre objectif principal est de trouver un meilleur équilibre entre la préservation de la confidentialité et l’optimisation des performances des modèles. »

L’approche traditionnelle pour préserver la confidentialité consiste à chiffrer les données. Cependant, cela nécessite que les données soient déchiffrées pour la formation, ce qui introduit une lourde charge de calcul. Le modèle formé conserve également des informations privées et ne peut donc être utilisé que dans des environnements sécurisés.

Une autre façon de préserver la confidentialité consiste à diviser les données en paquets plus petits et à entraîner le modèle séparément sur chaque paquet à l’aide d’une équipe d’algorithmes de formation locaux, une approche connue sous le nom de formation locale ou d’apprentissage fédéré. Cependant, à elle seule, cette approche peut toujours divulguer des informations privées dans le modèle formé.

Une méthode appelée confidentialité différentielle peut être utilisée pour diviser les données de manière à garantir la confidentialité, mais cela aboutit à un modèle « bruyant » qui limite son utilité pour une recherche précise basée sur les gènes.

« En utilisant le cadre de confidentialité différentielle, l’ajout d’un mélangeur peut obtenir de meilleures performances du modèle tout en conservant le même niveau de protection de la vie privée ; mais l’approche précédente consistant à utiliser un mélangeur tiers centralisé qui introduisait une faille de sécurité critique dans la mesure où le mélangeur pourrait être malhonnête, » déclare Juexiao Zhou, auteur principal de l’article et titulaire d’un doctorat. étudiant du groupe de Gao. « La principale avancée de notre approche est l’intégration d’un algorithme de brassage décentralisé. »

Il explique que le shuffler résout non seulement ce problème de confiance, mais permet également d’obtenir un meilleur compromis entre la préservation de la vie privée et la capacité du modèle tout en garantissant une parfaite protection de la vie privée.

L’équipe a démontré son approche d’apprentissage automatique préservant la confidentialité (appelée PPML-Omics) en formant trois modèles représentatifs d’apprentissage en profondeur sur trois tâches multi-omiques difficiles. Non seulement PPML-Omics a produit des modèles optimisés avec une plus grande efficacité que d’autres approches, mais il s’est également révélé robuste contre les cyberattaques de pointe.

« Il est important de savoir que les modèles d’apprentissage profond correctement formés possèdent la capacité de conserver des quantités importantes d’informations privées à partir des données de formation, telles que les gènes caractéristiques des patients », explique Gao. « Alors que l’apprentissage profond est de plus en plus utilisé pour analyser les données biologiques et biomédicales, l’importance de la protection de la vie privée est plus grande que jamais. »