Une perspective du calcul multipartite
L'apprentissage fédéré (FL) est devenu un paradigme d'apprentissage automatique populaire qui permet à plusieurs propriétaires de données d'entraîner des modèles de manière collaborative sans partager leurs ensembles de données brutes. Il offre un potentiel pour un large éventail d’applications d’analyse sur des données sensibles.
Par exemple, l'apprentissage fédéré a été appliqué à l'analyse de mégadonnées médicales telles que la prédiction et le diagnostic de maladies sans révéler les informations médicales privées des patients à des services tiers. Il a également été exploité par des banques et des compagnies d’assurance pour former un modèle d’apprentissage automatique précis destiné à l’évaluation des risques ou à la recommandation des clients.
L'apprentissage fédéré permet la formation collaborative de modèles sans partager d'ensembles de données brutes entre les propriétaires de données en décomposant la procédure de formation en formation locale et agrégation de modèles. Un article décrivant une enquête sur l'apprentissage fédéré a été publié dans la revue Frontières de l'informatique.
Chaque propriétaire de données effectue une formation locale sur sa propre partition de données et ne communique que des résultats intermédiaires, par exemple des gradients pour l'agrégation de modèles sur un serveur centralisé ou sur d'autres propriétaires de données. L'apprentissage fédéré avec un serveur central pour coordonner l'agrégation de modèles est appelé FL centralisé, tandis que l'agrégation de modèles de manière peer-to-peer est appelée FL décentralisé.
Le FL centralisé impose une charge de travail de calcul élevée au serveur, tandis que le FL décentralisé implique une communication excessive entre les pairs. Par conséquent, un FL semi-centralisé a récemment été proposé pour équilibrer les coûts de calcul et de communication en effectuant une agrégation de modèles clusterisés ou hiérarchiques.
Nous nous concentrons sur l'apprentissage fédéré avec des garanties de confidentialité. Notez que l'échange de résultats intermédiaires (par exemple, des dégradés) plutôt que d'ensembles de données brutes peut toujours entraîner une fuite de confidentialité. En conséquence, des techniques supplémentaires sont obligatoires pour sécuriser la communication et le calcul lors de l’apprentissage fédéré.
Le calcul multipartite est particulièrement intéressant, une catégorie générique et fondamentale de techniques qui utilise des entrées privées multipartites pour un calcul agrégé sans révéler les données privées de chaque partie. Les techniques de calcul multipartites courantes incluent les circuits brouillés, le partage de secrets, le cryptage homomorphe, la confidentialité différentielle, etc.
Ces dernières années ont été témoins d’une tendance à améliorer la confidentialité de l’apprentissage fédéré via le calcul multipartite.
Fourni par Higher Education Press