Extraction d’informations personnelles à partir de données anonymes de téléphones portables à l’aide de l’apprentissage automatique
Une équipe de recherche de l’Illinois Institute of Technology a extrait des informations personnelles, des caractéristiques spécifiquement protégées comme l’âge et le sexe, à partir de données anonymes de téléphones portables à l’aide d’algorithmes d’apprentissage automatique et d’intelligence artificielle, soulevant des questions sur la sécurité des données.
La recherche a été menée par une équipe interdisciplinaire de trois facultés de l’Illinois Tech, dont Vijay K. Gurbani, professeur agrégé de recherche en informatique; Matthew Shapiro, professeur de science politique ; et Yuri Mansury, professeur agrégé de sciences sociales. Ils ont été rejoints par les anciens élèves de l’Illinois Tech Lida Kuang (MS CS ’19) et Samruda Pobbathi (MS CS ’19) qui ont travaillé avec Gurbani pour publier « Predicting Age and Gender from Network Telemetry: Implications for Privacy and Impact on Policy » dans PLOS Un.
Les chercheurs ont utilisé les données d’une société de téléphonie mobile d’Amérique latine pour estimer avec succès le sexe et l’âge des utilisateurs individuels via leurs communications privées avec une relative facilité.
L’équipe a développé un modèle de réseau neuronal pour estimer le sexe avec une précision de 67 %, qui surpasse les techniques modernes telles que les modèles d’arbre de décision, de forêt aléatoire et d’amplification de gradient par une marge significative. Ils ont également pu estimer l’âge des utilisateurs individuels avec un taux de précision de 78 % en utilisant le même modèle.
« Les informations sur l’âge et le sexe semblent anodines, mais ces informations sont utilisées de manière néfaste par les gens, souvent avec des conséquences dévastatrices », déclare Shapiro.
« Quand quelqu’un avec de mauvaises intentions cible de jeunes enfants pour quoi que ce soit, allant de la vente à la prédation sexuelle, cela enfreint un certain nombre de lois conçues pour protéger les mineurs, telles que la loi sur la protection de la vie privée en ligne des enfants et HIPAA. À l’autre extrémité du spectre d’âge, les seniors sont la cible d’efforts sophistiqués de spam et de phishing compte tenu de leur sensibilité et de leur accès à l’épargne. »
Ces informations ont été extrapolées à l’aide d’équipements informatiques couramment accessibles. L’équipe a utilisé un système d’exploitation Linux (Fedora) avec 16 Go de mémoire et un processeur Intel i5-6200U à quatre cœurs pour exécuter le modèle de réseau neuronal.
« L’ordinateur portable que nous avons utilisé pour ce travail n’est pas du tout exclusif », déclare Gurbani. « Pour un adversaire disposant de ressources suffisantes, il y aura des machines beaucoup plus puissantes disponibles, y compris l’accès à l’informatique en cluster, où plusieurs ordinateurs sont configurés dans un cluster pour fournir la puissance informatique pour les modèles AI/ML. »
L’ensemble de données utilisé pour mener la recherche n’est pas accessible au public, mais Gurbani affirme qu’un adversaire pourrait collecter un ensemble de données similaire en capturant des données via des points d’accès Wi-Fi publics ou en attaquant l’infrastructure informatique des fournisseurs de services.
« Comme nous l’avons mentionné dans notre article, de telles attaques se produisent malheureusement et ne sont pas rares », déclare Gurbani. « Le processus de collecte de ces données ne serait pas facile, mais ce ne serait pas impossible non plus. »
L’objectif de cet article est d’entamer un dialogue qui examine de manière critique l’impact que les techniques émergentes d’apprentissage automatique et d’IA ont sur les réglementations en matière de confidentialité. Il n’y a pas de réglementation nationale sur la confidentialité aux États-Unis, les chercheurs ont donc examiné comment ces techniques ébranlent les articles du règlement général sur la protection des données de l’Union européenne, qui sont conçus pour protéger les consommateurs contre la menace imminente de violations de la vie privée.
« L’apprentissage automatique et la prise de décision automatisée feront partie intégrante des processus métier, et il est impossible d’échapper à cette réalité », déclare Gurbani. « La question qui se pose est de savoir comment protéger la vie privée des individus ainsi que les intérêts sociétaux et économiques contre la fraude en utilisant le cadre réglementaire approprié. »
Une façon d’y parvenir, dit Mansury, est de fournir aux consommateurs l’option « opt-out » pour garder leurs informations personnelles privées lors de l’installation d’une application.
Les recommandations incluent l’utilisation de données synthétiques plutôt que l’observation des utilisateurs pour les modèles d’apprentissage automatique, pour que les détenteurs de données travaillent avec des spécialistes de l’apprentissage automatique pour développer les meilleures pratiques, pour créer un cadre réglementaire qui permet aux utilisateurs de refuser le partage de données pour garder les informations personnelles privées, et pour mettre à jour les protocoles de non-conformité existants. En d’autres termes, il reste encore beaucoup à faire pour combler les lacunes politiques ainsi que l’éthique de l’IA.