Comment protégeons-nous nos informations personnelles ?

Le boom de l’IA, notamment l’avènement des grands modèles de langage (LLM) et de leurs chatbots associés, pose de nouveaux défis en matière de confidentialité. Nos informations personnelles font-elles partie des données d'entraînement d'un modèle ? Nos invites sont-elles partagées avec les forces de l'ordre ? Les chatbots connecteront-ils divers fils de nos vies en ligne et les diffuseront-ils à n'importe qui ?

Pour mieux comprendre ces menaces et trouver des solutions potentielles, Jennifer King, chargée de recherche en matière de politique de confidentialité et de données à l'Institut d'intelligence artificielle centrée sur l'humain de l'Université de Stanford (Stanford HAI), et Caroline Meinhardt, responsable de la recherche politique à Stanford HAI, ont publié un livre blanc. intitulé « Repenser la confidentialité à l'ère de l'IA : provocations politiques pour un monde centré sur les données ». King décrit ici leurs principales conclusions.

À quels types de risques sommes-nous confrontés lorsque nos données sont achetées, vendues et utilisées par des systèmes d’IA ?

Premièrement, les systèmes d’IA présentent bon nombre des mêmes risques pour la vie privée auxquels nous avons été confrontés au cours des dernières décennies de commercialisation d’Internet et de collecte de données pour la plupart effrénée. La différence réside dans l’échelle : les systèmes d’IA sont tellement gourmands en données et manquent de transparence que nous avons encore moins de contrôle sur les informations nous concernant qui sont collectées, à quoi elles servent et sur la manière dont nous pouvons corriger ou supprimer ces informations personnelles. Aujourd’hui, il est pratiquement impossible pour les personnes utilisant des produits ou des services en ligne d’échapper à une surveillance numérique systématique dans la plupart des facettes de la vie – et l’IA pourrait aggraver encore la situation.

Deuxièmement, il existe le risque que d’autres personnes utilisent nos données et nos outils d’IA à des fins antisociales. Par exemple, les outils d’IA générative formés à partir de données extraites d’Internet peuvent mémoriser des informations personnelles sur des personnes, ainsi que des données relationnelles sur leur famille et leurs amis. Ces données contribuent au spear phishing, c'est-à-dire le ciblage délibéré de personnes à des fins d'usurpation d'identité ou de fraude. Déjà, de mauvais acteurs utilisent le clonage vocal de l’IA pour usurper l’identité de personnes, puis les extorquer via de bons vieux téléphones.

Troisièmement, nous voyons des données telles qu'un CV ou une photographie que nous avons partagées ou publiées dans un but précis, être réutilisées pour former des systèmes d'IA, souvent à notre insu ou sans notre consentement et parfois avec des implications directes sur les droits civils.

Des systèmes prédictifs sont utilisés pour aider à sélectionner les candidats et aider les employeurs à décider qui interviewer pour les postes vacants. Cependant, il y a eu des cas où l’IA utilisée pour aider à la sélection des candidats a été biaisée. Par exemple, Amazon a créé son propre outil de sélection d’embauche par l’IA pour découvrir qu’il était biaisé à l’encontre des embauches féminines.

Un autre exemple concerne l’utilisation de la reconnaissance faciale pour identifier et appréhender les personnes ayant commis des crimes. Il est facile de penser : « C'est bien d'avoir un outil comme la reconnaissance faciale, car il permettra d'attraper les méchants. » Mais au lieu de cela, en raison des biais inhérents aux données utilisées pour entraîner les algorithmes de reconnaissance faciale existants, nous assistons à de nombreuses fausses arrestations d'hommes noirs. Les algorithmes les identifient simplement mal.

Sommes-nous devenus si insensibles à l’idée que les entreprises prennent toutes nos données qu’il est désormais trop tard pour faire quoi que ce soit ?

Je suis optimiste. Il y a certainement beaucoup de données qui ont été collectées sur nous tous, mais cela ne signifie pas que nous ne pouvons pas encore créer un système de réglementation beaucoup plus strict qui oblige les utilisateurs à accepter que leurs données soient collectées ou oblige les entreprises à supprimer les données lorsqu'elles le sont. étant mal utilisé.

Actuellement, pratiquement partout où vous allez en ligne, vos déplacements sur différents sites Web sont suivis. Et si vous utilisez une application mobile et que le GPS est activé sur votre téléphone, vos données de localisation sont collectées. Ce défaut est le résultat du fait que l'industrie a convaincu la Federal Trade Commission il y a environ 20 ans que si nous passions de la collecte de données opt-out à la collecte de données opt-in, nous n'aurions jamais d'Internet commercial. À ce stade, je pense que nous avons établi l’utilité d’Internet. Je ne pense pas que les entreprises aient besoin de cette excuse pour collecter des données personnelles.

À mon avis, lorsque je navigue en ligne, mes données ne devraient pas être collectées à moins que je fasse un choix positif, comme m'inscrire au service ou créer un compte. Et même dans ce cas, mes données ne devraient pas être considérées comme publiques, sauf si j'ai accepté de les partager.

Il y a dix ans, la plupart des gens pensaient à la confidentialité des données en termes d'achats en ligne. Ils pensaient : « Je ne sais pas si cela m'importe si ces entreprises savent ce que j'achète et ce que je recherche, car parfois cela est utile. » Mais nous voyons désormais des entreprises se tourner vers cette collecte de données omniprésente qui forme les systèmes d’IA, ce qui peut avoir un impact majeur sur l’ensemble de la société, en particulier sur nos droits civiques. Je ne pense pas qu'il soit trop tard pour faire marche arrière. Ces règles et pratiques par défaut ne sont pas gravées dans le marbre.

En tant qu'approche générale de la protection de la confidentialité des données, pourquoi ne suffit-il pas d'adopter des réglementations de minimisation des données et de limitation des finalités qui stipulent que les entreprises ne peuvent collecter les données dont elles ont besoin que dans un but limité ?

Ces types de règles sont critiques et nécessaires. Ils jouent un rôle clé dans la loi européenne sur la vie privée [the GDPR] et dans l'équivalent californien [the CPPA] et constituent une partie importante de la loi fédérale sur la protection de la vie privée proposée [the ADPPA]. Mais je suis préoccupé par la manière dont les régulateurs finissent par mettre en œuvre ces règles.

Par exemple, comment un régulateur peut-il évaluer qu’une entreprise a collecté trop d’informations pour l’usage pour lequel elle souhaite les utiliser ? Dans certains cas, il peut être clair qu'une entreprise a complètement dépassé les limites en collectant des données dont elle n'avait pas besoin. Mais c'est une question plus difficile lorsque les entreprises (pensez à Amazon ou Google) peuvent affirmer de manière réaliste qu'elles font beaucoup de choses différentes, ce qui signifie qu'elles peuvent justifier la collecte de beaucoup de données. Ce n'est pas un problème insurmontable avec ces règles, mais c'est un véritable problème.

Votre livre blanc identifie plusieurs solutions possibles aux problèmes de confidentialité des données posés par l’IA. Premièrement, vous proposez de passer d’un partage de données opt-out à un partage opt-in, qui pourrait être rendu plus transparent à l’aide d’un logiciel. Comment cela fonctionnerait-il ?

Je dirais que la valeur par défaut devrait être que nos données ne soient pas collectées à moins que nous demandions expressément qu'elles soient collectées. Il y a eu quelques mouvements et solutions technologiques dans cette direction.

L'un d'entre eux est l'App Tracking Transparency (Apple ATT) d'Apple, qu'Apple a lancé en 2021 pour répondre aux préoccupations concernant la quantité de données utilisateur collectées par des applications tierces. Désormais, lorsque les utilisateurs d'iPhone téléchargent une nouvelle application, le système iOS d'Apple leur demande s'ils souhaitent autoriser l'application à les suivre sur d'autres applications et sites Web. Les rapports de l'industrie du marketing estiment que 80 à 90 % des personnes confrontées à ce choix disent non.

Une autre option consiste à ce que les navigateurs Web disposent d'un signal de désinscription intégré, tel que Global Privacy Control, qui empêche le placement de cookies par des tiers ou la vente de données personnelles sans qu'il soit nécessaire de cocher une case. Actuellement, la loi californienne sur la protection de la vie privée (CPPA) prévoit que les navigateurs peuvent inclure cette fonctionnalité, mais cela n'est pas obligatoire. Et tandis que certains navigateurs (Firefox et Brave, par exemple) disposent d'un signal de désactivation intégré, les grandes sociétés de navigateurs (telles que Microsoft Edge, Safari d'Apple et Google Chrome) n'en ont pas. Il est toutefois intéressant de noter qu'un législateur californien a récemment proposé une modification à la CPPA qui obligerait tous les fabricants de navigateurs à respecter les signaux de désinscription des tiers. C’est exactement ce dont nous avons besoin pour que les données ne soient pas collectées par tous les acteurs possibles et partout où vous allez.

Vous proposez également d’adopter une approche de chaîne d’approvisionnement en matière de confidentialité des données. Selon vous, qu’est-ce que cela signifierait ?

Lorsque je parle de la chaîne d’approvisionnement des données, je parle de la manière dont les systèmes d’IA soulèvent des problèmes du côté de l’entrée et de la sortie des données. Du côté des entrées, je fais référence aux données de formation, où nous nous inquiétons de savoir si les informations personnelles d'un individu sont extraites d'Internet et incluses dans les données de formation d'un système. À son tour, la présence de nos informations personnelles dans l’ensemble de formation a potentiellement une influence sur le résultat. Par exemple, un système d’IA générative aurait pu mémoriser mes informations personnelles identifiables et les fournir en sortie. Ou bien, un système d'IA générative pourrait révéler quelque chose sur moi qui est basé sur une inférence à partir de plusieurs points de données qui ne sont pas autrement connus ou connectés et qui ne sont liés à aucune information personnellement identifiable dans l'ensemble de données de formation.

À l’heure actuelle, nous dépendons des sociétés d’IA pour supprimer les informations personnelles de leurs données de formation ou pour mettre en place des garde-fous qui empêchent les informations personnelles de sortir du côté de la sortie. Et ce n’est pas vraiment une situation acceptable, car nous dépendons de leur choix de faire le bon choix.

La réglementation de l’IA nécessite d’accorder une attention particulière à l’ensemble de la chaîne d’approvisionnement des données, non seulement pour protéger notre vie privée, mais également pour éviter les préjugés et améliorer les modèles d’IA. Malheureusement, certaines des discussions que nous avons eues sur la réglementation de l’IA aux États-Unis n’ont pas du tout porté sur les données. Nous nous sommes concentrés sur les exigences de transparence concernant l’objectif des systèmes algorithmiques des entreprises. Même la loi européenne sur l’IA, qui s’appuie déjà sur le RGPD comme référence en matière de confidentialité, n’a pas examiné de manière globale l’écosystème de données qui alimente l’IA. Cela n’a été mentionné que dans le contexte des systèmes d’IA à haut risque. C’est donc un domaine dans lequel il y a beaucoup de travail à faire si nous voulons avoir le sentiment que nos informations personnelles sont protégées contre toute inclusion dans les systèmes d’IA, y compris les très grands systèmes tels que les modèles de fondation.

Vous notez dans votre rapport que l’accent mis sur les droits individuels à la vie privée est trop limité et que nous devons envisager des solutions collectives. Que veux-tu dire?

Si nous voulons donner aux gens plus de contrôle sur leurs données dans un contexte où d’énormes quantités de données sont générées et collectées, il est clair pour moi qu’il ne suffit pas de doubler les droits individuels.

En Californie, où nous avons une loi sur la confidentialité des données, la plupart d'entre nous ne savent même pas de quels droits nous disposons, et encore moins le temps de comprendre comment les exercer. Et si nous voulions les exercer, nous devrions faire des demandes individuelles à chaque entreprise avec laquelle nous avons interagi pour exiger qu'elles ne vendent pas nos informations personnelles – demandes que nous devrions faire tous les deux ans, étant donné que ces Les désinscriptions « ne pas vendre » ne sont pas permanentes.

Tout cela souligne la nécessité d’une solution collective afin que le public dispose de suffisamment de poids pour négocier ses droits sur les données à grande échelle. Pour moi, le concept d’intermédiaire de données est le plus logique. Cela implique de déléguer le pouvoir de négociation sur vos droits en matière de données à un collectif qui fait le travail à votre place, ce qui donne plus de poids aux consommateurs.

Nous voyons déjà des intermédiaires de données prendre forme dans certains contextes interentreprises et ils peuvent prendre diverses formes, comme un gestionnaire de données, une fiducie, une coopérative, une collaboration ou des biens communs. Les mettre en œuvre dans l’espace consommateur serait plus difficile, mais je ne pense pas que ce soit impossible en aucun cas.