Une étude expose les risques de confidentialité liés aux conversations des chatbots IA

Une étude expose les risques de confidentialité liés aux conversations des chatbots IA

Les grandes entreprises d’IA utilisent les conversations des utilisateurs à des fins de formation, ce qui soulève d’importantes préoccupations en matière de confidentialité et souligne la nécessité de politiques plus transparentes.

Le mois dernier, Anthropic a apporté une modification discrète à ses conditions de service pour les clients : les conversations que vous avez avec son chatbot IA, Claude, seront utilisées par défaut pour entraîner son grand modèle de langage, sauf si vous vous désabonnez.

Anthropic n’est pas le seul à adopter cette politique. Une étude récente sur les politiques de confidentialité des développeurs pionniers a révélé que six grandes entreprises américaines réintègrent les commentaires des utilisateurs dans leurs modèles pour améliorer les capacités et gagner des parts de marché. Certains donnent aux consommateurs la possibilité de se désinscrire, d’autres non.

Compte tenu de cette tendance, les utilisateurs de systèmes de chat basés sur l’IA devraient-ils s’inquiéter du respect de leur vie privée ? « Absolument oui », déclare Jennifer King, chargée de recherche en matière de politique de confidentialité et de données à l'Institut Stanford pour l'IA centrée sur l'humain et auteur principal de l'étude publiée sur le site. arXiv serveur de préimpression.

« Si vous partagez des informations sensibles dans une conversation avec ChatGPT, Gemini ou d'autres modèles frontaliers, elles peuvent être collectées et utilisées à des fins de formation, même si elles se trouvent dans un fichier séparé que vous avez téléchargé pendant la conversation. »

King et son équipe de chercheurs de Stanford ont examiné les politiques de confidentialité des développeurs d'IA et ont identifié plusieurs causes de préoccupation, notamment de longues périodes de conservation des données, une formation sur les données des enfants et un manque général de transparence et de responsabilité dans les pratiques de confidentialité des développeurs. À la lumière de ces résultats, les consommateurs devraient réfléchir à deux fois aux informations qu’ils partagent dans les conversations de chat IA et, dans la mesure du possible, refuser catégoriquement que leurs données soient utilisées à des fins de formation.

L’histoire des politiques de confidentialité

En tant qu’outil de communication, la politique de confidentialité de l’ère Internet qui s’applique désormais aux chats IA est profondément imparfaite. Généralement rédigés dans un langage juridique alambiqué, ces documents sont difficiles à lire et à comprendre pour les consommateurs. Pourtant, nous devons les accepter si nous voulons visiter des sites Web, interroger les moteurs de recherche et interagir avec de grands modèles de langage (LLM).

Au cours des cinq dernières années, les développeurs d’IA ont récupéré d’énormes quantités d’informations sur l’Internet public pour entraîner leurs modèles, un processus qui peut par inadvertance extraire des informations personnelles dans leurs ensembles de données.

« Des centaines de millions de personnes interagissent avec des chatbots IA, qui collectent des données personnelles à des fins de formation, et presque aucune recherche n'a été menée pour examiner les pratiques de confidentialité de ces outils émergents », explique King.

Aux États-Unis, ajoute-t-elle, la protection de la vie privée des données personnelles collectées ou partagées avec les développeurs LLM est compliquée par une mosaïque de lois au niveau des États et par l'absence de réglementation fédérale.

Dans le but de combler cette lacune dans la recherche, l'équipe de Stanford a comparé les politiques de confidentialité de six entreprises américaines : Amazon (Nova), Anthropic (Claude), Google (Gemini), Meta (Meta AI), Microsoft (Copilot) et OpenAI (ChatGPT). Ils ont analysé un réseau de documents pour chaque LLM, y compris ses politiques de confidentialité publiées, ses sous-politiques liées, ainsi que les FAQ et conseils associés accessibles depuis les interfaces de chat, pour un total de 28 longs documents.

Pour évaluer ces politiques, les chercheurs ont suivi une méthodologie utilisée par le California Consumer Privacy Act, car il s'agit de la loi sur la confidentialité la plus complète aux États-Unis, et les six développeurs frontaliers sont tenus de s'y conformer. Pour chaque entreprise, les chercheurs ont analysé le langage utilisé dans la documentation pour déterminer comment les politiques énoncées répondent à trois questions :

  1. Les contributions des utilisateurs aux chatbots sont-elles utilisées pour former ou améliorer les LLM ?
  2. Quelles sources et catégories de données personnelles des consommateurs sont collectées, stockées et traitées pour former ou améliorer les LLM ?
  3. Quelles sont les options dont disposent les utilisateurs pour activer ou désactiver l'utilisation de leurs chats à des fins de formation ?

Des frontières floues

Les chercheurs ont découvert que les six sociétés utilisent par défaut les données de discussion des utilisateurs pour entraîner leurs modèles, et que certains développeurs conservent ces informations indéfiniment dans leurs systèmes. Certaines entreprises, mais pas toutes, déclarent anonymiser les informations personnelles avant de les utiliser à des fins de formation. Et certains développeurs autorisent les humains à consulter les transcriptions des discussions des utilisateurs à des fins de formation de modèles.

Dans le cas des entreprises multiproduits, telles que Google, Meta, Microsoft et Amazon, les interactions des utilisateurs sont également systématiquement fusionnées avec les informations glanées à partir d'autres produits que les consommateurs utilisent sur ces plateformes : requêtes de recherche, ventes/achats, engagement sur les réseaux sociaux, etc.

Ces pratiques peuvent devenir problématiques lorsque, par exemple, les utilisateurs partagent des données personnelles biométriques et de santé sans en considérer les implications. Voici un scénario réaliste : imaginez demander à un LLM des idées de dîner. Peut-être précisez-vous que vous souhaitez des recettes faibles en sucre ou respectueuses du cœur. Le chatbot peut tirer des conclusions à partir de cette entrée, et l’algorithme peut décider que vous correspondez à une classification en tant qu’individu vulnérable en matière de santé.

« Cette détermination se fraye un chemin à travers l'écosystème du développeur. Vous commencez à voir des publicités pour des médicaments, et il est facile de voir comment ces informations pourraient finir entre les mains d'une compagnie d'assurance. Les effets se répercutent au fil du temps », explique King.

Un autre signal d'alarme découvert par les chercheurs concerne la vie privée des enfants : les pratiques des développeurs varient à cet égard, mais la plupart ne prennent pas de mesures pour supprimer les commentaires des enfants de leurs processus de collecte de données et de formation de modèles. Google a annoncé plus tôt cette année qu'il formerait ses modèles sur les données des adolescents, s'ils le souhaitaient.

En revanche, Anthropic affirme qu'elle ne collecte pas de données sur les enfants et ne permet pas aux utilisateurs de moins de 18 ans de créer des comptes, bien qu'elle n'exige pas de vérification de l'âge. Et Microsoft affirme collecter des données sur les enfants de moins de 18 ans, mais ne les utilise pas pour créer des modèles de langage. Toutes ces pratiques soulèvent des questions de consentement, car les enfants ne peuvent légalement consentir à la collecte et à l’utilisation de leurs données.

Une IA qui préserve la confidentialité

Dans l'ensemble, les chercheurs de Stanford ont observé que les politiques de confidentialité des développeurs manquent d'informations essentielles sur leurs pratiques. Ils recommandent aux décideurs politiques et aux développeurs de relever les défis en matière de confidentialité des données posés par les chatbots propulsés par LLM grâce à une réglementation fédérale complète sur la confidentialité, une option d'adhésion positive à la formation des modèles et un filtrage par défaut des informations personnelles des entrées de chat.

« En tant que société, nous devons nous demander si les gains potentiels en matière de capacités d'IA résultant de la formation sur les données de chat valent la perte considérable de la vie privée des consommateurs. Et nous devons promouvoir l'innovation dans l'IA préservant la vie privée, afin que la vie privée des utilisateurs ne soit pas une réflexion après coup », conclut King.