La soif de données d'OpenAI soulève des inquiétudes en matière de confidentialité

Le mois dernier, OpenAI s’est prononcé contre une loi californienne non encore promulguée qui vise à établir des normes de sécurité de base pour les développeurs de grands modèles d’intelligence artificielle (IA). Il s’agit d’un changement de position pour l’entreprise, dont le directeur général Sam Altman s’est déjà prononcé en faveur d’une réglementation de l’IA.

L'ancienne organisation à but non lucratif, qui s'est fait connaître en 2022 avec la sortie de ChatGPT, est désormais valorisée à 150 milliards de dollars. Elle reste à l'avant-garde du développement de l'IA, avec la sortie la semaine dernière d'un nouveau modèle de « raisonnement » conçu pour s'attaquer à des tâches plus complexes.

L'entreprise a fait plusieurs changements ces derniers mois, ce qui suggère un appétit croissant pour l'acquisition de données. Il ne s'agit pas seulement de textes ou d'images utilisés pour entraîner les outils d'IA générative actuels, mais également de données intimes liées au comportement en ligne, aux interactions personnelles et à la santé.

Rien n’indique qu’OpenAI envisage de regrouper ces différents flux de données, mais cela offrirait de solides avantages commerciaux. La possibilité même d’accéder à des informations aussi variées soulève des questions importantes sur la confidentialité et les implications éthiques du contrôle centralisé des données.

Accords médiatiques

Cette année, OpenAI a signé plusieurs partenariats avec des sociétés de médias, notamment Temps magazine, le Le Financial TimesAxel Springer, Le MondePrisa Media et plus récemment Condé Nast, propriétaire de sociétés telles que Vogue, Le New Yorker, La foire aux vanités et Câblé.

Ces partenariats permettent à OpenAI d'accéder à de grandes quantités de contenu. Les produits d'OpenAI peuvent également être utilisés pour analyser le comportement des utilisateurs et les mesures d'interaction telles que les habitudes de lecture, les préférences et les modèles d'engagement sur différentes plateformes.

Si OpenAI avait accès à ces données, l'entreprise pourrait acquérir une compréhension globale de la manière dont les utilisateurs interagissent avec différents types de contenu, ce qui pourrait être utilisé pour un profilage et un suivi approfondis des utilisateurs.

Vidéo, biométrie et santé

OpenAI a également investi dans une start-up spécialisée dans les webcams, Opal. L'objectif est d'améliorer les caméras avec des capacités d'IA avancées.

Les séquences vidéo collectées par des webcams alimentées par l’IA pourraient être traduites en données biométriques plus sensibles, telles que les expressions faciales et les états psychologiques déduits.

En juillet, OpenAI et Thrive Global ont lancé Thrive AI Health. L'entreprise affirme qu'elle utilisera l'IA pour « hyper-personnaliser et faire évoluer les changements de comportement » dans le domaine de la santé.

Bien que Thrive AI Health affirme qu'il disposera de « solides garde-fous en matière de confidentialité et de sécurité », on ne sait pas encore à quoi ils ressembleront.

Les précédents projets d’IA dans le domaine de la santé ont impliqué un partage important de données personnelles, comme le partenariat entre Microsoft et Providence Health aux États-Unis et un autre entre Google DeepMind et le Royal Free London NHS Foundation Trust au Royaume-Uni. Dans ce dernier cas, DeepMind a fait l’objet d’une action en justice pour son utilisation de données de santé privées.

Le projet parallèle de Sam Altman sur l'analyse du globe oculaire

Altman a également investi dans d’autres entreprises gourmandes en données, notamment dans un projet controversé de cryptomonnaie appelé WorldCoin (qu’il a cofondé). WorldCoin vise à créer un réseau financier mondial et un système d’identification utilisant l’identification biométrique, en particulier l’analyse de l’iris.

L'entreprise affirme avoir déjà scanné les yeux de plus de 6,5 millions de personnes dans près de 40 pays. Entre-temps, plus d'une douzaine de juridictions ont suspendu ses opérations ou examiné son traitement des données.

Les autorités bavaroises examinent actuellement si Worldcoin est conforme aux réglementations européennes en matière de protection des données. Une décision négative pourrait entraîner l'interdiction d'exploitation de l'entreprise en Europe.

Les principales préoccupations étudiées concernent la collecte et le stockage de données biométriques sensibles.

Pourquoi est-ce important ?

Les modèles d'IA existants, comme le modèle phare d'OpenAI, GPT-4o, ont été en grande partie formés à partir de données accessibles au public sur Internet. Cependant, les modèles futurs auront besoin de davantage de données, et celles-ci deviennent de plus en plus difficiles à obtenir.

L'année dernière, la société a déclaré qu'elle souhaitait que les modèles d'IA « comprennent en profondeur tous les sujets, tous les secteurs, toutes les cultures et toutes les langues », ce qui nécessiterait « un ensemble de données de formation aussi large que possible ».

Dans ce contexte, la recherche par OpenAI de partenariats avec les médias, les investissements dans les technologies de collecte de données biométriques et de santé, ainsi que les liens du PDG avec des projets controversés tels que Worldcoin, commencent à brosser un tableau inquiétant.

En accédant à de vastes quantités de données utilisateur, OpenAI se positionne pour construire la prochaine vague de modèles d’IA, mais la confidentialité pourrait en être victime.

Les risques sont multiples. De grandes quantités de données personnelles sont vulnérables aux violations et aux abus, comme ce fut le cas lors de la violation de données Medisecure, au cours de laquelle près de la moitié des Australiens se sont vus voler leurs données personnelles et médicales.

La possibilité d’une consolidation à grande échelle des données soulève également des inquiétudes en matière de profilage et de surveillance. Encore une fois, rien n’indique qu’OpenAI envisage actuellement de se livrer à de telles pratiques.

Cependant, les politiques de confidentialité d'OpenAI ont été loin d'être parfaites par le passé. Les entreprises technologiques ont également un long historique de pratiques douteuses en matière de données.

Il n’est pas difficile d’imaginer un scénario dans lequel le contrôle centralisé sur de nombreux types de données permettrait à OpenAI d’exercer une influence significative sur les personnes, dans les domaines personnels et publics.

La sécurité va-t-elle passer au second plan ?

L'histoire récente d'OpenAI ne contribue guère à apaiser les inquiétudes en matière de sécurité et de confidentialité. En novembre 2023, Altman a été temporairement démis de ses fonctions de directeur général, apparemment en raison de conflits internes sur l'orientation stratégique de l'entreprise.

Altman est un fervent défenseur de la commercialisation et du déploiement rapides des technologies d’intelligence artificielle. Il aurait souvent privilégié la croissance et la pénétration du marché au détriment des mesures de sécurité.

Le retrait d'Altman de son poste a été bref, suivi d'une réintégration rapide et d'un remaniement important du conseil d'administration d'OpenAI. Cela suggère que la direction de l'entreprise approuve désormais son approche agressive du déploiement de l'IA, malgré les risques potentiels.

Dans ce contexte, les implications de la récente opposition d’OpenAI au projet de loi californien vont au-delà d’un simple désaccord politique. La position anti-réglementation suggère une tendance inquiétante.

OpenAI n'a pas répondu à la demande de commentaires de The Conversation avant la date limite.