Les modèles d'IA s'entraînent avec des photos d'enfants. Et peu importe si les parents essaient de l'éviter

L’organisation Human Rights Watch (HRW) surveille depuis un certain temps la manière dont la technologie peut menacer nos droits et libertés, et elle signale désormais un nouveau problème, cette fois lié à l’IA. Et le plus inquiétant est de savoir qui sont les victimes de cette menace : les enfants.

Que faisaient ces photos d’enfants là-bas ?. Un chercheur du HWR nommé Hye Jung Han a découvert quelque chose d’inquiétant le mois dernier. L'ensemble de données LAION-5B, très populaire pour la formation de modèles d'IA, contenait une série de 170 photos d'enfants brésiliens. Les images provenaient de blogs sur la parentalité et des sujets personnels, mais il y avait même des images de vidéos YouTube peu vues, éventuellement téléchargées pour être partagées avec les amis et la famille, ont-ils indiqué dans Wired. Les conditions d'utilisation de YouTube interdisent de capturer des informations permettant d'identifier une personne, sauf cas exceptionnels, mais le mal semble déjà fait, comme nous l'avons vu par le passé.

Maintenant, ils en ont découvert davantage. Le même chercheur a trouvé 190 autres photos d’enfants, cette fois australiennes. Les images couvrent toute la durée de l'enfance : des bébés dès leur naissance aux filles en maillot de bain lors d'un carnaval, en passant par les garçons faisant des bulles. Il existe des photos d'enfants de tribus indigènes australiennes, mais dans chacune d'elles se cache un fait inquiétant : les parents ont essayé d'empêcher que ces photos soient exposées au public.

Photos volées. Cette nouvelle découverte précise que les photos ont été vues par peu de personnes et « avaient certaines mesures de confidentialité ». Il ne semblait pas possible de les trouver avec une recherche en ligne, et ils étaient publiés sur des blogs personnels ou des sites de partage de vidéos. D'autres ont été publiés par des écoles ou par des photographes engagés par des familles. « Certains ont été mis en ligne des années, voire une décennie, avant la création de LAION-5B », soulignent-ils au sein de cette organisation.

enfants identifiables. La recherche a mis en évidence la manière dont les URL de l’ensemble de données révèlent parfois des informations sur les enfants, notamment les noms ou les lieux où les photos ont été prises. A partir d'une photo décrivant « deux enfants, âgés de 3 et 4 ans, souriant jusqu'aux oreilles tout en tenant des pinceaux devant une fresque colorée », le chercheur a pu obtenir « les noms complets et les âges des deux enfants, ainsi que le nom de la garderie où ils sont allés à Perth, en Australie occidentale. Il n'y avait aucune information sur les enfants ailleurs sur Internet, ce qui semble indiquer clairement que les parents ont pris des mesures pour tenter d'empêcher l'identification des enfants.

Et ce n’est probablement que la pointe de l’iceberg.. Comme ils l'expliquent dans HRW, leurs chercheurs n'ont pu examiner que « moins de 0,0001 % des 5,85 milliards d'images et de descriptions de cet ensemble de données ». Han a expliqué combien « c'est étonnant que cela soit sorti d'un ensemble aléatoire d'environ 5 000 images, et que ces 190 photos d'enfants australiens soient immédiatement apparues. On pourrait s'attendre à trouver plus de photos de chats que de photos personnelles d'enfants », en tenant compte du fait que LAION -5B est théoriquement « le reflet de l’ensemble d’Internet ».

L'IA ne sait pas garder les secrets. Pour HRW, les modèles d’IA représentent un danger car il a déjà été démontré qu’il est possible de collecter des informations sensibles et de « sauver » des données sensibles – comme les dossiers médicaux – qui se sont retrouvées dans les ensembles de données avec lesquels ils ont été formés.

Ce que disent les créateurs de LAION-5B. Les créateurs de cet ensemble de données font partie de LAION, une ONG qui affirme clairement avoir une « politique de tolérance zéro pour les contenus illégaux ». L'un de leurs porte-parole, Nathan Tyler, a déclaré dans Ars Technica qu'ils s'efforçaient de résoudre le problème, mais que la suppression de ces images est un processus lent et inefficace. Comme le dit Han, la suppression des liens des ensembles de données ne modifie pas les modèles d'IA déjà entraînés avec cet ensemble de données. « Ils ne peuvent pas oublier les données sur lesquelles ils se sont entraînés, même si ces données ont été supprimées après l'ensemble des données (de formation). »

Images | Robert Collins

À Simseo | YouTube considère comme une violation de la vie privée le fait que quelqu'un utilise une IA pour se faire passer pour nous. Et nous pouvons le signaler