Pourquoi l'IA a du mal à comprendre qu'un enfant de six ans ne peut pas être médecin ou prétendre à une pension

Pourquoi l'IA a du mal à comprendre qu'un enfant de six ans ne peut pas être médecin ou prétendre à une pension

Lorsque vous vous rendez à l'hôpital pour une analyse de sang, les résultats sont enregistrés dans un ensemble de données et comparés aux résultats d'autres patients et aux données démographiques. Cela permet aux médecins de vous comparer (votre sang, votre âge, votre sexe, vos antécédents médicaux, vos scanners, etc.) aux résultats et aux antécédents d'autres patients, ce qui leur permet de prévoir, de gérer et de développer de nouveaux traitements.

Depuis des siècles, la recherche scientifique repose sur cette approche : identifier un problème, recueillir des données, rechercher des modèles et élaborer un modèle pour le résoudre. On espère que l’intelligence artificielle (IA) – le type d’apprentissage automatique qui crée des modèles à partir de données – sera capable de le faire beaucoup plus rapidement, efficacement et avec plus de précision que les humains.

Cependant, l’entraînement de ces modèles d’IA nécessite une grande quantité de données, à tel point que certaines d’entre elles doivent être synthétiques : pas de données réelles provenant de personnes réelles, mais des données reproduisant des modèles existants. La plupart des ensembles de données synthétiques sont eux-mêmes générés par l’IA basée sur le Machine Learning.

Les erreurs grossières des générateurs d’images et des chatbots sont faciles à repérer, mais les données synthétiques produisent également des hallucinations : des résultats improbables, biaisés ou tout simplement impossibles. Comme pour les images et les textes, elles peuvent être amusantes, mais l’utilisation généralisée de ces systèmes dans tous les domaines de la vie publique signifie que le potentiel de nuisance est énorme.

Qu'est-ce que les données synthétiques ?

Les modèles d’IA ont besoin de beaucoup plus de données que ce que le monde réel peut offrir. Les données synthétiques offrent une solution : l’IA générative qui examine les distributions statistiques d’un ensemble de données réel et en crée une nouvelle, synthétique, pour former d’autres modèles d’IA.

Ces données « pseudo » synthétiques sont similaires mais pas identiques à l’original, ce qui signifie qu’elles peuvent également garantir la confidentialité, contourner les réglementations sur les données et être librement partagées ou distribuées.

Les données synthétiques peuvent également compléter les ensembles de données réels, les rendant suffisamment volumineux pour entraîner un système d’IA. Ou, si un ensemble de données réel est biaisé (par exemple, s’il comporte trop peu de femmes ou s’il surreprésente les cardigans au lieu des pulls), les données synthétiques peuvent l’équilibrer. Le débat sur la mesure dans laquelle les données synthétiques peuvent s’écarter de l’original fait actuellement rage.

Des omissions flagrantes

Sans une curation appropriée, les outils qui créent des données synthétiques surreprésenteront toujours les éléments qui sont déjà dominants dans un ensemble de données et sous-représenteront (ou même omettront) les « cas limites » moins courants.

C’est ce qui a suscité mon intérêt pour les données synthétiques. La recherche médicale sous-représente déjà les femmes et les autres minorités, et je craignais que les données synthétiques n’aggravent ce problème. J’ai donc fait équipe avec un scientifique en apprentissage automatique, le Dr Saghi Hajisharif, pour étudier le phénomène de disparition des cas limites.

Dans le cadre de nos recherches, nous avons utilisé un type d’IA appelé GAN pour créer des versions synthétiques des données du recensement américain de 1990 sur les adultes. Comme prévu, des cas limites manquaient dans les ensembles de données synthétiques. Dans les données originales, nous avions 40 pays d’origine, mais dans une version synthétique, il n’y en avait que 31 – les données synthétiques excluaient les immigrants de 9 pays.

Une fois que nous avons eu connaissance de cette erreur, nous avons pu modifier nos méthodes et les inclure dans un nouvel ensemble de données synthétiques. C'était possible, mais seulement avec une sélection minutieuse.

« Hallucinations intersectionnelles » : l’IA crée des données impossibles

Nous avons ensuite commencé à remarquer autre chose dans les données : des hallucinations intersectionnelles.

L'intersectionnalité est un concept des études de genre. Elle décrit les dynamiques de pouvoir qui produisent des discriminations et des privilèges pour différentes personnes de différentes manières. Elle ne s'intéresse pas seulement au genre, mais aussi à l'âge, à la race, à la classe, au handicap, etc., et à la façon dont ces éléments se « croisent » dans une situation donnée.

Cela peut éclairer la manière dont nous analysons les données synthétiques (toutes les données, pas seulement les données de population), car les aspects qui se croisent d’un ensemble de données produisent des combinaisons complexes de tout ce que ces données décrivent.

Dans notre ensemble de données synthétiques, la représentation statistique des différentes catégories était assez bonne. La répartition par âge, par exemple, était similaire dans les données synthétiques à celle d'origine. Pas identique, mais proche. C'est une bonne chose, car les données synthétiques doivent être similaires à l'original, et non le reproduire exactement.

Nous avons ensuite analysé nos données synthétiques pour les intersections. Certaines des intersections les plus complexes ont également été reproduites. Par exemple, dans notre ensemble de données synthétiques, l'intersection de âge-revenu-sexe a été reproduite assez fidèlement. Nous avons appelé cette précision « fidélité intersectionnelle ».

Mais nous avons également remarqué que les données synthétiques comportaient 333 points de données étiquetés « mari/femme et célibataire » – une hallucination intersectionnelle. L’IA n’avait pas appris (ou n’avait pas été informée) que c’était impossible. Parmi ceux-ci, plus de 100 points de données étaient des « maris jamais mariés gagnant moins de 50 000 USD par an », une hallucination intersectionnelle qui n’existait pas dans les données originales.

En revanche, les données originales incluaient plusieurs « femmes veuves travaillant dans le support technique », mais elles étaient complètement absentes de la version synthétique.

Cela signifie que notre ensemble de données synthétiques pourrait être utilisé pour des recherches sur des questions d'âge, de revenu et de sexe (où il y avait une fidélité intersectionnelle), mais pas si l'on s'intéressait aux « femmes veuves travaillant dans le support technique ». Et il faudrait faire attention aux « maris jamais mariés » dans les résultats.

La grande question est : où cela s'arrête-t-il ? Ces hallucinations sont des intersections en 2 et 3 parties, mais qu'en est-il des intersections en 4 parties ? Ou en 5 parties ? À quel moment (et à quelles fins) les données synthétiques deviendraient-elles non pertinentes, trompeuses, inutiles ou dangereuses ?

Adopter les hallucinations intersectionnelles

Les ensembles de données structurés existent parce que les relations entre les colonnes d'une feuille de calcul nous disent quelque chose d'utile. Souvenez-vous de l'analyse sanguine. Les médecins veulent savoir comment votre sang se compare au sang normal et aux résultats d'autres maladies et traitements. C'est la raison pour laquelle nous organisons les données en premier lieu, et ce depuis des siècles.

Cependant, lorsque nous utilisons des données synthétiques, des hallucinations intersectionnelles vont toujours se produire car les données synthétiques doivent être légèrement différentes de l'original, sinon ce ne serait qu'une simple copie des données originales. Les données synthétiques a besoin des hallucinations, mais seulement du bon type : celles qui amplifient ou élargissent l’ensemble de données, mais ne créent pas quelque chose d’impossible, de trompeur ou de biaisé.

L'existence d'hallucinations intersectionnelles signifie qu'un ensemble de données synthétiques ne peut pas fonctionner pour de nombreuses utilisations différentes. Chaque cas d'utilisation nécessitera des ensembles de données synthétiques sur mesure avec des hallucinations étiquetées, ce qui nécessite un système reconnu.

Construire des systèmes d'IA fiables

Pour que l’IA soit digne de confiance, nous devons savoir quelles hallucinations intersectionnelles existent dans ses données d’entraînement, en particulier lorsqu’elles sont utilisées pour prédire la façon dont les gens vont agir, ou pour nous réguler, nous gouverner, nous traiter ou nous surveiller. Nous devons nous assurer qu’elles ne sont pas entraînées à des hallucinations intersectionnelles dangereuses ou trompeuses, comme un médecin de six ans qui reçoit des prestations de retraite.

Mais que se passe-t-il lorsque des ensembles de données synthétiques sont utilisés sans précaution ? Il n’existe actuellement aucun moyen standard de les identifier et ils sont souvent confondus avec des données réelles. Lorsqu’un ensemble de données est partagé pour être utilisé par d’autres, il est impossible de savoir s’il est fiable et de distinguer une hallucination d’une hallucination. Nous avons besoin de moyens clairs et universellement reconnaissables pour identifier les données synthétiques.

Les hallucinations intersectionnelles ne sont peut-être pas aussi amusantes qu’une main à 15 doigts ou des recommandations pour mettre de la colle sur une pizza. Ce sont des chiffres et des statistiques ennuyeux et peu attrayants, mais ils nous affecteront tous. Tôt ou tard, les données synthétiques vont se répandre partout et, de par leur nature même, elles contiendront toujours des hallucinations intersectionnelles. Certaines sont désirables, d’autres non, mais le problème est de les distinguer. Nous devons rendre cela possible avant qu’il ne soit trop tard.