Les fuites de données peuvent faire échouer les modèles d'apprentissage automatique
Lorsqu'ils développent des modèles d'apprentissage automatique pour trouver des modèles dans les données, les chercheurs de tous domaines utilisent généralement des ensembles de données distincts pour la formation et les tests des modèles, ce qui leur permet de mesurer l'efficacité de leurs modèles formés avec de nouvelles données invisibles. Mais, en raison d’une erreur humaine, cette ligne est parfois floue par inadvertance et les données utilisées pour tester les performances du modèle se fondent dans les données utilisées pour l’entraîner.
Dans une nouvelle étude, des chercheurs de Yale ont évalué comment les fuites de données affectent en particulier les performances des modèles basés sur la neuroimagerie, constatant qu'elles peuvent à la fois gonfler ou aplatir artificiellement les résultats.
L'étude a été publiée le 28 février dans Communications naturelles.
Les chercheurs biomédicaux évaluent l’utilisation de l’apprentissage automatique pour toutes sortes de tâches, du diagnostic de maladies à l’identification de molécules qui pourraient devenir des traitements contre les maladies. Dans le domaine des neurosciences, les scientifiques utilisent l’apprentissage automatique pour mieux comprendre la relation entre le cerveau et le comportement.
Pour entraîner un modèle à prédire, par exemple, l'âge d'une personne sur la base de données de neuroimagerie fonctionnelle, les chercheurs fournissent au modèle des données d'IRMf et l'âge des individus scannés. Le modèle commencera alors à associer les modèles des données IRMf à l'âge et si ces modèles sont suffisamment forts, le modèle devrait être capable de prédire l'âge d'un individu à partir de nouvelles données de neuroimagerie qu'il n'a pas encore vues.
Lorsqu'une fuite de données se produit, une partie de ces données « invisibles » a en effet déjà été vue par le modèle d'une manière ou d'une autre pendant la phase de formation, ce qui signifie que les chercheurs ne peuvent pas être sûrs si les prédictions du modèle sont réellement des prédictions ou simplement une reconnaissance des informations dont il dispose déjà. analysé.
Les chercheurs reconnaissent largement que les fuites de données doivent être évitées, mais cela arrive souvent, a déclaré Dustin Scheinost, professeur agrégé de radiologie et d'imagerie biomédicale à la Yale School of Medicine et auteur principal de l'étude.
« La fuite de données est étonnamment facile à réaliser », a-t-il déclaré. « Et cela peut se produire de plusieurs manières. »
Pour mieux comprendre comment les fuites de données affectent les performances de l'apprentissage automatique, les chercheurs ont d'abord formé un modèle d'apprentissage automatique à l'aide de données IRMf non affectées par les fuites, puis ont testé dans quelle mesure le modèle pouvait prédire l'âge et la capacité d'un individu à résoudre un type de problème appelé matrice. raisonnement et problèmes d’attention dus à des données de neuroimagerie invisibles. Ils ont ensuite introduit différents types de fuites dans les données d'entraînement et comparé les prédictions du modèle à celles basées sur des données d'entraînement intactes.
Selon les chercheurs, deux types de fuites ont considérablement gonflé les performances de prédiction du modèle. La première, connue sous le nom de fuite de « sélection de caractéristiques », se produit lorsque les chercheurs sélectionnent les zones cérébrales d’intérêt à partir de l’ensemble des données plutôt que des données d’entraînement uniquement. Dans la seconde, appelée fuite de « sujets répétés », les données d'un individu apparaissent à la fois dans les ensembles de formation et de test.
« L'une de nos découvertes était que les fuites de sélection de caractéristiques gonflaient les prédictions du modèle concernant les problèmes d'attention », a déclaré Matthew Rosenblatt, étudiant diplômé du laboratoire de Scheinost et auteur principal de l'étude. « Avec la fuite de fonctionnalités, les prédictions du modèle étaient solides, produisant ce qui serait un résultat significatif. Mais en réalité, sans fuite de données, les performances de prédiction sont médiocres pour les problèmes d'attention. »
Ce type de fausse inflation peut donner l’impression que le modèle fonctionne bien alors qu’en réalité il ne peut pas prédire grand-chose avec des données véritablement inédites, ce qui pourrait affecter la façon dont les chercheurs interprètent les modèles et réduire la capacité des autres chercheurs à reproduire les résultats publiés. résultats basés sur le modèle.
Après avoir introduit un autre type de fuite dans lequel les analyses statistiques sont effectuées sur l'ensemble des données plutôt que sur les seules données d'entraînement, les chercheurs ont découvert que cela affaiblissait artificiellement les performances du modèle.
Les effets des fuites étaient également plus variables, et donc plus imprévisibles, dans des échantillons de plus petite taille que dans des ensembles de données plus grands.
« Et les effets ne se limitent pas aux performances du modèle », a déclaré Rosenblatt. « Souvent, nous examinons nos modèles pour obtenir une interprétation neurobiologique et les fuites de données peuvent également affecter cela, ce qui est important pour essayer d'établir des relations cerveau-comportement. »
Bien que tous les types de fuites n’aient pas eu d’impact majeur sur les performances du modèle, les chercheurs affirment que la meilleure pratique consiste à éviter les fuites de toutes sortes. Le partage du code de programmation est un moyen d'éviter les incidents, car d'autres peuvent voir si une fuite a pu se produire par inadvertance. L’utilisation de packages de codage bien établis est une autre voie qui pourrait aider à éviter les erreurs pouvant survenir lors de l’écriture de code à partir de zéro. De plus, des feuilles de travail sont disponibles qui incitent les chercheurs à réfléchir aux problèmes potentiels.
« Il est également essentiel d'avoir un scepticisme sain quant à vos résultats », a déclaré Rosenblatt. « Si vous voyez quelque chose qui semble étrange, il est bon de vérifier vos résultats et d'essayer de les valider d'une autre manière. »