Biais clés dans les modèles d'IA utilisés pour détecter la dépression sur les réseaux sociaux

Biais clés dans les modèles d'IA utilisés pour détecter la dépression sur les réseaux sociaux

Les modèles d'intelligence artificielle utilisés pour détecter la dépression sur les réseaux sociaux sont souvent biaisés et imparfaits méthodologiquement, selon une étude dirigée par des diplômés en informatique de la Northeastern University.

Yuchen Cao et Xiaorui Shen étaient des étudiants diplômés du campus de Seattle de Northeastern lorsqu'ils ont commencé à examiner comment l'apprentissage automatique et les modèles d'apprentissage en profondeur étaient utilisés dans la recherche en santé mentale, en particulier après la pandémie Covid-19.

S'assocant à des pairs de plusieurs universités, ils ont effectué un examen systématique des articles académiques utilisant l'IA pour détecter la dépression parmi les utilisateurs de médias sociaux. Leurs résultats ont été publiés dans le Journal of Behavioral Data Science.

« Nous voulions voir comment l'apprentissage automatique ou l'IA ou les modèles d'apprentissage en profondeur étaient utilisés pour la recherche dans ce domaine », explique Cao, maintenant ingénieur logiciel chez Meta.

Les plateformes de médias sociaux comme Twitter, Facebook et Reddit offrent aux chercheurs une mine de contenu généré par les utilisateurs qui révèle des émotions, des pensées et des schémas de santé mentale. Ces idées sont de plus en plus utilisées pour former des outils d'IA pour détecter les signes de dépression. Mais la revue dirigée par le Nord-Est a révélé que de nombreux modèles sous-jacents étaient inadéquatement réglés et manquaient de la rigueur nécessaire pour une application du monde réel.

L'équipe a analysé des centaines d'articles et sélectionné 47 études pertinentes publiées après 2010 dans des bases de données telles que PubMed, IEEE Xplore et Google Scholar. Beaucoup de ces études, ont-ils révélées, ont été rédigées par des experts en médecine ou en psychologie – pas l'informatique – sur les préoccupations concernant la validité technique de leurs méthodes d'IA.

« Notre objectif était d'explorer si les modèles d'apprentissage automatique actuels sont fiables », explique Shen, également ingénieur logiciel chez Meta. « Nous avons constaté que certains des modèles utilisés n'étaient pas correctement réglés. »

Des modèles traditionnels tels que les machines vectorielles de support, les arbres de décision, les forêts aléatoires, le renforcement extrême du gradient et la régression logistique ont été couramment utilisés. Certaines études ont utilisé des outils d'apprentissage en profondeur comme les réseaux de neurones convolutionnels, les réseaux de mémoire à court terme et Bert, un modèle de langue populaire.

Pourtant, l'examen a découvert plusieurs problèmes importants:

  • Seulement 28% des études a ajusté les hyperparamètres ajustés ajustés, les paramètres qui guident comment les modèles apprennent des données.
  • Environ 17% n'ont pas correctement divisé les données en formation de formation, de validation et de tests, augmentant le risque de sur-ajustement.
  • Beaucoup reposaient fortement sur la précision en tant que seule métrique de performance, malgré des ensembles de données déséquilibrés qui pourraient fausser les résultats et négliger la classe minoritaire – dans ce cas, les utilisateurs montrant des signes de dépression.

« Il y a des constantes ou des normes de base, que tous les informaticiens connaissent, » avant de faire un, vous devriez faire B « , ce qui vous donnera un bon résultat », dit Cao. « Mais ce n'est pas quelque chose que tout le monde en dehors de ce domaine sait, et cela peut conduire à de mauvais résultats ou à une inexactitude. »

Les études ont également montré des biais de données notables. X (anciennement Twitter) était la plate-forme la plus courante utilisée (32 études), suivie de Reddit (8) et Facebook (7). Seules huit études ont combiné les données de plusieurs plateformes, et environ 90% se sont appuyées sur des publications en anglais, principalement des utilisateurs aux États-Unis et en Europe.

Ces limitations, selon les auteurs, réduisent la généralisation des résultats et ne reflètent pas la diversité mondiale des utilisateurs de médias sociaux.

Un autre défi majeur: nuance linguistique. Seulement 23% des études ont clairement expliqué comment elles ont géré les négations et le sarcasme, qui sont tous deux essentiels à l'analyse des sentiments et à la détection de dépression.

Pour évaluer la transparence des rapports, l'équipe a utilisé Probast, un outil pour évaluer les modèles de prédiction. Ils ont constaté que de nombreuses études manquaient de détails clés sur les divisions de données et les paramètres d'hyperparamètre, ce qui rend les résultats difficiles à reproduire ou à valider.

Cao et Shen prévoient de publier des articles de suivi en utilisant des données réelles pour tester les modèles et recommander des améliorations.

Parfois, les chercheurs n'ont pas assez de ressources ou d'expertise en IA pour régler correctement les modèles open source, dit Cao.

« Donc [creating] Un wiki ou un tutoriel papier est quelque chose qui, selon moi, est important dans ce domaine pour aider à la collaboration « , dit-il. » Je pense que l'enseignement aux gens comment le faire est plus important que de simplement vous aider à le faire, car les ressources sont toujours limitées. « 

L'équipe présentera ses résultats à la réunion annuelle de la Société internationale de science des données et d'analyses à Washington, DC