Une approche commune pour démystifier l'IA de la boîte noire n'est pas prête pour les heures de grande écoute

Crédit : Pixabay/CC0 Domaine public

Les modèles d’intelligence artificielle qui interprètent les images médicales promettent d’améliorer la capacité des cliniciens à établir des diagnostics précis et opportuns, tout en réduisant la charge de travail en permettant aux médecins occupés de se concentrer sur les cas critiques et de déléguer des tâches par cœur à l’IA.

Mais les modèles d’IA qui manquent de transparence sur comment et pourquoi un diagnostic est effectué peuvent être problématiques. Ce raisonnement opaque – également connu sous le nom d’IA « boîte noire » – peut diminuer la confiance des cliniciens dans la fiabilité de l’outil d’IA et ainsi décourager son utilisation. Ce manque de transparence pourrait également induire les cliniciens en erreur en leur faisant trop confiance dans l’interprétation de l’outil.

Dans le domaine de l’imagerie médicale, une façon de créer des modèles d’IA plus compréhensibles et de démystifier la prise de décision par l’IA a été les évaluations de la saillance – une approche qui utilise des cartes thermiques pour déterminer si l’outil se concentre correctement uniquement sur les éléments pertinents d’une image donnée ou se concentrer sur des parties non pertinentes de celui-ci.

Les cartes thermiques fonctionnent en mettant en évidence les zones d’une image qui ont influencé l’interprétation du modèle d’IA. Cela pourrait aider les médecins humains à voir si le modèle d’IA se concentre sur les mêmes zones qu’eux ou s’il se concentre par erreur sur des points non pertinents d’une image.

Mais une nouvelle étude, publiée dans Intelligence des machines naturelles le 10 octobre, montre que malgré toutes leurs promesses, les cartes thermiques de saillance ne sont peut-être pas encore prêtes pour les heures de grande écoute.

L’analyse, dirigée par le chercheur de la Harvard Medical School Pranav Rajpurkar, Matthew Lungren de Stanford et Adriel Saporta de l’Université de New York, a quantifié la validité de sept méthodes de saillance largement utilisées pour déterminer avec quelle fiabilité et précision elles pouvaient identifier les pathologies associées à 10 conditions couramment diagnostiquées. aux rayons X, comme des lésions pulmonaires, un épanchement pleural, un œdème ou une hypertrophie des structures cardiaques. Pour vérifier les performances, les chercheurs ont comparé les performances des outils au jugement d’experts humains.

En dernière analyse, les outils utilisant des cartes thermiques basées sur la saillance ont constamment sous-performé dans l’évaluation des images et dans leur capacité à repérer les lésions pathologiques, par rapport aux radiologues humains.

Le travail représente la première analyse comparative entre les cartes de saillance et la performance de l’expert humain dans l’évaluation de multiples pathologies radiologiques. L’étude offre également une compréhension granulaire de si et comment certaines caractéristiques pathologiques sur une image pourraient affecter les performances de l’outil d’IA.

La fonctionnalité de carte de saillance est déjà utilisée comme outil d’assurance qualité par les pratiques cliniques qui utilisent l’IA pour interpréter les méthodes de détection assistées par ordinateur, telles que la lecture des radiographies pulmonaires. Mais à la lumière des nouvelles découvertes, cette fonctionnalité doit être appliquée avec prudence et une bonne dose de scepticisme, ont déclaré les chercheurs.

« Notre analyse montre que les cartes de saillance ne sont pas encore suffisamment fiables pour valider les décisions cliniques individuelles prises par un modèle d’IA », a déclaré Rajpurkar, professeur adjoint d’informatique biomédicale au HMS. « Nous avons identifié des limitations importantes qui soulèvent de graves problèmes de sécurité pour une utilisation dans la pratique actuelle. »

Les chercheurs avertissent qu’en raison des limitations importantes identifiées dans l’étude, les cartes thermiques basées sur la saillance devraient être affinées avant d’être largement adoptées dans les modèles cliniques d’IA.

La base de code complète, les données et l’analyse de l’équipe sont ouvert et disponible à tous ceux qui souhaitent étudier cet aspect important de l’apprentissage automatique clinique dans les applications d’imagerie médicale.

Fourni par la Harvard Medical School