Trois questions sur ChatGPT et la médecine
Lancé en novembre 2022, ChatGPT est un chatbot qui peut non seulement s’engager dans une conversation de type humain, mais également fournir des réponses précises à des questions dans un large éventail de domaines de connaissances. Le chatbot, créé par la société OpenAI, est basé sur une famille de « grands modèles de langage » – des algorithmes capables de reconnaître, de prédire et de générer du texte en fonction de modèles qu’ils identifient dans des ensembles de données contenant des centaines de millions de mots.
Dans un étude apparaissant dans Santé numérique PLOS cette semaine, les chercheurs rapportent que ChatGPT a atteint ou proche du seuil de réussite de l’US Medical Licensing Exam (USMLE), un examen complet en trois parties que les médecins doivent réussir avant de pratiquer la médecine aux États-Unis.
Dans un éditorial accompagnant l’article, Leo Anthony Celi, chercheur principal à l’Institute for Medical Engineering and Science du MIT, médecin praticien au Beth Israel Deaconess Medical Center et professeur agrégé à la Harvard Medical School, et ses co-auteurs affirment que Le succès de ChatGPT à cet examen devrait être un signal d’alarme pour la communauté médicale.
Q : Que pensez-vous que le succès de ChatGPT sur l’USMLE révèle sur la nature de la formation médicale et de l’évaluation des étudiants ?
R : Le cadrage des connaissances médicales comme quelque chose qui peut être encapsulé dans des questions à choix multiples crée un cadrage cognitif de fausse certitude. Les connaissances médicales sont souvent enseignées sous forme de représentations modèles fixes de la santé et de la maladie. Les effets du traitement sont présentés comme stables dans le temps malgré des schémas de pratique en constante évolution. Les modèles mécanistes sont transmis des enseignants aux étudiants sans mettre l’accent sur la robustesse de ces modèles, les incertitudes qui persistent autour d’eux et la manière dont ils doivent être recalibrés pour refléter des avancées dignes d’être incorporées dans la pratique.
ChatGPT a réussi un examen qui récompense la mémorisation des composants d’un système plutôt que l’analyse de son fonctionnement, de ses défaillances, de sa création, de sa maintenance. Son succès démontre certaines des lacunes dans la façon dont nous formons et évaluons les étudiants en médecine. La pensée critique nécessite de comprendre que les vérités fondamentales en médecine changent continuellement et, plus important encore, de comprendre comment et pourquoi elles changent.
Q : Quelles mesures pensez-vous que la communauté médicale devrait prendre pour modifier la façon dont les étudiants sont enseignés et évalués ?
R : L’apprentissage consiste à tirer parti de l’ensemble actuel des connaissances, à comprendre ses lacunes et à chercher à combler ces lacunes. Cela nécessite d’être à l’aise et de pouvoir sonder les incertitudes. Nous échouons en tant qu’enseignants en n’enseignant pas aux élèves comment comprendre les lacunes dans l’ensemble actuel des connaissances. Nous les échouons lorsque nous prêchons la certitude plutôt que la curiosité et l’orgueil plutôt que l’humilité.
L’éducation médicale exige également d’être conscient des biais dans la façon dont les connaissances médicales sont créées et validées. Ces biais sont mieux traités en optimisant la diversité cognitive au sein de la communauté. Plus que jamais, il est nécessaire d’inspirer l’apprentissage collaboratif interdisciplinaire et la résolution de problèmes. Les étudiants en médecine ont besoin de compétences en science des données qui permettront à chaque clinicien de contribuer, d’évaluer en permanence et de recalibrer les connaissances médicales.
Q : Voyez-vous un avantage à la réussite de ChatGPT à cet examen ? Existe-t-il des façons bénéfiques pour ChatGPT et d’autres formes d’IA de contribuer à la pratique de la médecine ?
R : Il ne fait aucun doute que les grands modèles linguistiques (LLM) tels que ChatGPT sont des outils très puissants pour passer au crible le contenu au-delà des capacités des experts, voire des groupes d’experts, et extraire des connaissances. Cependant, nous devrons résoudre le problème du biais des données avant de pouvoir tirer parti des LLM et d’autres technologies d’intelligence artificielle. L’ensemble des connaissances sur lesquelles les LLM se forment, à la fois médicales et autres, est dominé par le contenu et la recherche d’institutions bien financées dans les pays à revenu élevé. Il n’est pas représentatif de la majeure partie du monde.
Nous avons également appris que même les modèles mécanistes de la santé et de la maladie peuvent être biaisés. Ces entrées sont alimentées par des encodeurs et des transformateurs qui ne sont pas conscients de ces biais. Les vérités fondamentales en médecine changent continuellement, et actuellement, il n’y a aucun moyen de déterminer quand les vérités fondamentales ont dérivé. Les LLM n’évaluent pas la qualité et le biais du contenu sur lequel ils sont formés. Ils ne fournissent pas non plus le niveau d’incertitude entourant leur production. Mais le parfait ne doit pas être l’ennemi du bien. Il existe une formidable opportunité d’améliorer la façon dont les fournisseurs de soins de santé prennent actuellement des décisions cliniques, qui, nous le savons, sont entachées de préjugés inconscients. Je suis convaincu que l’IA tiendra ses promesses une fois que nous aurons optimisé la saisie des données.