Le chatbot de santé Google AI réussit l'examen médical américain: étude

Crédit : domaine public Unsplash/CC0

Le chatbot médical basé sur l’intelligence artificielle de Google a obtenu la note de passage lors d’un difficile examen de licence médicale aux États-Unis, mais ses réponses sont toujours en deçà de celles des médecins humains, selon une étude évaluée par des pairs mercredi.

L’année dernière, la sortie de ChatGPT, dont le développeur OpenAI est soutenu par le rival de Google, Microsoft, a lancé une course entre les géants de la technologie dans le domaine en plein essor de l’IA.

Alors que beaucoup a été dit sur les possibilités futures – et les dangers – de l’IA, la santé est un domaine où la technologie a déjà montré des progrès tangibles, avec des algorithmes capables de lire certains scanners médicaux ainsi que les humains.

Google a dévoilé pour la première fois son outil d’IA pour répondre aux questions médicales, appelé Med-PaLM, dans une étude pré-imprimée en décembre. Contrairement à ChatGPT, il n’a pas été rendu public.

Le géant américain de la technologie affirme que Med-PaLM est le premier grand modèle de langage, une technique d’IA entraînée sur de grandes quantités de texte produit par l’homme, à réussir l’USMLE (US Medical Licensing Examination).

La note de passage à l’examen, qui est passé par les étudiants en médecine et les médecins en formation aux États-Unis, est d’environ 60 %.

En février, une étude a déclaré que ChatGPT avait obtenu des résultats satisfaisants ou presque satisfaisants.

Dans une étude évaluée par des pairs publiée dans la revue Nature mercredi, les chercheurs de Google ont déclaré que Med-PaLM avait atteint 67,6% sur les questions à choix multiples de style USMLE.

« Med-PaLM fonctionne de manière encourageante, mais reste inférieur aux cliniciens », indique l’étude.

Pour identifier et réduire les « hallucinations » – le nom utilisé lorsque les modèles d’IA offrent de fausses informations – Google a déclaré avoir développé un nouveau benchmark d’évaluation.

Karan Singhal, chercheur chez Google et auteur principal de la nouvelle étude, a déclaré à l’AFP que l’équipe avait utilisé la référence pour tester une version plus récente de son modèle avec des résultats « super excitants ».

Med-PaLM 2 a atteint 86,5% à l’examen USMLE, dépassant la version précédente de près de 20%, selon une étude pré-imprimée publiée en mai qui n’a pas été examinée par des pairs.

« Éléphant dans la chambre »

James Davenport, un informaticien de l’Université de Bath au Royaume-Uni non impliqué dans la recherche, a déclaré « il y a un éléphant dans la pièce » pour ces chatbots médicaux alimentés par l’IA.

Il y a une grande différence entre répondre à « des questions médicales et la médecine réelle », qui comprend le diagnostic et le traitement de véritables problèmes de santé », a-t-il déclaré.

Anthony Cohn, un expert en IA à l’Université de Leeds au Royaume-Uni, a déclaré que les hallucinations seraient probablement toujours un problème pour des modèles de langage aussi vastes, en raison de leur nature statistique.

Par conséquent, ces modèles « devraient toujours être considérés comme des assistants plutôt que comme des décideurs finaux », a déclaré Cohn.

Singhal a déclaré qu’à l’avenir, Med-PaLM pourrait être utilisé pour aider les médecins à proposer des alternatives qui n’auraient peut-être pas été envisagées autrement.

Le Wall Street Journal a rapporté plus tôt cette semaine que Med-PaLM 2 était en test dans le prestigieux hôpital de recherche américain Mayo Clinic depuis avril.

Singhal a déclaré qu’il ne pouvait pas parler de partenariats spécifiques.

Mais il a souligné que tout test ne serait pas « clinique, ni face au patient, ni capable de causer du tort aux patients ».

Ce serait plutôt pour « plus de tâches administratives qui peuvent être automatisées relativement facilement, avec de faibles enjeux », a-t-il ajouté.