Quelqu'un a utilisé Opus 4.8 pour analyser une IRM. Ce qui a suivi confirme que nous ne pouvons pas faire confiance à l'IA

Un développeur nommé Antoine Finkelstein souffrait d’une douleur à l’épaule droite depuis des semaines. Après avoir consulté un orthopédiste, une IRM a été réalisée sur la zone touchée et, selon le rapport médical, il présentait une déchirure partielle de grade III au tendon du sous-scapulaire. Finkelstein a ensuite fait autre chose : il a donné l’IRM à Claude Opus 4.8 pour voir ce que l’IA lui disait de cette image, et le résultat a été frappant car selon ce modèle d’IA son épaule était « intacte ».

L’IA vous donne des indices. Le développeur soupçonnait que la clinique essayait peut-être de tirer profit de son état, il a donc demandé les données brutes DICOM de l’IRM. Ce qu’ils lui ont donné, c’est 266 Mo qu’il a croisé avec les modèles d’IA actuellement disponibles. Tout d’abord, bien sûr, il a fait une consultation rapide avec ChatGPT et y a détecté une négligence potentiellement importante : la clinique avait appliqué la thérapie par ondes de choc, qui n’est pas recommandée pour les tendinopathies sans calcification. Il lui avait également été injecté du Traumeel, un produit homéopathique enregistré en Allemagne « sans indication thérapeutique ».

Voyons ce que dit Claude Opus 4.8. Pour tenter d’aller au fond des choses, l’utilisateur a décidé de transformer le modèle Anthropic en médecin pour demander un deuxième avis. Après avoir configuré le modèle sur la plateforme Claude Code, il a permis au système d’installer les packages de code nécessaires au traitement des images médicales brutes qui lui avaient été envoyées. Après une heure de traitement de ces images, le modèle d’IA a émis un diagnostic surprenant : le tendon que les médecins humains ont détecté comme déchiré à 50 % était complètement intact.

Je n’y fais pas confiance. Le résultat était tellement contradictoire avec le diagnostic humain que Finkelstein a voulu aller un peu plus loin et mettre en place un système d’arbitrage aveugle. Il a demandé à Claude de déployer plusieurs sous-agents indépendants, combinant des images d’IA isolées les unes des autres pour éviter les biais de confirmation. Le verdict de tous ces sous-agents était unanime : il n’y avait pas de rupture partielle ou totale, et tout suggérait que les spécialistes humains avaient exagéré le diagnostic.

Mais la quantité n’est pas la qualité. Cet article a donné lieu à un débat intéressant sur Hacker News au cours duquel quelques réflexions importantes ont été soulevées. Il est important de rappeler, par exemple, que même si l’IA élimine le coût des consultations, disposer de plus d’informations ne signifie pas résoudre le problème. Comme l’a dit un utilisateur, la situation lui a rappelé un problème qu’il avait avec sa voiture. Il a demandé une solution à trois ateliers différents, et chacun lui a dit quelque chose, et l’un d’entre eux lui a même recommandé une réparation qu’il savait inutile. « La solution aux informations incertaines n’est pas davantage d’informations, ce que l’IA peut certainement fournir, mais de meilleures informations, et pour l’instant, l’IA ne peut pas fournir cela. »

L’IA est trop sympa. Il y a un autre problème ici : les grands modèles de langage sont censés être gentils et « gentils ». Ce sont en quelque sorte des chambres d’écho qui veulent nous satisfaire, elles ne sont donc pas conçues pour nous contredire durement, ce qui facilite le biais de confirmation. Si un utilisateur saisit ses soupçons dans le prompt lorsqu’il interroge le chatbot, l’IA a tendance à être d’accord avec lui : on voit souvent comment il commence par répondre par « Vous avez tout à fait raison… ». Le problème avec les réponses aux sujets médicaux est qu’elles peuvent être très différentes lors des séances indépendantes, mais comme le ton est toujours convaincant et confiant, elles peuvent conduire à plus de confusion que le ton initial.

L’expert donne son avis. Un radiologue professionnel a participé à cette conversation et a fourni son avis d’expert. Selon lui, les modèles d’IA actuels restent médiocres dans l’interprétation des images médicales en raison du manque de bases de données publiques massives de formation. Ces données sont protégées par les lois sur la confidentialité médicale, et pour le moment ce problème a une solution difficile, mais cet utilisateur a expliqué que les derniers modèles sont déjà proches en précision de celui d’un médecin résident de première ou deuxième année. La menace théorique que représente l’IA pour la profession de radiologue est un sujet dont nous parlons littéralement depuis des années : pour le moment, il ne semble pas qu’une telle chose soit proche de se produire.

Prédire le cancer du sein cinq ans avant son apparition, possible grâce à l'intelligence artificielle

Qui est responsable. Il y a un autre gros problème avec l’IA : personne n’est responsable si quelque chose ne va pas après avoir appliqué une recommandation. Il est vrai que les médecins humains peuvent commettre des erreurs et avoir des préjugés, voire des incitations commerciales (vendre des traitements). Cependant, la différence juridique est fondamentale : le système médical dispose d’une série de licences, de réglementations et de gestion de responsabilité qui pénalisent la négligence. L’IA vous oblige à vous gérer face à l’incertitude.

Le problème est simple : faut-il ou non faire confiance à l’IA ? Dans des domaines aussi délicats que celui-ci, il est prouvé que l’IA est encore loin de constituer un véritable substitut aux experts humains. La médecine actuelle est peut-être « marchandisée », mais l’IA, aussi bon marché ou attrayante qu’elle puisse paraître, n’a pas encore la précision qui serait nécessaire dans certains domaines. Comme Finkelstein lui-même l’a conclu : « Je ne peux pas savoir si je peux faire confiance à l’IA, donc je suis dans une sorte de vide dans lequel soit je tente ma chance avec un autre médecin, soit j’attends de voir si mon épaule s’améliore avec la rééducation que je fais. »

Images | Vitali Gariev

À Simseo | Une équipe de Malaga vient de développer une nouvelle IA médicale. Votre travail : Aider à interpréter les IRM, les tomodensitogrammes et les images médicales