Quelqu’un a répertorié les 21 IA les plus populaires pour établir un diagnostic différentiel. Ils mentent plus qu’ils ne parlent
‘House’ est une série que j’adore. Je ne me soucie pas du tout des intra-histoires, mais le processus de diagnostic différentiel – malgré tout le film – me rend fou. Cette capacité à écarter des maladies qui pourraient expliquer les mêmes symptômes pour arriver au diagnostic le plus probable me semble de la sorcellerie. Eh bien : ils ont mis les 21 chatbots IA les plus populaires pour effectuer ce diagnostic différentiel et le résultat est clair.
Il échoue plus qu’un fusil de chasse forain.
En bref. Le général de masse Brigham n’est pas « n’importe qui ». Il s’agit d’un réseau à but non lucratif de médecins et d’hôpitaux américains, comprenant deux des établissements d’enseignement médical les plus prestigieux du pays. De janvier à décembre 2025, un groupe de chercheurs de l’institution a mis 21 chatbots IA tels que Claude 4.5 Opus, DeepSeek, Gemini 3.0 Pro, GPT-5 ou Grok 4 pour évaluer des dizaines de cas cliniques dans le but d’établir leur niveau de réussite dans un diagnostic précoce.
L’information est extrêmement basique, mais c’est aussi celle dont disposent les professionnels pour poser ce diagnostic différentiel et l’intention ultime est d’évaluer la capacité de raisonnement clinique des modèles de langage de dernière génération pour voir s’ils peuvent être un allié clinique. La réponse est non. Même si les modèles optimisés pour le raisonnement ont obtenu des scores bien plus élevés que les modèles plus simples comme Gemini 1.5 Flash, l’essentiel est que les LLM sont encore limités pour cette tâche.
L’examen. Chacun des modèles a reçu 29 cas cliniques représentant plus de 16 200 réponses au total. Le résultat est que ces nouvelles versions des chatbots les plus puissants étaient incapables de produire un diagnostic différentiel adéquat dans environ 80 % des cas lorsqu’elles ne disposaient que d’informations de base sur le patient.
Le problème est que l’âge, le sexe et les symptômes sont des informations très vagues, certes, mais avec lesquelles les professionnels humains qui doivent « jouer » pour la première fois ce diagnostic différentiel. Petit à petit, au fur et à mesure qu’ils effectuent d’autres tests et obtiennent plus d’informations, ils affinent le résultat, mais c’est ce premier traitement « écarté » qui fait souvent la différence.
« Nous voulons aider à séparer le battage médiatique de la réalité concernant ces outils tels qu’ils sont appliqués aux soins de santé »

Un autre film. Et précisément, à mesure que les LLM recevaient plus de données, les performances et les résultats étaient plus robustes. Lorsque le chatbot dispose de plus en plus d’informations telles que des données d’analyses physiques, des résultats de laboratoire et des images de diagnostic, les choses changent et l’IA parvient au diagnostic final dans plus de 90 % des cas.
Mais bien sûr, pour arriver à ce stade, ils doivent disposer de presque toutes les données cliniques, ce qui montre encore plus l’écart avec l’impuissance lors d’un premier filtrage.
Ne fais pas confiance Google ChatGPT. Les chercheurs sont clairs sur le fait que « ces modèles sont très efficaces pour identifier un diagnostic final lorsque les données sont complètes, mais ils ont des difficultés au début d’un cas ouvert », ce qui les amène à souligner qu’il ne faut pas leur faire confiance dans leur pays. L’industrie de l’IA pousse son produit dans le circuit médical, mais l’étude souligne que « malgré des améliorations continues, les LLM commerciaux ne sont pas prêts pour une mise en œuvre clinique non supervisée ».
Ils affirment qu’un humain est nécessaire dans l’opération et « une supervision très étroite » pour pouvoir étendre l’utilisation d’un LLM dans le domaine de la santé. Et là, on parle toujours d’usage professionnel, mais on voit de plus en plus de cas de personnes qui auparavant se soignaient en faisant confiance à Google et qui le font désormais en faisant confiance à ce que leur dit ChatGPT. Dans l’étude, ils soulignent que « des hallucinations subsistent » dans ces modèles de dernière génération, montrant également des inquiétudes quant à la sécurité et à l’intégrité des patients.

À propos du Salvador. Quoi qu’il en soit, il est évident qu’en fin de compte, l’IA médicale n’est qu’une aide de plus, un outil, et ici ce qui a été mis à l’épreuve est un chatbot « commun » qui sait tout, mais n’est spécialisé en rien. En médecine, comme dans d’autres secteurs, l’utilisation de l’IA peut faciliter des tâches telles que l’élimination de possibilités ou l’organisation de milliers de données, mais un chatbot n’est pas encore un bon compagnon dans ce diagnostic différentiel car on ne peut tout simplement pas lui faire confiance.
Ceux qui devront faire confiance à l’IA pour tout type de traitement sont les Salvadoriens. Le Salvador a été un pays pionnier en matière d’adoption de nouvelles technologies, et le président, Nayib Bukele, vient de se lancer dans une autre expérience : 500 millions de dollars pour laisser les soins de santé entre les mains des Gémeaux. La population aura accès à l’application Dr.SV qui fera office de médecin de famille. Comme détaillé dans El País, cette IA connaîtra les symptômes et attribuera des appels aux médecins qui poseront le diagnostic. L’IA surveillera les consultations et les maladies chroniques et l’objectif est qu’elle prenne en charge à l’avenir les patients atteints de cancer.
Selon Bukele, ils créent le meilleur système de santé au monde, ce qui est curieux étant donné qu’ils ont licencié plus de 7 700 employés du système de santé en 2025. Pour le bien des Salvadoriens, espérons que cette nouvelle expérience ne se terminera pas comme Bitcoin City.
À Simseo | La confidentialité est en train de mourir depuis l’arrivée de ChatGPT. Désormais notre obsession est que l’IA nous connaisse le mieux possible
