Les systèmes d'IA sont excellents lors des tests. Mais comment se produisent-ils dans la vraie vie?

Plus tôt ce mois-ci, lorsque OpenAI a publié son dernier système phare de l'intelligence artificielle (AI), GPT-5, la société a déclaré qu'elle était « beaucoup plus intelligente de tous les modèles » que les modèles précédents. La sauvegarde de la réclamation était des scores élevés sur une gamme de tests de référence évaluant des domaines tels que le codage logiciel, les mathématiques et les soins de santé.

Des tests de référence comme ceux-ci sont devenus le moyen standard que nous évaluons les systèmes d'IA, mais ils ne nous disent pas grand-chose sur les performances et les effets réels de ces systèmes dans le monde réel.

Quelle serait une meilleure façon de mesurer les modèles d'IA? Un groupe de chercheurs et de métrologues de l'IA – experts dans la science de la mesure – a récemment décrit une voie à suivre.

La métrologie est importante ici car nous avons besoin de moyens non seulement d'assurer la fiabilité des systèmes d'IA dont nous pouvons dépendre de plus en plus, mais aussi une certaine mesure de leur impact économique, culturel et sociétal plus large.

Mesure la sécurité

Nous comptons sur la métrologie pour nous assurer que les outils, produits, services et processus que nous utilisons sont fiables.

Prenez quelque chose qui me tient à cœur en tant qu'éthicien biomédical – la santé de la santé. Dans les soins de santé, l'IA promet d'améliorer les diagnostics et la surveillance des patients, de rendre les médicaments plus personnalisés et de prévenir les maladies, ainsi que de gérer certaines tâches administratives.

Ces promesses ne seront réalisées que si nous pouvons être sûrs que l'IA de la santé est sûre et efficace, ce qui signifie trouver des moyens fiables de le mesurer.

Nous avons déjà des systèmes bien établis pour mesurer la sécurité et l'efficacité des médicaments et des dispositifs médicaux, par exemple. Mais ce n'est pas encore le cas pour l'IA – pas dans les soins de santé ou dans d'autres domaines tels que l'éducation, l'emploi, l'application de la loi, l'assurance et la biométrie.

Résultats des tests et effets réels

À l'heure actuelle, la majeure partie de l'évaluation des systèmes d'IA de pointe repose sur des références. Ce sont des tests qui visent à évaluer les systèmes d'IA en fonction de leurs sorties.

Ils pourraient répondre à des questions sur la fréquence à laquelle les réponses d'un système sont exactes ou pertinentes, ou comment ils se comparent aux réponses d'un expert humain.

Il y a littéralement des centaines de repères d'IA, couvrant un large éventail de domaines de connaissance.

Cependant, les performances de référence ne nous indiquent que peu de choses sur l'effet que ces modèles auront dans les paramètres du monde réel. Pour cela, nous devons considérer le contexte dans lequel un système est déployé.

Le problème avec les repères

Les références sont devenues très importantes pour les développeurs d'IA commerciaux pour montrer les performances des produits et attirer des fonds.

Par exemple, en avril de cette année, une jeune startup appelée Cognition AI a publié des résultats impressionnants sur une référence en génie logiciel. Peu de temps après, la société a levé 175 millions de dollars US (270 millions de dollars) en financement dans un accord qui la valorisait à 2 milliards de dollars américains (3,1 milliards de dollars).

Des repères ont également été joués. Meta semble avoir ajusté certaines versions de son modèle LLAMA-4 pour optimiser son score sur un site de rang de chatbot important. Après que le modèle O3 d'Openai ait marqué de manière fortement marquée sur la référence Frontitiermath, il est apparu que la société avait eu accès à l'ensemble de données derrière la référence, ce qui soulevait des questions sur le résultat.

Le risque global ici est connu comme la loi de Goodhart, après que l'économiste britannique Charles Goodhart: « lorsqu'une mesure devient une cible, elle cesse d'être une bonne mesure. »

Selon les mots de Rumman Chowdhury, qui a contribué à façonner le développement du domaine de l'éthique algorithmique, accorder trop d'importance sur les mesures peut conduire à « la manipulation, les jeux et un accent myope sur les qualités à court terme et la considération inadéquate des conséquences à long terme ».

Au-delà des repères

Donc, sinon les repères, alors quoi? Revenons à l'exemple de la santé AI. Les premiers benchmarks pour évaluer l'utilité des modèles de grands langues (LLM) dans les soins de santé remis en service des examens de licence médicale. Ceux-ci sont utilisés pour évaluer la compétence et la sécurité des médecins avant d'être autorisés à pratiquer en particulier les juridictions.

Les modèles de pointe obtiennent désormais des scores presque parfaits sur de tels repères. Cependant, ceux-ci ont été largement critiqués pour ne pas refléter adéquatement la complexité et la diversité de la pratique clinique du monde réel.

En réponse, une nouvelle génération de cadres «holistiques» a été développé pour évaluer ces modèles sur des tâches plus diverses et réalistes. Pour les applications de santé, la plus sophistiquée est le cadre d'évaluation Medhelm, qui comprend 35 repères dans cinq catégories de tâches cliniques, de la prise de décision et de la prise de notes à la communication et à la recherche.

À quel meilleur test ressemblerait

Des cadres d'évaluation plus holistiques tels que Medhelm visent à éviter ces pièges. Ils ont été conçus pour refléter les exigences réelles d'un domaine de pratique particulier.

Cependant, ces cadres sont encore en deçà de la comptabilité des façons dont les humains interagissent avec le système d'IA dans le monde réel. Et ils ne commencent même pas à accepter leurs impacts sur les contextes économiques, culturels et sociétaux plus larges dans lesquels ils opèrent.

Pour cela, nous aurons besoin d'un tout nouvel écosystème d'évaluation. Il devra s'appuyer sur l'expertise du monde universitaire, de l'industrie et de la société civile dans le but de développer des moyens rigoureux et reproductibles d'évaluer les systèmes d'IA.

Le travail à ce sujet a déjà commencé. Il existe des méthodes pour évaluer l'impact du monde réel des systèmes d'IA dans les contextes dans lesquels ils sont déployés – des choses comme l'équipe rouge (où les testeurs essaient délibérément de produire des sorties indésirables du système) et des tests sur le terrain (où un système est testé dans des environnements réels). L'étape suivante consiste à affiner et à systématiser ces méthodes, de sorte que ce qui compte réellement peut être mesuré de manière fiable.

Si l'IA offre même une fraction de la transformation qu'elle a apporté à apporter, nous avons besoin d'une science de mesure qui protège les intérêts de nous tous, pas seulement l'élite technologique.