Les nouvelles technologies comme l’IA comportent de grandes revendications. Le concept scientifique de validité peut aider à briser le battage médiatique

Les innovations technologiques peuvent sembler incessantes. En informatique, certains ont proclamé qu'« une année en apprentissage automatique équivaut à un siècle dans n'importe quel autre domaine ». Mais comment savoir si ces avancées sont un battage médiatique ou une réalité ?

Les échecs se multiplient rapidement en cas de déluge de nouvelles technologies, en particulier lorsque ces développements n'ont pas été correctement testés ou pleinement compris. Même les innovations technologiques émanant de laboratoires et d’organisations de confiance aboutissent parfois à des échecs spectaculaires. Pensez à IBM Watson, un programme d'IA que l'entreprise a salué comme un outil révolutionnaire pour le traitement du cancer en 2011. Cependant, plutôt que d'évaluer l'outil en fonction des résultats pour les patients, IBM a utilisé des mesures moins pertinentes, voire non pertinentes, telles que les évaluations d'experts plutôt que les résultats pour les patients. En conséquence, IBM Watson a non seulement échoué à proposer aux médecins des recommandations de traitement fiables et innovantes, mais a également suggéré des recommandations dangereuses.

Lorsque ChatGPT a été publié en novembre 2022, l’intérêt pour l’IA s’est rapidement développé dans l’industrie et dans la science, parallèlement aux affirmations croissantes sur son efficacité. Mais alors que la grande majorité des entreprises voient leurs tentatives d’intégration de l’IA générative échouer, la question de savoir si la technologie fait ce que les développeurs ont promis se pose.

Dans un monde en évolution technologique rapide, une question urgente se pose : comment les gens peuvent-ils déterminer si une nouvelle merveille technologique fonctionne réellement et peut être utilisée en toute sécurité ?

Empruntant au langage scientifique, cette question concerne en réalité la validité, c’est-à-dire la solidité, la fiabilité et la fiabilité d’une affirmation. La validité est le verdict ultime quant à savoir si une affirmation scientifique reflète fidèlement la réalité. Considérez-le comme un contrôle de qualité pour la science : il aide les chercheurs à savoir si un médicament guérit réellement une maladie, si une application de suivi de la santé améliore réellement la forme physique ou si un modèle de trou noir décrit véritablement son comportement dans l'espace.

La manière d’évaluer la validité des nouvelles technologies et innovations reste floue, en partie parce que la science s’est principalement concentrée sur la validation des affirmations concernant le monde naturel.

Dans notre travail en tant que chercheurs qui étudient comment évaluer la science dans plusieurs disciplines, nous avons développé un cadre pour évaluer la validité de toute conception, qu'il s'agisse d'une nouvelle technologie ou d'une nouvelle politique. Nous pensons qu’établir des normes de validité claires et cohérentes et apprendre à les évaluer peut permettre aux gens de prendre des décisions éclairées concernant la technologie et de déterminer si une nouvelle technologie tiendra réellement ses promesses.

La validité est le fondement de la connaissance

Historiquement, la validité visait principalement à garantir la précision des mesures scientifiques, par exemple si un thermomètre mesurait correctement la température ou si un test psychologique évaluait avec précision l'anxiété. Au fil du temps, il est devenu évident qu’il existe plusieurs types de validité.

Différents domaines scientifiques ont leurs propres manières d'évaluer la validité. Les ingénieurs testent les nouvelles conceptions par rapport aux normes de sécurité et de performance. Les chercheurs en médecine utilisent des expériences contrôlées pour vérifier que les traitements sont plus efficaces que les options existantes.

Les chercheurs de tous domaines utilisent différents types de validité, selon le type d’affirmation qu’ils formulent.

La validité interne demande si la relation entre deux variables est véritablement causale. Un chercheur en médecine, par exemple, pourrait mener un essai contrôlé randomisé pour s'assurer qu'un nouveau médicament conduit les patients à se rétablir plutôt qu'un autre facteur tel que l'effet placebo.

La validité externe est une question de généralisation, c'est-à-dire si ces résultats seraient toujours valables en dehors du laboratoire ou dans une population plus large ou différente. Un exemple de faible validité externe est le nombre d’études précoces qui fonctionnent sur des souris et qui ne se traduisent pas toujours par des résultats humains.

La validité conceptuelle, en revanche, est une question de sens. Les psychologues et les spécialistes des sciences sociales s'en servent lorsqu'ils se demandent si un test ou une enquête reflète réellement l'idée qu'il est censé mesurer. Une échelle de courage reflète-t-elle réellement la persévérance ou simplement l’entêtement ?

Enfin, la validité écologique demande si quelque chose fonctionne dans le monde réel plutôt que simplement dans des conditions idéales de laboratoire. Un modèle comportemental ou un système d’IA peut fonctionner brillamment en simulation, mais échouer une fois que le comportement humain, les données bruyantes ou la complexité institutionnelle entrent en scène.

Pour tous ces types de validité, l’objectif est le même : garantir que les outils scientifiques – des expériences de laboratoire aux algorithmes – sont fidèlement liés à la réalité qu’ils visent à expliquer.

Évaluation des allégations technologiques

Nous avons développé une méthode pour aider les chercheurs de toutes disciplines à tester clairement la fiabilité et l'efficacité de leurs inventions et théories. Le cadre de validité de la science du design identifie trois types critiques d’affirmations que les chercheurs font habituellement concernant l’utilité d’une technologie, d’une innovation, d’une théorie, d’un modèle ou d’une méthode.

Premièrement, un critère affirme qu’une découverte produit des résultats bénéfiques, généralement en surpassant les normes actuelles. Ces affirmations justifient l'utilité de la technologie en montrant des avantages évidents par rapport aux alternatives existantes.

Par exemple, les développeurs de modèles d’IA génératifs tels que ChatGPT peuvent constater un engagement plus élevé envers la technologie, plus elle flatte et est d’accord avec l’utilisateur. En conséquence, ils peuvent programmer la technologie pour qu’elle soit plus affirmée – une fonctionnalité appelée flagornerie – afin d’augmenter la fidélisation des utilisateurs. Les modèles d’IA répondent aux critères des utilisateurs les considérant comme plus flatteurs que de parler aux gens. Cependant, cela ne contribue guère à améliorer l’efficacité de la technologie dans des tâches telles que la résolution de problèmes de santé mentale ou de problèmes relationnels.

Deuxièmement, une affirmation causale aborde la manière dont des composants ou des caractéristiques spécifiques d’une technologie contribuent directement à son succès ou à son échec. En d’autres termes, c’est une affirmation qui montre que les chercheurs savent ce qui rend une technologie efficace et exactement pourquoi elle fonctionne.

En examinant les modèles d'IA et la flatterie excessive, les chercheurs ont découvert que l'interaction avec des modèles plus flagorneurs réduisait la volonté des utilisateurs de réparer les conflits interpersonnels et augmentait leur conviction d'avoir raison. L’affirmation causale ici est que la fonctionnalité de flagornerie de l’IA réduit le désir de l’utilisateur de réparer le conflit.

Troisièmement, une revendication contextuelle précise où et dans quelles conditions une technologie est censée fonctionner efficacement. Ces affirmations explorent si les avantages d’une technologie ou d’un système se généralisent au-delà du laboratoire et peuvent atteindre d’autres populations et contextes.

Dans la même étude, les chercheurs ont examiné comment une flatterie excessive affectait les actions des utilisateurs dans d'autres ensembles de données, notamment la communauté « Suis-je le connard » sur Reddit. Ils ont constaté que les modèles d’IA confirmaient davantage les décisions des utilisateurs que les personnes, même lorsque l’utilisateur décrivait un comportement manipulateur ou nuisible. Cela conforte l’affirmation contextuelle selon laquelle le comportement de flagornerie d’un modèle d’IA s’applique à différents contextes conversationnels et populations.

Mesurer la validité en tant que consommateur

Comprendre la validité des innovations scientifiques et des technologies grand public est essentiel pour les scientifiques et le grand public. Pour les scientifiques, il s'agit d'une feuille de route permettant de garantir que leurs inventions soient rigoureusement évaluées. Et pour le public, cela signifie savoir que les outils et les systèmes dont il dépend, comme les applications de santé, les médicaments et les plateformes financières, sont véritablement sûrs, efficaces et bénéfiques.

Voici comment utiliser la validité pour comprendre les innovations scientifiques et technologiques qui se produisent autour de vous.

Puisqu'il est difficile de comparer toutes les fonctionnalités de deux technologies, concentrez-vous sur les fonctionnalités que vous appréciez le plus d'une technologie ou d'un modèle. Par exemple, préférez-vous qu’un chatbot soit précis ou meilleur pour la confidentialité ? Examinez les réclamations dans ce domaine et vérifiez qu'elles sont aussi bonnes que annoncées.

Considérez non seulement les types d’allégations faites pour une technologie, mais également celles qui ne sont pas faites. Par exemple, une entreprise de chatbot corrige-t-elle les biais dans son modèle ? C'est votre clé pour savoir si vous voyez un battage médiatique non testé et potentiellement dangereux ou une véritable avancée.

En comprenant la validité, les organisations et les consommateurs peuvent passer outre le battage médiatique et découvrir la vérité derrière les dernières technologies.