Nous risquons un déluge de «science» écrits par l'IA poussant les intérêts des entreprises

Dans les années 2000, la société pharmaceutique américaine Wyeth a été poursuivie par des milliers de femmes qui avaient développé un cancer du sein après avoir pris ses médicaments de remplacement hormonal. Les dossiers judiciaires ont révélé le rôle de « des dizaines de critiques et de commentaires fantômes publiés dans des revues et des suppléments médicaux utilisés pour promouvoir des avantages non prouvés et minimiser les préjudices » liés aux médicaments.

Wyeth, qui a été repris par Pfizer en 2009, avait payé une entreprise de communication médicale pour produire ces articles, qui ont été publiés sous les titres de médecins de premier plan sur le terrain (avec leur consentement). Tous les professionnels de la santé lisant ces articles et comptant sur eux pour des conseils sur ordonnance n'auraient aucune idée que Wyeth était derrière eux.

La société pharmaceutique a insisté sur le fait que tout ce qui était écrit était scientifiquement exact et – bien en train de faire du fait que payer des écrivains de fantômes pour de tels services était courant dans l'industrie. Pfizer a fini par verser plus de 1 milliard de dollars américains (744 millions de livres sterling) en dommages-intérêts sur les préjudices des médicaments.

Les articles en question sont un excellent exemple de «Resmearch» – BullShit Science au service des intérêts des entreprises. Bien que l'écrasante majorité des chercheurs soient motivées à découvrir la vérité et à vérifier leurs résultats robuste, la recherche n'est pas respectueuse de la vérité – elle ne cherche que pour persuader.

Nous avons vu de nombreux autres exemples ces dernières années, tels que les entreprises de boissons gazeuses et les études de financement des producteurs de viande qui sont moins susceptibles que la recherche indépendante de montrer des liens entre leurs produits et les risques pour la santé.

Une grande inquiétude actuelle est que les outils d'IA réduisent les coûts de production de telles preuves pour pratiquement zéro. Il y a quelques années à peine, il a fallu des mois pour produire un seul papier. Maintenant, une seule personne utilisant l'IA peut produire plusieurs articles qui semblent valables en quelques heures.

Déjà, la littérature sur la santé publique observe une multitude d'articles qui s'appuient sur des données optimisées pour une utilisation avec une IA pour signaler les résultats à facteur unique. Les résultats d'un seul facteur relient un seul facteur à certains résultats pour la santé, comme trouver un lien entre manger des œufs et développer une démence.

Ces études se prêtent à des résultats spécieux. Lorsque des ensembles de données couvrent des milliers de personnes et des centaines d'informations à leur sujet, les chercheurs trouveront inévitablement des corrélations trompeuses qui se produisent par hasard.

Une recherche dans les principales bases de données académiques Scopus et PubMed ont montré qu'une moyenne de quatre études à facteurs uniques ont été publiées par an entre 2014 et 2021. Au cours des dix premiers mois de 2024 seulement, un énorme 190 a été publié.

Celles-ci n'étaient pas nécessairement motivées par les intérêts des entreprises – certains pourraient, par exemple, le résultat d'universitaires qui cherchent à publier plus de matériel pour augmenter leurs perspectives de carrière. Le fait est davantage qu'avec l'IA facilitant ces types d'études, ils deviennent une tentation supplémentaire pour les entreprises qui cherchent à promouvoir des produits.

Soit dit en passant, le Royaume-Uni vient de donner à certaines entreprises une motivation supplémentaire pour produire ce matériel. De nouveaux conseils gouvernementaux demandent aux producteurs de nourriture pour bébés de faire des allégations de marketing qui ne suggèrent des avantages pour la santé que s'ils sont soutenus par des preuves scientifiques.

Bien que bien intentionné, il incitera les entreprises à trouver des résultats que leurs produits sont sains. Cela pourrait augmenter leur demande pour le type de «preuves scientifiques» assistées par AI qui sont de plus en plus disponibles.

Résoudre le problème

Un problème est que la recherche ne passe pas toujours par l'examen par les pairs avant d'informer la politique. En 2021, par exemple, le juge de la Cour suprême des États-Unis Samuel Alito, dans un avis sur le droit de porter une arme à feu, a cité un document d'information d'un universitaire de Georgetown qui a présenté des données d'enquête sur l'utilisation des armes à feu.

L'enquête académique et des armes à feu a été financée par le Constitutional Defence Fund, que le New York Times décrit comme un «organisme à but non lucratif pro-gun».

Étant donné que les données de l'enquête ne sont pas accessibles au public et que l'académique a refusé de répondre aux questions à ce sujet, il est impossible de savoir si ses résultats sont à la recherche. Pourtant, les avocats ont fait référence à son article dans les cas des États-Unis pour défendre les intérêts des armes à feu.

Une leçon évidente est que quiconque comptant sur la recherche devrait se méfier de tous ceux qui n'ont pas réussi. Une leçon moins évidente est que nous devrons également réformer l'examen par les pairs. Il y a eu beaucoup de discussions ces dernières années sur l'explosion dans la recherche publiée et la mesure dans laquelle les examinateurs font correctement leur travail.

Au cours de la dernière décennie environ, plusieurs groupes de chercheurs ont réalisé des progrès significatifs dans l'identification des procédures qui réduisent le risque de résultats spécieux dans les articles publiés. Les progrès incluent amener les auteurs à publier un plan de recherche avant de faire un travail (connu sous le nom de préinscription), puis de signaler de manière transparente toutes les étapes de recherche prises dans une étude et de s'assurer que les examinateurs vérifient cela en ordre.

De plus, pour les articles à facteur unique, il existe une méthode récente appelée analyse de courbe de spécification qui teste de manière approfondie la robustesse de la relation revendiquée contre d'autres façons de trancher les données.

Les éditeurs de journal dans de nombreux domaines ont adopté ces propositions et mis à jour leurs règles d'autres manières également. Ils exigent souvent désormais les auteurs qu'ils publient leurs données, leur code et l'enquête ou les matériaux utilisés dans les expériences (tels que les questionnaires, les stimuli, etc.). Les auteurs doivent également divulguer les conflits d'intérêts et les sources de financement.

Certaines revues sont allées plus loin, comme l'exigence, en réponse à la conclusion sur l'utilisation des ensembles de données optimisés en AI, les auteurs pour citer toutes les autres analyses secondaires similaires aux leurs publiées et pour divulguer comment l'IA a été utilisée dans leur travail.

Certains domaines ont certainement été plus réformistes que d'autres. Les revues en psychologie ont, selon mon expérience, allé plus loin pour adopter ces processus que les revues économiques.

Par exemple, une étude récente a appliqué des vérifications de robustesse supplémentaires aux analyses publiées dans le niveau supérieur Revue économique américaine. Cela suggère que les études publiées dans la revue ont systématiquement surestimé la force des preuves contenues dans les données.

En général, le système actuel semble mal équipé pour faire face au déluge de papiers que l'IA précipitera. Les examinateurs doivent investir du temps, des efforts et une attention scrupuleuse vérifiant les prérégistrations, les analyses de courbe de spécification, les données, le code, etc.

Cela nécessite un mécanisme d'examen par les pairs qui récompense les examinateurs pour la qualité de leurs avis.

La confiance du public dans la science reste élevée dans le monde. C'est bon pour la société car la méthode scientifique est un juge impartial qui promeut ce qui est vrai et significatif sur ce qui est populaire ou rentable.

Pourtant, l'IA menace de nous emmener plus loin de cet idéal que jamais. Si la science doit maintenir sa crédibilité, nous devons urgencement à inciter un examen significatif par les pairs.