Le système de recherche et de publication d’articles académiques sur l’IA est complètement brisé… par l’utilisation de l’IA

En mars dernier, l’ICML (), la plus ancienne conférence académique consacrée à l’apprentissage automatique () au monde, a rejeté subitement 497 articles scientifiques après avoir détecté que 506 évaluateurs avaient utilisé l’intelligence artificielle (IA) pour rédiger leurs évaluations. Ils avaient violé une règle qu’ils s’étaient eux-mêmes engagés à respecter.

Cette conférence est organisée par l’International Machine Learning Society (IMLS), une organisation à but non lucratif, et a lieu chaque année depuis 1980. Chaque année, les chercheurs travaillant dans le domaine de l’IA soumettent leurs articles scientifiques fin janvier ou début février à l’ICML. Ceux-ci sont examinés par un comité composé d’autres chercheurs dans ce domaine dans le but de les évaluer et de les publier s’ils réussissent finalement un examen approfondi qui dure normalement plusieurs mois.

Les décisions d’accepter ou de rejeter les articles sont généralement communiquées aux auteurs au cours du mois de mai et la conférence de l’ICML se tient généralement en juillet. Publier dans ICML, NeurIPS() ou ICLR() équivaut à ce que dans d’autres disciplines serait publier dans les revues scientifiques Nature ou Science. Mais ICML a un sérieux problème : son autorité est remise en question sur r/MachineLearning, une communauté Reddit dédiée comptant plus de 2,5 millions d’abonnés.

Une perversion où les évaluateurs n’ont pas le temps de réviser

Avant d’aller de l’avant, il convient de s’arrêter à une étape très importante : le nombre d’articles scientifiques reçus par l’ICML augmente considérablement d’année en année. En 2023, elle en a reçu 6 538, et en 2024 pas moins de 9 653 articles, ce qui représente une croissance de 48 %. La racine du problème réside dans le fait que le nombre d’évaluateurs qualifiés n’augmente pas au même rythme que le nombre d’articles scientifiques à évaluer.

Comme je l’ai mentionné quelques lignes ci-dessus, les règles de l’ICML établissent que les évaluateurs ne peuvent pas recourir à la légère à l’IA pour effectuer leurs évaluations car cette procédure peut introduire des biais. En fait, une étude réalisée lors de l’ICLR 2024 a révélé que les articles scientifiques évalués avec des modèles d’IA ont tendance à recevoir des scores plus élevés que ceux évalués avec la procédure conventionnelle. C’est le problème. Pour l’édition 2026, l’ICML a proposé aux évaluateurs de choisir entre deux politiques : une qui interdisait l’utilisation de l’IA et une autre qui l’autorisait, mais sous conditions. Seuls ceux qui ont choisi la première option et ne l’ont pas respectée ont été sanctionnés.

Sur les 506 délinquants, seuls 398 étaient des évaluateurs réciproques qui avaient soumis un « document »

Il y a cependant un fait important à ne pas négliger : les 497 articles scientifiques rejetés en mars de cette année ont été examinés par des évaluateurs réciproques offensants. Cela signifie simplement qu’il s’agit de chercheurs qui agissent simultanément en tant qu’auteurs et évaluateurs, leur article scientifique a donc été pénalisé en raison de leur violation des règles de conduite de l’ICML. Sur les 506 délinquants, seuls 398 étaient des évaluateurs réciproques qui avaient soumis un .

Il est intéressant de noter que le système de détection utilisé par ICML consiste à cacher des instructions spécifiques dans les PDF des articles en attente de révision. Ces instructions sont invisibles pour un lecteur humain, mais tout modèle d’IA traitant le document les interprète et inclut des phrases spécifiques et traçables dans l’évaluation. ICML n’a pas utilisé de détecteurs d’IA génériques. Bien entendu, chaque cas détecté a été vérifié manuellement afin de vérifier qu’une violation avait bien été commise lors de la préparation de l’évaluation.

Ce qui se passe reflète une réalité incontestable : le système de contrôle a échoué et doit être reconstruit. Les critiques n’arrivent pas à s’en sortir. Ni ceux d’ICML, ni ceux de NeurIPS, ni ceux d’ICLR. Le nombre d’évaluateurs qualifiés devrait croître au même rythme que le nombre d’articles scientifiques à évaluer, ce qui n’est pas le cas. De plus, ce scénario introduit un autre problème : les décisions d’acceptation ou de rejet ont acquis un aspect aléatoire qui menace la cohérence et la fiabilité des évaluations.

La voie à suivre pour résoudre ce problème, au-delà de la nécessité d’augmenter le nombre d’évaluateurs qualifiés, n’est pas encore tout à fait claire. Une option consiste à améliorer la transparence du processus d’examen en publiant toutes les évaluations. Même ceux des articles rejetés. Le processus d’évaluation pourrait également être transformé en une procédure bidirectionnelle dans laquelle les auteurs évaluent également la qualité des critiques qu’ils reçoivent. De cette façon, les évaluateurs disposeront d’un historique qui prouvera leur bon travail. Nous verrons quelle stratégie les conférences mettront finalement en œuvre. En 2027, nous dissiperons les doutes.

Images | Charlesdeluvio (Unsplash)

Plus d’informations | CIML

À Simseo | Avec DeepSeek V4, la Chine a acquis bien plus qu’un simple modèle d’IA : elle a libéré le potentiel de ses puces nationales.