Remplacer le battage médiatique autour de l’IA dans les articles de revues par des mesures précises du succès

L’engouement suscité par l’apprentissage automatique, une forme d’intelligence artificielle, peut donner l’impression que ce n’est qu’une question de temps avant que ces techniques ne soient utilisées pour résoudre tous les problèmes scientifiques. Bien que les affirmations soient souvent impressionnantes, elles ne résistent pas toujours à l’examen. L’apprentissage automatique peut être utile pour résoudre certains problèmes, mais ne parvient pas à résoudre d’autres.

Dans un nouvel article publié dans Nature Intelligence artificielleDes chercheurs du Princeton Plasma Physics Laboratory (PPPL) du Département américain de l'énergie et de l'Université de Princeton ont effectué une revue systématique des recherches comparant l'apprentissage automatique aux méthodes traditionnelles de résolution des équations aux dérivées partielles (EDP) liées aux fluides. Ces équations sont importantes dans de nombreux domaines scientifiques, notamment la recherche sur le plasma qui soutient le développement de l'énergie de fusion pour le réseau électrique.

Les chercheurs ont constaté que les comparaisons entre les méthodes d’apprentissage automatique pour résoudre les EDP liées aux fluides et les méthodes traditionnelles sont souvent biaisées en faveur des méthodes d’apprentissage automatique. Ils ont également constaté que les résultats négatifs étaient systématiquement sous-estimés. Ils suggèrent des règles pour effectuer des comparaisons équitables, mais soutiennent que des changements culturels sont également nécessaires pour résoudre ce qui semble être des problèmes systémiques.

« Nos recherches suggèrent que, bien que l'apprentissage automatique ait un grand potentiel, la littérature actuelle dresse un tableau trop optimiste de la manière dont l'apprentissage automatique fonctionne pour résoudre ces types particuliers d'équations », a déclaré Ammar Hakim, directeur adjoint des sciences informatiques du PPPL et chercheur principal de la recherche.

Comparaison des résultats avec des bases de référence faibles

Les EDP sont omniprésentes en physique et sont particulièrement utiles pour expliquer les phénomènes naturels, tels que la chaleur, l'écoulement des fluides et les vagues. Par exemple, ce type d'équations peut être utilisé pour déterminer les températures le long d'une cuillère placée dans une soupe chaude.

Connaissant la température initiale de la soupe et de la cuillère, ainsi que le type de métal de la cuillère, une EDP pourrait être utilisée pour déterminer la température à n'importe quel point le long de l'ustensile à un moment donné après qu'il a été placé dans la soupe. De telles équations sont utilisées en physique des plasmas, car de nombreuses équations qui régissent les plasmas sont mathématiquement similaires à celles des fluides.

Les scientifiques et les ingénieurs ont développé diverses approches mathématiques pour résoudre les EDP. L'une d'entre elles est connue sous le nom de méthodes numériques, car elle résout les problèmes de manière numérique, plutôt qu'analytique ou symbolique, pour trouver des solutions approximatives à des problèmes difficiles ou impossibles à résoudre exactement.

Récemment, des chercheurs ont cherché à savoir si l’apprentissage automatique pouvait être utilisé pour résoudre ces EDP. L’objectif est de résoudre les problèmes plus rapidement qu’avec d’autres méthodes.

L'analyse systématique a révélé que dans la plupart des articles de revues, l'apprentissage automatique n'a pas eu le succès escompté. « Nos recherches indiquent qu'il pourrait y avoir des cas où l'apprentissage automatique peut être légèrement plus rapide pour résoudre les EDP liées aux fluides, mais dans la plupart des cas, les méthodes numériques sont plus rapides », a déclaré Nick McGreivy. McGreivy est l'auteur principal de l'article et a récemment terminé son doctorat au sein du programme de physique des plasmas de Princeton.

Les méthodes numériques impliquent un compromis fondamental entre précision et temps d'exécution. « Si vous passez plus de temps à résoudre le problème, vous obtiendrez une réponse plus précise », a déclaré McGreivy. « De nombreux articles n'ont pas pris cela en compte dans leurs comparaisons. »

De plus, il peut y avoir une différence considérable de vitesse entre les méthodes numériques. Pour être utiles, les méthodes d’apprentissage automatique doivent surpasser les meilleures méthodes numériques, a déclaré McGreivy. Pourtant, ses recherches ont révélé que les comparaisons étaient souvent faites avec des méthodes numériques qui étaient beaucoup plus lentes que les méthodes les plus rapides.

Deux règles pour faire des comparaisons équitables

L'article propose donc deux règles pour tenter de surmonter ces problèmes. La première règle consiste à comparer uniquement les méthodes d'apprentissage automatique à des méthodes numériques de précision égale ou de durée d'exécution égale. La seconde consiste à comparer les méthodes d'apprentissage automatique à une méthode numérique efficace.

Sur les 82 articles de revues étudiés, 76 affirmaient que la méthode d’apprentissage automatique était plus performante qu’une méthode numérique. Les chercheurs ont constaté que 79 % des articles vantant la supériorité d’une méthode d’apprentissage automatique avaient en réalité une base de référence faible, enfreignant au moins une de ces règles. Quatre des articles de revues affirmaient que leurs résultats étaient inférieurs à ceux d’une méthode numérique, et deux articles affirmaient avoir des performances similaires ou variées.

« Très peu d’articles ont fait état de moins bonnes performances avec l’apprentissage automatique, non pas parce que l’apprentissage automatique fait presque toujours mieux, mais parce que les chercheurs ne publient presque jamais d’articles dans lesquels l’apprentissage automatique fait moins bien », a déclaré McGreivy.

McGreivy pense que les comparaisons à la baisse sont souvent motivées par des incitations perverses dans le domaine de l'édition universitaire. « Pour qu'un article soit accepté, il est utile d'obtenir des résultats impressionnants. Cela vous incite à faire en sorte que votre modèle d'apprentissage automatique fonctionne aussi bien que possible, ce qui est une bonne chose. Cependant, vous pouvez également obtenir des résultats impressionnants si la méthode de référence à laquelle vous effectuez la comparaison ne fonctionne pas très bien. Par conséquent, vous n'êtes pas incité à améliorer votre référence, ce qui est mauvais », a-t-il déclaré.

Le résultat net est que les chercheurs finissent par travailler dur sur leurs modèles, mais pas pour trouver la meilleure méthode numérique possible comme base de comparaison.

Les chercheurs ont également trouvé des preuves de biais de publication, notamment de biais de publication et de biais de publication des résultats. Le biais de publication se produit lorsqu'un chercheur choisit de ne pas publier ses résultats après avoir réalisé que son modèle d'apprentissage automatique n'est pas plus performant qu'une méthode numérique, tandis que le biais de publication des résultats peut impliquer l'élimination des résultats négatifs des analyses ou l'utilisation de mesures de réussite non standard qui font apparaître les modèles d'apprentissage automatique comme plus performants.

Dans l'ensemble, les biais de reporting tendent à supprimer les résultats négatifs et à créer une impression générale selon laquelle l'apprentissage automatique est plus efficace qu'il ne l'est pour résoudre les EDP liées aux fluides. « Il y a beaucoup de battage médiatique dans le domaine. Nous espérons que notre travail établira des lignes directrices pour des approches fondées sur des principes visant à utiliser l'apprentissage automatique pour améliorer l'état de l'art », a déclaré Hakim.

Pour surmonter ces problèmes systémiques et culturels, Hakim soutient que les agences qui financent la recherche et les grandes conférences devraient adopter des politiques visant à empêcher l’utilisation de bases de référence faibles ou exiger une description plus détaillée de la base de référence utilisée et des raisons pour lesquelles elle a été sélectionnée.

« Ils doivent encourager leurs chercheurs à être sceptiques quant à leurs propres résultats », a déclaré Hakim. « Si je trouve des résultats qui semblent trop beaux pour être vrais, c'est probablement le cas. »