Comment utiliser l’IA pour la découverte sans égarer la science

Comment utiliser l’IA pour la découverte sans égarer la science

Au cours de la dernière décennie, l’IA a imprégné presque tous les domaines scientifiques : des modèles d’apprentissage automatique ont été utilisés pour prédire les structures des protéines, estimer la fraction de la forêt amazonienne perdue à cause de la déforestation et même classer les galaxies lointaines qui pourraient abriter des exoplanètes.

Mais si l’IA peut être utilisée pour accélérer la découverte scientifique, en aidant les chercheurs à faire des prédictions sur des phénomènes qui peuvent être difficiles ou coûteux à étudier dans le monde réel, elle peut également induire les scientifiques en erreur. De la même manière que les chatbots « hallucinent » ou inventent parfois des choses, les modèles d’apprentissage automatique peuvent parfois présenter des résultats trompeurs, voire carrément faux.

Dans un article publié en ligne dans Sciencedes chercheurs de l’Université de Californie à Berkeley, présentent une nouvelle technique statistique permettant d’utiliser en toute sécurité les prédictions obtenues à partir de modèles d’apprentissage automatique pour tester des hypothèses scientifiques.

La technique, appelée inférence basée sur la prédiction (PPI), utilise une petite quantité de données du monde réel pour corriger les résultats de grands modèles généraux, tels qu’AlphaFold, qui prédit les structures des protéines, dans le contexte de questions scientifiques spécifiques.

« Ces modèles se veulent généraux : ils peuvent répondre à de nombreuses questions, mais nous ne savons pas à quelles questions ils répondent bien et à quelles questions ils répondent mal – et si vous les utilisez naïvement, sans savoir dans quel cas vous vous trouvez, vous peut obtenir de mauvaises réponses », a déclaré l’auteur de l’étude Michael Jordan, professeur émérite Pehong Chen de génie électrique, d’informatique et de statistiques à l’UC Berkeley. « Avec PPI, vous pouvez utiliser le modèle, mais corriger les erreurs possibles, même si vous ne connaissez pas la nature de ces erreurs au départ. »

Le risque de biais cachés

Lorsque les scientifiques mènent des expériences, ils ne recherchent pas seulement une réponse unique : ils veulent obtenir une gamme de réponses plausibles. Cela se fait en calculant un « intervalle de confiance » qui, dans le cas le plus simple, peut être trouvé en répétant une expérience plusieurs fois et en observant comment les résultats varient.

Dans la plupart des études scientifiques, un intervalle de confiance fait généralement référence à une statistique récapitulative ou combinée, et non à des points de données individuels. Malheureusement, les systèmes d’apprentissage automatique se concentrent sur des points de données individuels et ne fournissent donc pas aux scientifiques les types d’évaluations d’incertitude qui les intéressent. Par exemple, AlphaFold prédit la structure d’une seule protéine, mais il ne fournit pas de notion de confiance pour cette structure, ni un moyen d’obtenir des intervalles de confiance faisant référence aux propriétés générales des protéines.

Les scientifiques pourraient être tentés d’utiliser les prédictions d’AlphaFold comme s’il s’agissait de données pour calculer des intervalles de confiance classiques, ignorant le fait que ces prédictions ne sont pas des données. Le problème de cette approche est que les systèmes d’apprentissage automatique comportent de nombreux biais cachés qui peuvent fausser les résultats. Ces biais proviennent en partie des données sur lesquelles ils sont formés, qui sont généralement des recherches scientifiques existantes qui n’ont peut-être pas eu le même objectif que l’étude actuelle.

« En effet, dans les problèmes scientifiques, nous nous intéressons souvent aux phénomènes qui se situent à la frontière entre le connu et l’inconnu », a déclaré Jordan. « Très souvent, il n’y a pas beaucoup de données du passé qui se situent à cette limite, ce qui rend les modèles d’IA génératifs encore plus susceptibles d’halluciner, produisant des résultats irréalistes. »

Calculer des intervalles de confiance valides

PPI permet aux scientifiques d’incorporer les prédictions de modèles comme AlphaFold sans faire d’hypothèses sur la façon dont le modèle a été construit ou sur les données sur lesquelles il a été formé. Pour ce faire, PPI nécessite une petite quantité de données impartiales, par rapport à l’hypothèse spécifique étudiée, associées à des prédictions d’apprentissage automatique correspondant à ces données. En réunissant ces deux sources de preuves, PPI est capable de former des intervalles de confiance valides.

Par exemple, l’équipe de recherche a appliqué la technique PPI à des algorithmes capables d’identifier les zones de déforestation en Amazonie à l’aide d’images satellite. Ces modèles étaient globalement précis lorsqu’ils étaient testés individuellement sur des régions de la forêt ; cependant, lorsque ces évaluations ont été combinées pour estimer la déforestation dans l’ensemble de l’Amazonie, les intervalles de confiance sont devenus très asymétriques. Cela est probablement dû au fait que le modèle a eu du mal à reconnaître certains modèles plus récents de déforestation.

Avec PPI, l’équipe a pu corriger le biais de l’intervalle de confiance en utilisant un petit nombre de régions de déforestation étiquetées par l’homme.

L’équipe a également montré comment la technique peut être appliquée à diverses autres recherches, notamment sur des questions sur le repliement des protéines, la classification des galaxies, les niveaux d’expression des gènes, le comptage du plancton et la relation entre le revenu et l’assurance maladie privée.

« Il n’y a vraiment aucune limite quant au type de questions auxquelles cette approche peut être appliquée », a déclaré Jordan. « Nous pensons que le PPI est un élément indispensable de la science moderne collaborative, à forte intensité de données et de modèles. »

Les autres co-auteurs incluent Anastasios N. Angelopoulos, Stephen Bates, Clara Fannjiang et Tijana Zrnic de l’UC Berkeley.