Une méthode automatisée aide les chercheurs à quantifier l’incertitude de leurs prédictions
Les sondeurs essayant de prédire les résultats des élections présidentielles et les physiciens recherchant des exoplanètes lointaines ont au moins une chose en commun : ils utilisent souvent une technique scientifique éprouvée appelée inférence bayésienne.
L’inférence bayésienne permet à ces scientifiques d’estimer efficacement un paramètre inconnu, comme le vainqueur d’une élection, à partir de données telles que les résultats d’un sondage. Mais l’inférence bayésienne peut être lente, consommant parfois des semaines, voire des mois de temps de calcul ou obligeant un chercheur à passer des heures à dériver manuellement des équations fastidieuses.
Des chercheurs du MIT et d’ailleurs ont introduit une technique d’optimisation qui accélère les choses sans nécessiter beaucoup de travail supplémentaire de la part d’un scientifique. Leur méthode permet d’obtenir des résultats plus précis plus rapidement qu’une autre approche populaire pour accélérer l’inférence bayésienne.
Grâce à cette nouvelle technique automatisée, un scientifique pourrait simplement saisir son modèle, puis la méthode d’optimisation effectuerait tous les calculs en coulisse pour fournir une approximation d’un paramètre inconnu. La méthode offre également des estimations d’incertitude fiables qui peuvent aider un chercheur à comprendre quand faire confiance à ses prédictions.
Cette technique polyvalente pourrait être appliquée à un large éventail de problèmes scientifiques intégrant l’inférence bayésienne. Par exemple, il pourrait être utilisé par des économistes étudiant l’impact des prêts de microcrédit dans les pays en développement ou par des analystes sportifs utilisant un modèle pour classer les meilleurs joueurs de tennis.
« Lorsque vous étudiez réellement ce que font les gens dans les domaines des sciences sociales, de la physique, de la chimie ou de la biologie, ils utilisent souvent les mêmes outils sous le capot. Il existe de nombreuses analyses bayésiennes.
« Si nous pouvons créer un outil vraiment génial qui facilite la vie de ces chercheurs, nous pouvons alors vraiment faire une différence pour beaucoup de personnes dans de nombreux domaines de recherche différents », déclare l’auteure principale Tamara Broderick, professeure agrégée au département de génie électrique du MIT. et informatique (EECS) et membre du Laboratoire des systèmes d’information et de décision et de l’Institut des données, des systèmes et de la société.
Broderick est rejoint dans l’article par les co-auteurs principaux Ryan Giordano, professeur adjoint de statistiques à l’Université de Californie à Berkeley ; et Martin Ingram, data scientist à la société d’IA KONUX. L’article a été récemment publié dans le Journal de recherche sur l’apprentissage automatique.
Des résultats plus rapides
Lorsque les chercheurs recherchent une forme plus rapide d’inférence bayésienne, ils se tournent souvent vers une technique appelée inférence variationnelle par différenciation automatique (ADVI), qui est souvent à la fois rapide à exécuter et facile à utiliser.
Mais Broderick et ses collaborateurs ont découvert un certain nombre de problèmes pratiques avec ADVI. Il doit résoudre un problème d’optimisation et ne peut le faire qu’approximativement. Ainsi, ADVI peut encore nécessiter beaucoup de temps de calcul et d’efforts de l’utilisateur pour déterminer si la solution approximative est suffisamment bonne. Et une fois qu’une solution est trouvée, elle tend à fournir de mauvaises estimations de l’incertitude.
Plutôt que de réinventer la roue, l’équipe a repris de nombreuses idées d’ADVI mais les a inversées pour créer une technique appelée ADVI déterministe (DADVI) qui ne présente pas ces inconvénients.
Avec DADVI, il est très clair quand l’optimisation est terminée, de sorte qu’un utilisateur n’aura pas besoin de passer du temps de calcul supplémentaire pour s’assurer que la meilleure solution a été trouvée. DADVI permet également l’incorporation de méthodes d’optimisation plus puissantes qui lui confèrent une vitesse et des performances supplémentaires.
Une fois qu’il atteint un résultat, DADVI est configuré pour permettre l’utilisation de corrections d’incertitude. Ces corrections rendent ses estimations d’incertitude beaucoup plus précises que celles d’ADVI.
DADVI permet également à l’utilisateur de voir clairement le nombre d’erreurs qu’il a commises dans l’approximation du problème d’optimisation. Cela évite qu’un utilisateur n’exécute inutilement l’optimisation encore et encore avec de plus en plus de ressources pour essayer de réduire l’erreur.
« Nous voulions voir si nous pouvions tenir la promesse de l’inférence boîte noire dans le sens où, une fois que l’utilisateur a créé son modèle, il peut simplement exécuter l’inférence bayésienne et n’a pas besoin de tout dériver à la main, il ne le fait pas. » « Je n’ai pas besoin de savoir quand arrêter leur algorithme, et ils ont une idée de la précision de leur solution approximative », explique Broderick.
Défier les idées reçues
DADVI peut être plus efficace que ADVI car il utilise une méthode d’approximation efficace, appelée approximation de la moyenne d’échantillon, qui estime une quantité inconnue en suivant une série d’étapes exactes.
Parce que les étapes du chemin sont précises, il est clair quand l’objectif a été atteint. De plus, atteindre cet objectif nécessite généralement moins d’étapes.
Souvent, les chercheurs s’attendent à ce que l’approximation de la moyenne de l’échantillon soit plus gourmande en calcul qu’une méthode plus populaire, connue sous le nom de gradient stochastique, utilisée par ADVI. Mais Broderick et ses collaborateurs ont montré que, dans de nombreuses applications, ce n’est pas le cas.
« De nombreux problèmes ont réellement une structure particulière, et vous pouvez être bien plus efficace et obtenir de meilleures performances en tirant parti de cette structure particulière. C’est quelque chose que nous avons vraiment vu dans cet article », ajoute-t-elle.
Ils ont testé DADVI sur un certain nombre de modèles et d’ensembles de données du monde réel, notamment un modèle utilisé par les économistes pour évaluer l’efficacité des prêts de microcrédit et un autre utilisé en écologie pour déterminer si une espèce est présente sur un site particulier.
Dans l’ensemble, ils ont constaté que DADVI peut estimer des paramètres inconnus plus rapidement et de manière plus fiable que les autres méthodes, et atteint une précision aussi bonne, voire meilleure, que ADVI. Parce qu’elle est plus facile à utiliser que d’autres techniques, DADVI pourrait offrir un coup de pouce aux scientifiques dans des domaines très variés.
À l’avenir, les chercheurs souhaitent approfondir les méthodes de correction des estimations de l’incertitude afin de mieux comprendre pourquoi ces corrections peuvent produire des incertitudes aussi précises et quand elles pourraient échouer.
« En statistiques appliquées, nous devons souvent utiliser des algorithmes approximatifs pour des problèmes trop complexes ou de grande dimension pour permettre de calculer des solutions exactes dans un délai raisonnable. Ce nouvel article propose un ensemble intéressant de résultats théoriques et empiriques qui pointent vers une amélioration dans un algorithme approximatif populaire existant pour l’inférence bayésienne », explique Andrew Gelman, professeur de statistiques et de sciences politiques à l’Université de Columbia, qui n’a pas participé à l’étude. « En tant que membre de l’équipe impliquée dans la création de ce travail antérieur, je suis heureux de voir notre algorithme remplacé par quelque chose de plus stable. »