Renforcer la confiance dans les modèles d'apprentissage automatique

Renforcer la confiance dans les modèles d’apprentissage automatique

Crédit : domaine public CC0

Les méthodes d’apprentissage automatique probabilistes deviennent des outils de plus en plus puissants dans l’analyse des données, informant une gamme de décisions critiques dans toutes les disciplines et applications, de la prévision des résultats des élections à la prédiction de l’impact des microcrédits sur la lutte contre la pauvreté.

Cette classe de méthodes utilise des concepts sophistiqués de la théorie des probabilités pour gérer l’incertitude dans la prise de décision. Mais les calculs ne sont qu’une pièce du puzzle pour déterminer leur précision et leur efficacité. Dans une analyse de données typique, les chercheurs font de nombreux choix subjectifs, ou introduisent potentiellement des erreurs humaines, qui doivent également être évalués afin de cultiver la confiance des utilisateurs dans la qualité des décisions basées sur ces méthodes.

Pour résoudre ce problème, l’informaticienne du MIT Tamara Broderick, professeure associée au Département de génie électrique et d’informatique (EECS) et membre du Laboratoire des systèmes d’information et de décision (LIDS), et une équipe de chercheurs ont développé un système de classification – une « taxonomie de la confiance » – qui définit où la confiance peut s’effondrer dans une analyse de données et identifie des stratégies pour renforcer la confiance à chaque étape. Les autres chercheurs du projet sont le professeur Anna Smith de l’Université du Kentucky, les professeurs Tian Zheng et Andrew Gelman de l’Université de Columbia et le professeur Rachael Meager de la London School of Economics. L’espoir de l’équipe est de mettre en évidence les préoccupations qui sont déjà bien étudiées et celles qui nécessitent plus d’attention.

Dans leur article, publié en février dans Avancées scientifiques, les chercheurs commencent par détailler les étapes du processus d’analyse des données où la confiance pourrait s’effondrer : les analystes choisissent les données à collecter et les modèles, ou les représentations mathématiques, qui reflètent le plus fidèlement le problème ou la question de la vie réelle auxquels ils cherchent à répondre. . Ils sélectionnent des algorithmes adaptés au modèle et utilisent du code pour exécuter ces algorithmes. Chacune de ces étapes pose des défis uniques concernant l’établissement de la confiance. Certains composants peuvent être vérifiés pour leur précision de manière mesurable. Par exemple, « Est-ce que mon code contient des bogues ? » est une question qui peut être testée par rapport à des critères objectifs. D’autres fois, les problèmes sont plus subjectifs, sans réponses claires ; les analystes sont confrontés à de nombreuses stratégies pour recueillir des données et décider si un modèle reflète le monde réel.

« Ce que je trouve intéressant dans la création de cette taxonomie, c’est qu’elle met vraiment en évidence les points sur lesquels les gens se concentrent. Je pense que beaucoup de recherches se concentrent naturellement sur ce niveau : ‘Mes algorithmes résolvent-ils un problème mathématique particulier ?’ en partie parce que c’est très objectif, même s’il s’agit d’un problème difficile », déclare Broderick.

« Je pense qu’il est vraiment difficile de répondre ‘Est-il raisonnable de mathématiser un problème appliqué important d’une certaine manière ?’ parce qu’il entre en quelque sorte dans un espace plus difficile, ce n’est plus seulement un problème mathématique. »

Capturer la vie réelle dans un modèle

Le travail des chercheurs pour catégoriser où la confiance s’effondre, bien qu’il puisse sembler abstrait, est enraciné dans une application du monde réel.

Meager, co-auteur de l’article, a analysé si les microfinances peuvent avoir un effet positif dans une communauté. Le projet est devenu une étude de cas sur les endroits où la confiance pourrait s’effondrer et sur les moyens de réduire ce risque.

À première vue, mesurer l’impact du microfinancement peut sembler une entreprise simple. Mais comme toute analyse, les chercheurs rencontrent des défis à chaque étape du processus qui peuvent affecter la confiance dans le résultat. Le microfinancement, dans lequel les particuliers ou les petites entreprises reçoivent de petits prêts et d’autres services financiers au lieu des services bancaires conventionnels, peut offrir différents services, selon le programme. Pour l’analyse, Meager a rassemblé des ensembles de données provenant de programmes de microfinance dans des pays du monde entier, notamment au Mexique, en Mongolie, en Bosnie et aux Philippines.

Lors de la combinaison d’ensembles de données manifestement distincts, dans ce cas provenant de plusieurs pays et de différentes cultures et géographies, les chercheurs doivent évaluer si des études de cas spécifiques peuvent refléter des tendances plus larges. Il est également important de contextualiser les données disponibles. Par exemple, dans le Mexique rural, posséder des chèvres peut être considéré comme un investissement.

« Il est difficile de mesurer la qualité de vie d’un individu. Les gens mesurent des choses comme, ‘Quel est le bénéfice commercial de la petite entreprise ?’ ou ‘Quel est le niveau de consommation d’un ménage ?’ Il y a ce potentiel de décalage entre ce qui vous tient vraiment à cœur et ce que vous mesurez », déclare Broderick. « Avant d’en arriver au niveau mathématique, sur quelles données et sur quelles hypothèses nous appuyons-nous ? »

Avec des données à portée de main, les analystes doivent définir les questions du monde réel auxquelles ils cherchent à répondre. Dans le cas de l’évaluation des avantages du microfinancement, les analystes doivent définir ce qu’ils considèrent comme un résultat positif. Il est courant en économie, par exemple, de mesurer le gain financier moyen par entreprise dans les communautés où un programme de microfinance est introduit. Mais rapporter une moyenne pourrait suggérer un effet positif net même si seulement quelques personnes (ou même une) en ont bénéficié, au lieu de la communauté dans son ensemble.

« Ce que vous vouliez vraiment, c’est que beaucoup de gens en profitent », a déclaré Broderick. « Cela semble simple. Pourquoi n’avons-nous pas mesuré la chose qui nous importait ? Mais je pense qu’il est très courant que les praticiens utilisent des outils d’apprentissage automatique standard, pour de nombreuses raisons. Et ces outils peuvent signaler un proxy qui ne correspond pas toujours d’accord avec la quantité d’intérêt. »

Les analystes peuvent, consciemment ou inconsciemment, favoriser les modèles qu’ils connaissent, surtout après avoir passé beaucoup de temps à en apprendre les tenants et les aboutissants. « Quelqu’un pourrait hésiter à essayer une méthode non standard car il pourrait être moins certain de l’utiliser correctement. Ou l’examen par les pairs pourrait favoriser certaines méthodes familières, même si un chercheur aimerait utiliser des méthodes non standard », déclare Broderick. « Il y a beaucoup de raisons, sociologiquement. Mais cela peut être un souci de confiance. »

Dernière étape, vérification du code

Alors que distiller un problème réel dans un modèle peut être un problème global et amorphe, vérifier le code qui exécute un algorithme peut sembler « prosaïque », dit Broderick. Mais c’est un autre domaine potentiellement négligé où la confiance peut être renforcée.

Dans certains cas, la vérification d’un pipeline de codage qui exécute un algorithme peut être considérée comme ne relevant pas du travail d’un analyste, en particulier lorsqu’il est possible d’utiliser des progiciels standard.

Une façon d’attraper les bogues est de tester si le code est reproductible. Selon le domaine, cependant, le partage de code parallèlement au travail publié n’est pas toujours une exigence ou la norme. À mesure que les modèles gagnent en complexité au fil du temps, il devient plus difficile de recréer du code à partir de zéro. Reproduire un modèle devient difficile voire impossible.

« Commençons par chaque journal vous obligeant à publier votre code. Peut-être qu’il n’est pas totalement revérifié et que tout n’est pas absolument parfait, mais commençons par là », déclare Broderick, comme un pas vers l’instauration de la confiance.

Le co-auteur de l’article, Gelman, a travaillé sur une analyse qui prévoyait l’élection présidentielle américaine de 2020 en utilisant des sondages d’État et nationaux en temps réel. L’équipe a publié des mises à jour quotidiennes dans L’économiste, tout en publiant leur code en ligne pour que chacun puisse le télécharger et l’exécuter lui-même. Tout au long de la saison, des étrangers ont signalé à la fois des bogues et des problèmes conceptuels dans le modèle, contribuant finalement à une analyse plus approfondie.

Les chercheurs reconnaissent que s’il n’existe pas de solution unique pour créer un modèle parfait, les analystes et les scientifiques ont la possibilité de renforcer la confiance à presque chaque tournant.

« Je ne pense pas que nous nous attendions à ce qu’aucune de ces choses soit parfaite », dit Broderick, « mais je pense que nous pouvons nous attendre à ce qu’elles soient meilleures ou aussi bonnes que possible. »

Fourni par le Massachusetts Institute of Technology