Une équipe de recherche développe une nouvelle mesure pour évaluer le compromis risque-rendement dans le cadre d’une évaluation hors politique

Une équipe de recherche développe une nouvelle mesure pour évaluer le compromis risque-rendement dans le cadre d’une évaluation hors politique

L'apprentissage par renforcement (RL) est une technique d'apprentissage automatique qui entraîne des logiciels en imitant le processus d'apprentissage par essais et erreurs des humains. Il a démontré un succès considérable dans de nombreux domaines qui impliquent une prise de décision séquentielle. Cependant, former des modèles RL avec des tests en ligne réels est souvent indésirable car cela peut être risqué, long et, surtout, contraire à l'éthique. Ainsi, l’utilisation d’ensembles de données hors ligne qui sont naturellement collectés lors d’opérations passées devient de plus en plus populaire pour la formation et l’évaluation des politiques RL et anti-bandits.

En particulier, dans des applications pratiques, la méthode d'évaluation hors politique (OPE) est utilisée pour filtrer d'abord les politiques candidates les plus prometteuses, appelées « politiques top-k », à partir d'un ensemble de données enregistrées hors ligne, puis pour utiliser des tests réels plus fiables. , appelés tests A/B en ligne, pour choisir la politique finale.

Pour évaluer l'efficacité des différents estimateurs OPE, les chercheurs se sont principalement concentrés sur des mesures telles que l'erreur quadratique moyenne (MSE), RankCorr et Regret. Cependant, ces méthodes se concentrent uniquement sur l’exactitude des méthodes OPE et ne parviennent pas à évaluer le compromis risque-rendement lors du déploiement de la politique en ligne.

Plus précisément, MSE et RankCorr ne parviennent pas à différencier si les politiques quasi optimales sont sous-estimées ou si les politiques peu performantes sont surestimées, tandis que Regret se concentre uniquement sur la meilleure politique et néglige la possibilité de nuire au système en raison de politiques sous-optimales dans l'A/B en ligne. essais.

Pour résoudre ce problème, une équipe de chercheurs japonais, dirigée par le professeur Kazuhide Nakata de l'Institut de technologie de Tokyo, a développé une nouvelle métrique d'évaluation pour les estimateurs OPE.

« La mesure du risque-rendement est cruciale pour garantir la sécurité dans des scénarios sensibles au risque tels que la finance. Inspirés par le principe de conception de la mesure d'évaluation des risques financiers, le ratio de Sharpe, nous avons développé SharpeRatio@k, qui mesure à la fois le risque et le rendement potentiels de manière optimale. k la sélection des politiques », explique le professeur Nakata. L’étude a été présentée dans les actes de la conférence ICLR 2024.

SharpeRatio@k traite les politiques top-k sélectionnées par un estimateur OPE comme un portefeuille de politiques, similaire aux portefeuilles financiers, et mesure le risque, le rendement et l'efficacité de l'estimateur sur la base des statistiques du portefeuille. Dans cette méthode, un portefeuille de politiques est considéré comme efficace lorsqu'il contient des politiques qui améliorent considérablement les performances (rendement élevé) sans inclure de politiques peu performantes qui affectent négativement l'apprentissage dans les tests A/B en ligne (faible risque). Cette méthode maximise le rendement et minimise les risques, identifiant ainsi l'estimateur le plus sûr et le plus efficace.

Les chercheurs ont démontré les capacités de cette nouvelle métrique à l’aide d’exemples de scénarios et de tests de référence et l’ont comparée aux métriques existantes.

Les tests ont révélé que SharpeRatio@k mesure efficacement le risque, le rendement et l'efficacité globale de différents estimateurs avec différents budgets d'évaluation en ligne, alors que les mesures existantes n'y parviennent pas. En outre, il aborde également la surestimation et la sous-estimation des politiques. Fait intéressant, ils ont également constaté que même si, dans certains scénarios, cela s'aligne sur les métriques existantes, une meilleure valeur de ces métriques n'entraîne pas toujours une meilleure valeur SharpeRatio@k.

Grâce à ces points de référence, les chercheurs ont également suggéré plusieurs orientations de recherche futures pour les estimateurs OPE, notamment la nécessité d'utiliser SharpeRatio@k pour évaluer l'efficacité des estimateurs OPE et la nécessité de nouveaux estimateurs et de méthodes de sélection d'estimateurs qui tiennent compte des compromis risque-rendement. En outre, ils ont également mis en œuvre leur métrique innovante dans un logiciel open source pour une évaluation rapide, précise et perspicace de l'OPE.

Soulignant l'importance de l'étude, le professeur Nakata conclut : « Notre étude montre que SharpreRatio@k peut identifier l'estimateur approprié à utiliser en termes d'efficacité dans différentes politiques comportementales, fournissant ainsi des informations utiles pour une évaluation et une sélection d'estimateurs plus appropriées dans les deux cas. recherche et pratique. »

Dans l’ensemble, cette étude améliore la sélection des politiques grâce à l’OPE, ouvrant la voie à un meilleur apprentissage par renforcement.