Un scientifique des données explique : Quand l'apprentissage automatique fonctionne-t-il bien sur les marchés financiers ?

En tant que data scientist, l’un des avantages de travailler avec les clients de Simseo est la grande variété de questions très intéressantes qui se posent. Récemment, un client potentiel m’a demandé comment je concilie le fait que Simseo dispose de plusieurs banques d’investissement très performantes utilisant Simseo pour améliorer le P&L de leurs activités commerciales avec mes commentaires selon lesquels les modèles d’apprentissage automatique ne sont pas toujours efficaces pour prédire les prix des actifs financiers. Jetez un coup d’œil à notre conversation pour savoir quand l’apprentissage automatique fonctionne bien (et ne fonctionne pas) dans les cas d’utilisation des marchés financiers.

Pourquoi l’apprentissage automatique est-il capable de bien fonctionner dans les applications de trading à haute fréquence, mais est-il si mauvais pour prédire les prix des actifs à plus long terme ?

Bien qu’il y ait eu quelques succès dans l’industrie en utilisant l’apprentissage automatique pour la prévision des prix, ils ont été rares. En règle générale, plus l’horizon temporel de la prédiction est court, meilleures sont les chances de succès.

De manière générale, les cas d’utilisation de market making dans lesquels Simseo (et d’autres approches d’apprentissage automatique) excellent partagent une ou plusieurs des caractéristiques suivantes :

Pour la prévision des prix à terme : un horizon de prédiction très court (généralement dans les 1 à 10 prochaines secondes), la disponibilité de bonnes données de carnet de commandes et la reconnaissance du fait que même un modèle précis à 55 % à 60 % est utile – c’est finalement un jeu de pourcentage.
Pour la découverte des prix (par exemple, établir un prix approprié pour les titres illiquides, prédire où se situera la liquidité et déterminer les ratios de couverture appropriés) ainsi que plus généralement : l’existence de bonnes données commerciales historiques sur les actifs à évaluer (par exemple, TRACE, les rapports sur le marché obligataire asiatique, l’historique des transactions des ECN) ainsi qu’un ensemble clair d’actifs plus liquides qui peuvent être utilisés comme prédicteurs (par exemple, des crédits plus liquides , contrats à terme obligataires, marchés de swaps, etc.).
Pour la prédiction du comportement de la contrepartie : une forme de données structurées qui contient non seulement des transactions gagnées, mais également des demandes/réponses infructueuses.
À travers les applications: un bord de l’information, par exemple en contrôlant une grande partie du flux dans cette classe d’actifs, ou en disposant de données sur le comportement des clients qui peuvent être utilisées.

Les domaines où toute forme d’apprentissage automatique aura des difficultés sont généralement caractérisés par un ou plusieurs de ces aspects :

Régimes, comportements et moteurs en évolution rapide : une des principales raisons pour lesquelles les prévisions à plus long terme sont si difficiles. Nous constatons très souvent que les principaux moteurs du modèle changent très régulièrement sur la plupart des marchés financiers, avec une variable qui est un indicateur utile pour une semaine ou un mois ayant peu de contenu informatif dans la suivante. Même dans les applications réussies, les modèles sont recyclés et redéployés très régulièrement (généralement au moins une fois par semaine).
Données peu fréquentes : un exemple classique ici est celui des données mensuelles ou moins fréquentes. Dans de tels cas, le comportement modélisé change généralement si souvent qu’au moment où suffisamment de données de formation pour l’apprentissage automatique se sont accumulées (24 mois ou plus), le marché se trouve dans un régime différent. Pour ce que ça vaut, quelques-uns de nos clients ont en effet réussi, par exemple, à sélectionner des actions en utilisant des prévisions sur un horizon d’un mois, mais ils ne nous disent (naturellement) pas comment ils s’y prennent.
Données fragmentées : où il n’y a pas suffisamment de données disponibles pour obtenir une bonne image du marché dans son ensemble, comme certains marchés OTC où il n’y a pas de bons ECN.
Une absence de prédicteurs : en général, les données sur le comportement passé de la variable prédite (par exemple, les prix) ne suffisent pas. Vous avez également besoin de données décrivant les moteurs de cette variable (par exemple, les carnets de commandes, les flux, les attentes, le positionnement). Les performances passées ne représentent pas les résultats futurs… .
Historique limité des régimes similaires : Parce que les modèles d’apprentissage automatique consistent à reconnaître des modèles dans les données historiques, de nouveaux marchés ou actifs peuvent être très difficiles pour les modèles ML. Ceci est connu dans le milieu universitaire comme le « problème de démarrage à froid ». Il existe différentes stratégies pour y faire face, mais aucune n’est parfaite.
N’étant pas réellement un problème d’apprentissage automatique : La modélisation de la valeur à risque en est l’exemple classique : la VaR n’est pas une prédiction de quoi que ce soit, c’est une sommation statistique des résultats de simulation. Cela dit, prédire le résultat d’une simulation est un problème de ML, et il existe de bonnes applications de ML dans la tarification de dérivés complexes et dépendants du chemin.

Enfin, et en dehors de ce qui précède, un facteur critique de succès dans tout cas d’utilisation d’apprentissage automatique qui ne doit pas être sous-estimé est l’implication de des personnes capables et motivées (généralement des quants et parfois des scientifiques des données) qui comprennent les données (et comment les manipuler), les processus métier et les leviers de valeur. Le succès est généralement motivé par de telles personnes qui effectuent de nombreuses expériences itératives sur le problème à résoudre, ce qui est finalement là où notre plate-forme entre en jeu. Comme indiqué, nous accélérons massivement ce processus d’expérimentation. Il y a beaucoup de choses qui peuvent être automatisées dans l’apprentissage automatique, mais la connaissance du domaine ne peut pas l’être.

Pour résumer : il est juste de dire que la probabilité de succès dans les cas d’utilisation de trading est positivement corrélée avec la fréquence du trading (ou au moins négativement avec la période/l’horizon de détention) à quelques exceptions près pour confirmer la règle. Il convient également de garder à l’esprit que l’apprentissage automatique est souvent meilleur dans les cas d’utilisation de second ordre tels que la prédiction des moteurs des marchés, par exemple, le risque d’événement et, dans une certaine mesure, les volumes, plutôt que les prévisions de prix de premier ordre, sous réserve de la au-dessus des mises en garde.