Les scientifiques des données prédisent les rendements boursiers avec l'IA et les actualités en ligne

Les scientifiques des données prédisent les rendements boursiers avec l’IA et les actualités en ligne

R-Squared ajusté pour l’explication du modèle FF5 vs NEUSS. Le graphique illustre le R-carré ajusté à la densité pour FF5 par rapport à NEUSS pour les comparaisons d’explications dans l’échantillon et hors échantillon. Comme on le voit, NEUSS surpasse FF5 dans l’explication à la fois dans l’échantillon et hors échantillon. (a) R carré ajusté dans l’échantillon. (b) R-carré ajusté hors échantillon. Crédit: Science des données en science (2023). DOI : 10.1080/26941899.2023.2187895

Depuis des années, la presse financière contribue à informer les investisseurs de tous bords. Les chercheurs de Cornell ont découvert qu’il peut également informer l’algorithme derrière un nouveau modèle de prévision financière.

Dans leur article « News-Based Sparse Machine Learning Models for Adaptive Asset Pricing », publié dans Science des données en science en avril, les chercheurs s’appuient sur des domaines interdisciplinaires tels que l’apprentissage automatique, le traitement du langage naturel (PNL) et la finance pour créer un nouveau cadre d’apprentissage automatique interprétable qui capture des informations spécifiques aux actions et à l’industrie et prédit les rendements financiers avec une plus grande précision que le traditionnel des modèles.

« L’un des impacts sur l’apprentissage automatique est qu’il n’est pas interprétable », a déclaré Martin Wells, professeur Charles A. Alexander de sciences statistiques à la Cornell Ann. S Bowers College of Computing and Information Science et auteur principal de l’article. « Souvent, lorsque les chercheurs utilisent de grands modèles comme ceux-ci, ils peuvent ne pas savoir ce que signifient les sorties ou ce qui sous-tend le modèle. Cette recherche exploite les données textuelles des actualités pour créer des modèles d’apprentissage automatique interprétables où vous pouvez voir explicitement les caractéristiques importantes.  »

Le texte aide à « regrouper les données », à mettre de l’ordre dans les résultats chaotiques que les algorithmes peuvent produire, a déclaré l’auteur principal Liao Zhu, Ph.D. ’20, qui a commencé à travailler dans le secteur financier après avoir terminé le journal. « Notre hypothèse est que les nouvelles financières pourraient mieux nous aider à mieux comprendre quel type d’actions sont liées à certains actifs négociables. »

Ces actifs pourraient inclure des fonds négociés en bourse (ETF), un ensemble d’actions qui suit tout un secteur, a-t-il déclaré.

L’article est une continuation des recherches précédentes de Zhu qui ont émergé de ses premières études de doctorat sous Wells et Robert Jarrow, professeur Ronald P. & Susan E. Lynch de gestion des investissements à la Samuel Curtis Johnson Graduate School of Management. Peter (Haoxuan) Wu, Ph.D. ’23 est co-auteur de l’article.

L’application des méthodes statistiques traditionnelles aux données de marché pour expliquer les rendements boursiers n’est pas nouvelle. Les données textuelles ne sont pas non plus utilisées : les investisseurs ont utilisé l’analyse des sentiments, un sous-domaine du traitement du langage naturel, pour extraire du texte en ligne des mots positifs ou négatifs associés à une entreprise qui, en théorie, peuvent signaler une hausse ou une baisse du cours d’une action.

La nouvelle recherche innove en proposant un cadre de prédiction flexible qui relie les données de marché et les données textuelles sans analyse des sentiments, et intègre de nouveaux algorithmes d’apprentissage automatique interprétables. Les chercheurs empruntent la méthode des « incorporations de mots » au traitement du langage naturel et utilisent un algorithme pour créer des « incorporations d’actifs » pour un ensemble spécifique d’actifs négociables à partir de l’actualité financière. Après avoir converti le texte et les données du marché en chiffres, les chercheurs déploient ensuite des algorithmes conçus sur mesure pour calculer les chiffres.

« Notre algorithme n’utilise pas le sentiment des nouvelles, mais utilise les nouvelles comme guide pour les actifs ou les mots à considérer pour chaque action ou industrie spécifique, ce qui révèle plus d’informations spécifiques aux actions et à l’industrie », a déclaré Zhu.

Pour développer leurs modèles, les chercheurs ont récupéré un corpus massif d’articles d’actualité financière en ligne de 2013 à 2019 et l’ont alimenté dans leur algorithme, qui a commencé à cartographier des actifs et des mots particuliers associés à des actions et des industries spécifiques. Avec une carte linguistique optimisée pour l’IA en main, les chercheurs avaient plus d’informations sur les actifs et les mots spécifiques à prendre en compte.

En utilisant cette méthode, l’équipe a développé deux modèles distincts. Le modèle News Embedding UMAP Sparse Selection (NEUSS) prédit les rendements des actions individuelles, et le modèle News Sparse Encoder with Rationale (INSER) identifie les mots importants pour chaque industrie spécifique avant de les utiliser pour prédire les rendements de l’industrie avec plus de précision.

Par exemple, le modèle NEUSS peut conclure des nouvelles financières qu’un fonds négocié en bourse qui suit le secteur de la fabrication de semi-conducteurs est utile pour prédire les rendements des actions d’une entreprise technologique spécifique, mais peut ne pas être utile pour prédire les rendements d’autres actions dans, disons, au détail ou en gros. Le modèle INSER peut retenir le mot « usine » comme important pour l’industrie de l’énergie, mais ce mot peut ne pas être pertinent pour d’autres industries comme les médias sociaux.

La stratégie hybride et interprétable a fonctionné. Le modèle NEUSS a battu la référence prédictive traditionnelle – appelée modèle Fama-French à 5 facteurs – de 50 %, tandis que le modèle INSER a battu la référence (sans informations spécifiques à l’industrie) de 10 %.

L’utilisation d’algorithmes avancés d’apprentissage automatique avec différents types de données contribue à révolutionner le domaine de la finance, ont déclaré Zhu et Wells.

« Je pense que la révolution de l’IA dans la finance est déjà là », a déclaré Zhu, « et ce document fait avancer un aspect de cette révolution. »