L'IA générative nous rapproche de l'automatisation de l'expertise en investissement
Les grands modèles de langage (LLM) tels que ChatGPT et Google Gemini sont particulièrement efficaces lorsqu’ils sont formés sur de grands ensembles de données pour générer des réponses informatives aux questions. Yi Cao, professeur adjoint de comptabilité au Donald G. Costello College of Business de l’université George Mason, et Long Chen, professeur associé et président du département de comptabilité à Costello, étudient activement la manière dont les investisseurs individuels peuvent utiliser les LLM pour glaner des informations sur le marché à partir de l’éventail vertigineux de données disponibles sur les entreprises.
Leur nouveau document de travail, paru dans Journal électronique SSRN et co-écrit avec Jennifer Wu Tucker de l'Université de Floride et Chi Wan de l'Université du Massachusetts à Boston, examine la capacité de l'IA à identifier les « entreprises homologues » ou les concurrents du marché des produits dans une industrie.
Cao explique l'importance de la sélection des pairs en reliant ce processus au marché immobilier. « Le marché des capitaux est similaire au marché immobilier dans la mesure où la valeur d'une entreprise est en partie déterminée par la valeur de ses pairs. Sur le marché immobilier, nous évaluons le prix d'une maison en fonction de la valeur des propriétés comparables dans le quartier, ou ce que l'on appelle les « comparables ». Dans notre article, nous cherchons à exploiter la puissance des LLM pour identifier les comparables afin d'évaluer la valeur de l'entreprise. »
Cette tâche est au moins aussi difficile qu’essentielle. Il faut beaucoup de temps, de compétences et d’efforts pour rassembler, agréger et gérer les données afin de sélectionner des pairs. Cependant, les chercheurs ont estimé que les LLM pourraient effectuer une grande partie du travail d’agrégation et d’analyse des données pour les investisseurs individuels et produire une liste de pairs comparable en termes de validité à celle identifiée par des experts humains.
« L’avantage réside dans la capacité à utiliser toutes les informations potentiellement disponibles afin qu’elles soient au moins aussi performantes que d’autres méthodes traditionnelles qui peuvent nous aider, en tant qu’investisseurs et chercheurs », explique Cao.
Pour l'étude, Chen et Cao ont utilisé Bard de Google, désormais connu sous le nom de « Gemini », comme LLM de leur choix car « Bard a une plus grande capacité à utiliser ses données de pré-formation, qui sont sans doute plus grandes que celles de ChatGPT et avec plus de paramètres », explique Cao.
Après avoir défini la « concurrence sur le marché des produits » et formulé une invite pour Bard, les chercheurs ont demandé à Bard de limiter son bassin de connaissances à une année spécifique dans la période 1981-2023, afin d'éviter un « biais d'anticipation », c'est-à-dire des informations futures brouillant les résultats.
Ils ont limité les entreprises cibles aux grandes sociétés cotées en bourse, car il existe moins de données sur les entreprises plus petites ou privées. Au total, l'ensemble de données comprenait plus de 300 000 années-entreprises cibles.
En moyenne, le LLM pourrait générer environ sept entreprises homologues pour une entreprise cible, un nombre similaire aux recommandations de la SEC sur la manière dont les entreprises devraient divulguer leurs segments.
Les chercheurs ont ensuite comparé les performances du LLM à celles des listes générées par trois experts humains pour un ensemble de 40 grandes sociétés de logiciels informatiques. Le chevauchement moyen était d'un peu plus de 40 %, soit plus que prévu.
Ils ont également comparé les listes de pairs identifiées par l'IA à deux systèmes alternatifs d'identification des pairs : les codes de la Classification industrielle standard (SIC) du gouvernement fédéral et la Classification industrielle des réseaux basée sur le texte (TNIC), qui compare les entreprises en fonction des similitudes linguistiques dans leurs dépôts 10-K. Les résultats du LLM se chevauchaient considérablement avec ceux du TNIC. De plus, les pairs identifiés par le LLM étaient généralement plus adaptés que ceux du SIC et du TNIC, car leurs rendements boursiers mensuels se rapprochaient de l'entreprise cible.
Mais le TNIC a surpassé le LLM en identifiant les pairs pour les entreprises de taille moyenne au sein de l'échantillon, ce qui indique qu'il ne s'agit pas d'un cas clair de supériorité universelle du LLM.
« Nous devons comprendre que les LLM sont en réalité un outil très puissant et nouveau, inégalé en termes d’efficacité, de capacité à traiter de vastes quantités d’informations à faible coût et d’accessibilité au grand public », note Cao.
« C'est particulièrement avantageux pour les investisseurs individuels, car toutes les préoccupations en matière de coûts dont nous parlons sont particulièrement pertinentes pour eux », ajoute Chen.
Concernant l'avenir du LLM, Chen déclare : « L'utilisation de l'IA générative comporte toujours des coûts et des avantages. Il n'est pas certain que les systèmes actuels soient bientôt obsolètes. » Interrogé sur l'adoption par la SEC d'un outil d'IA pour les investisseurs, Chen souligne que les utilisateurs doivent comprendre les avantages et les inconvénients de l'utilisation de l'IA pour prendre des décisions éclairées « car l'IA ne peut être tenue responsable des informations qu'elle fournit ou de la manière dont elle est utilisée. »
Chen conclut : « Nous devons adopter cette nouvelle technologie, mais nous devons reconnaître qu'elle n'est pas encore parfaite. La concurrence pour l'améliorer est féroce. Nos résultats pourraient bien représenter la limite inférieure de l'efficacité de la technologie. »