Les erreurs de ChatGPT montrent qu'il ne peut pas encore remplacer les professionnels de la finance
Alors que les grands modèles linguistiques tels que ChatGPT peuvent donner de bons résultats lorsqu'il s'agit de choisir des réponses à choix multiples aux examens de licence financière, ils échouent lorsqu'il s'agit de tâches plus nuancées.
Une étude menée par l'Université de l'État de Washington a analysé plus de 10 000 réponses aux questions d'examen financier à l'aide des modèles linguistiques d'intelligence artificielle BARD, Llama et ChatGPT.
Les chercheurs ont demandé aux modèles non seulement de choisir des réponses, mais également d’expliquer le raisonnement qui les sous-tend, puis ont comparé ces réponses textuelles à celles de professionnels humains. Bien que deux versions de ChatGPT aient été les plus performantes dans ces tâches, elles ont tout de même montré un niveau élevé d'inexactitude avec des sujets plus avancés.
« Il est bien trop tôt pour s'inquiéter du fait que ChatGPT prenne complètement les emplois dans la finance », a déclaré l'auteur de l'étude DJ Fairhurst du Carson College of Business de la WSU. « Pour les concepts généraux pour lesquels il existe de bonnes explications sur Internet depuis longtemps, ChatGPT peut faire un très bon travail de synthèse de ces concepts. S'il s'agit d'un problème spécifique et idiosyncratique, cela va vraiment être difficile. »
Pour cette étude, publiée dans le Journal des analystes financiersFairhurst et le co-auteur Daniel Greene de l'Université de Clemson ont utilisé des questions d'examens de licence, notamment l'examen Securities Industry Essentials ainsi que les séries 6, 7, 65 et 66.
Pour aller au-delà de la capacité des modèles d’IA à simplement choisir la bonne réponse, les chercheurs ont demandé aux modèles de fournir des explications écrites. Ils ont également choisi des questions basées sur des tâches spécifiques que les professionnels de la finance pourraient réellement accomplir.
« Réussir les examens de certification ne suffit pas. Nous devons vraiment creuser plus profondément pour découvrir ce que ces modèles peuvent réellement faire », a déclaré Fairhurst.
De tous les modèles, la version payante de ChatGPT, la version 4.0, est la plus performante, fournissant les réponses les plus similaires à celles des experts humains. Sa précision était également de 18 à 28 points de pourcentage supérieure à celle des autres modèles. Cependant, cela a changé lorsque les chercheurs ont affiné la version gratuite précédente de ChatGPT 3.5, en lui fournissant des exemples de réponses et d'explications correctes.
Après ce réglage, il s'est rapproché de ChatGPT 4.0 en termes de précision et l'a même surpassé en fournissant des réponses similaires à celles des professionnels humains.
Les deux modèles restent toutefois insuffisants lorsqu’il s’agit de certains types de questions. Bien qu'ils aient bien examiné les transactions sur titres et surveillé les tendances des marchés financiers, les modèles ont donné des réponses plus inexactes dans des situations spécialisées telles que la détermination de la couverture d'assurance et du statut fiscal des clients.
Fairhurst et Greene, ainsi que Adam Bozman, doctorant à la WSU, travaillent actuellement sur d'autres moyens de déterminer ce que ChatGPT peut et ne peut pas faire avec un projet qui lui demande d'évaluer des accords de fusion potentiels. Pour cela, ils profitent du fait que ChatGPT est formé sur des données jusqu'en septembre 2021, et utilise des transactions conclues après cette date dont le résultat est connu.
Les résultats préliminaires montrent que jusqu’à présent, le modèle d’IA n’est pas très performant dans cette tâche.
Dans l’ensemble, les chercheurs ont déclaré que ChatGPT est probablement encore mieux utilisé comme outil d’assistance plutôt que comme remplacement d’un professionnel financier établi. D’un autre côté, l’IA pourrait changer la façon dont certaines banques d’investissement emploient des analystes débutants.
« La pratique consistant à recruter un groupe de personnes en tant qu'analystes juniors, à les laisser concourir et à garder les gagnants, cela devient beaucoup plus coûteux », a déclaré Fairhurst.
« Cela peut donc signifier une baisse de ce type d'emplois, mais ce n'est pas parce que ChatGPT est meilleur que les analystes, c'est parce que nous avons demandé à des analystes juniors d'effectuer des tâches plus subalternes. »