Le professeur discute du grand modèle de langage inspiré de ChatGPT conçu pour le secteur financier
Il y a d’abord eu ChatGPT, un modèle d’intelligence artificielle avec une capacité apparemment étrange à imiter le langage humain. Maintenant, il y a le BloombergGPT créé par Bloomberg, le premier grand modèle de langage conçu spécifiquement pour le secteur financier.
Comme ChatGPT et d’autres modèles de langage populaires récemment introduits, ce nouveau système d’IA peut écrire un texte de qualité humaine, répondre à des questions et effectuer une gamme de tâches, ce qui lui permet de prendre en charge un ensemble diversifié de tâches de traitement du langage naturel uniques au secteur financier.
Mark Dredze, professeur agrégé d’informatique à la Whiting School of Engineering de l’Université Johns Hopkins et chercheur invité à Bloomberg, faisait partie de l’équipe qui l’a créé. Dredze est également le premier directeur de recherche (Foundations of AI) de la nouvelle AI-X Foundry de Johns Hopkins.
Le Hub s’est entretenu avec Dredze de BloombergGPT et de ses implications plus larges pour la recherche sur l’IA à Johns Hopkins.
Quels étaient les objectifs du projet BloombergGPT ?
Beaucoup de gens ont vu ChatGPT et d’autres grands modèles de langage, qui sont de nouvelles technologies d’intelligence artificielle impressionnantes avec d’énormes capacités pour traiter le langage et répondre aux demandes des gens. Le potentiel de ces modèles à transformer la société est clair. À ce jour, la plupart des modèles se concentrent sur des cas d’utilisation à usage général. Cependant, nous avons également besoin de modèles spécifiques à un domaine qui comprennent les complexités et les nuances d’un domaine particulier. Bien que ChatGPT soit impressionnant pour de nombreuses utilisations, nous avons besoin de modèles spécialisés pour la médecine, la science et de nombreux autres domaines. On ne sait pas quelle est la meilleure stratégie pour construire ces modèles.
En collaboration avec Bloomberg, nous avons exploré cette question en construisant un modèle de langue anglaise pour le domaine financier. Nous avons adopté une nouvelle approche et construit un ensemble de données massif de textes liés à la finance et l’avons combiné avec un ensemble de données tout aussi volumineux de texte à usage général. L’ensemble de données résultant était d’environ 700 milliards de jetons, soit environ 30 fois la taille de tout le texte de Wikipédia.
Nous avons formé un nouveau modèle sur cet ensemble de données combiné et l’avons testé sur une gamme de tâches linguistiques sur des documents financiers. Nous avons constaté que BloombergGPT surpasse – par de larges marges – les modèles existants de taille similaire sur les tâches financières. Étonnamment, le modèle a toujours fonctionné au même niveau que les benchmarks à usage général, même si nous avions pour objectif de créer un modèle spécifique à un domaine.
Pourquoi la finance a-t-elle besoin de son propre modèle de langage ?
Alors que les progrès récents des modèles d’IA ont démontré de nouvelles applications passionnantes pour de nombreux domaines, la complexité et la terminologie unique du domaine financier justifient un modèle spécifique au domaine. Ce n’est pas sans rappeler d’autres domaines spécialisés, comme la médecine, qui contiennent un vocabulaire que vous ne voyez pas dans un texte à usage général. Un modèle spécifique à la finance pourra améliorer les tâches PNL financières existantes, telles que l’analyse des sentiments, la reconnaissance des entités nommées, la classification des actualités et la réponse aux questions, entre autres. Cependant, nous nous attendons également à ce que les modèles spécifiques à un domaine débloquent de nouvelles opportunités.
Par exemple, nous envisageons que BloombergGPT transforme les requêtes en langage naturel des professionnels de la finance en langage de requête Bloomberg valide, ou BQL, un outil incroyablement puissant qui permet aux professionnels de la finance d’identifier et d’interagir rapidement avec des données sur différentes catégories de titres. Donc, si l’utilisateur demande « Obtenez-moi le dernier prix et la dernière capitalisation boursière pour Apple », le système renverra get(px_last,cur_mkt_cap) for([« AAPL US Equity’]). Cette chaîne de code leur permettra d’importer rapidement et facilement les données résultantes dans des outils de science des données et de gestion de portefeuille.
Qu’avez-vous appris en construisant le nouveau modèle ?
Construire ces modèles n’est pas facile, et il y a énormément de détails dont vous avez besoin pour les faire fonctionner. Nous avons beaucoup appris en lisant des articles d’autres groupes de recherche qui ont construit des modèles de langage. Pour contribuer à la communauté, nous avons rédigé un article de plus de 70 pages détaillant la manière dont nous avons construit notre ensemble de données, les choix qui ont été effectués dans l’architecture du modèle, la manière dont nous avons formé le modèle et une évaluation approfondie du modèle résultant. Nous avons également publié des « chroniques de formation » détaillées qui contiennent une description narrative du processus de formation du modèle. Notre objectif est d’être aussi ouvert que possible sur la façon dont nous avons construit le modèle pour soutenir d’autres groupes de recherche qui pourraient chercher à construire leurs propres modèles.
Quel était votre rôle ?
Ce travail est le fruit d’une collaboration entre l’équipe d’ingénierie IA de Bloomberg et le groupe ML Product and Research du bureau principal de la technologie de l’entreprise, où je suis chercheur invité. Il s’agissait d’un effort intensif, au cours duquel nous avons régulièrement discuté des données et des décisions relatives au modèle, et procédé à des évaluations détaillées du modèle. Ensemble, nous avons lu tous les articles que nous pouvions trouver sur ce sujet pour obtenir des informations sur d’autres groupes, et nous avons pris des décisions fréquentes ensemble.
L’expérience de regarder le modèle s’entraîner pendant des semaines est intense, car nous avons examiné plusieurs mesures du modèle pour mieux comprendre si la formation du modèle fonctionnait. L’assemblage de l’évaluation approfondie et du document lui-même a été un énorme travail d’équipe. Je me sens privilégié d’avoir fait partie de ce groupe fantastique.