Des chercheurs en IA présentent un LLM capable de générer des sorties de texte allant jusqu'à 10 000 mots

Des chercheurs en IA présentent un LLM capable de générer des sorties de texte allant jusqu'à 10 000 mots

Une équipe de chercheurs en intelligence artificielle de l'université Tsinghua, en collaboration avec un collègue de Zhipu AI, a développé un modèle de langage étendu (LLM) appelé LongWriter qui, selon eux, est capable de générer une sortie de texte allant jusqu'à 10 000 mots. Le groupe a rédigé un article décrivant leurs efforts et leur nouveau LLM, qui est disponible sur le site arXiv serveur de préimpression.

Les LLM étant devenus monnaie courante, beaucoup ont remarqué qu’ils n’étaient pas capables de produire des réponses très longues, comme des livres entiers ou des manuscrits – la limite actuelle semble être d’environ 2 000 mots. Les chercheurs suggèrent que cela est dû au fait qu’ils sont tous formés sur des documents courts. Dans leur nouvelle initiative, ils ont découvert que si les LLM sont légèrement modifiés puis formés à l’aide de documents beaucoup plus longs, ils sont capables de produire des documents plus longs.

Pour tester leur idée, les équipes de recherche ont d’abord entraîné un LLM de 9 milliards de paramètres à l’aide d’un ensemble de données conventionnel, qui comprenait des documents dont la plupart faisaient moins de 2 000 mots. Comme prévu, lors de l’interrogation, le LLM n’a pas été en mesure de créer des textes de plus de 2 000 mots.

L'équipe a ensuite modifié un LLM traditionnel à l'aide d'un pipeline appelé AgentWrite pour décomposer le matériel de formation en sous-tâches au fur et à mesure de son traitement. Ils ont ensuite assemblé un ensemble de données appelé « LongWriter-6k », qui contient 6 000 documents écrits d'une longueur comprise entre 2 000 et 32 ​​000 mots. Ils ont ensuite formé le LLM modifié à l'aide du nouvel ensemble de données LongWriter-6k et ont découvert que cela augmentait la longueur des documents qu'il pouvait produire à environ 10 000 mots.

En examinant les nouveaux documents longs produits par le LLM, l’équipe a constaté qu’ils étaient cohérents et utilisables dans divers contextes. Ils ont publié le code open source de leur modèle sur GitHub, une initiative qui permettra à d’autres de s’inspirer de ce que l’équipe en Chine a fait. Ils ont également publié une vidéo montrant LongWriter en train de produire un guide touristique de 10 000 mots pour les personnes voyageant en Chine.

Les chercheurs reconnaissent qu’il y a des considérations éthiques qui doivent être prises en compte maintenant qu’il a été découvert que les LLM peuvent générer des articles de recherche entiers, des livres, des manuscrits ou peut-être même des scénarios de films.