Le chercheur développe «SpeechSSM»
Récemment, les modèles de langue parlée (SLM) ont été mis en évidence comme une technologie de nouvelle génération qui dépasse les limites des modèles de langage textuel en apprenant la parole humaine sans texte pour comprendre et générer des informations linguistiques et non linguistiques.
Cependant, les modèles existants montrent des limites importantes dans la génération de contenu de longue durée requis pour les podcasts, les livres audio et les assistants vocaux.
doctorat Le candidat, Sejin Park, de l'équipe de recherche du professeur Yong Man Ro à l'école de génie électrique de l'Institut des sciences et de la technologie (KAIST), a réussi à surmonter ces limitations en développant «SpeechSSM», qui permet une génération de discours cohérente et naturelle sans contraintes de temps.
Le travail a été publié sur le arxiv Préprint Server et devrait être présenté à ICML (Conférence internationale sur l'apprentissage automatique) 2025.
Un avantage majeur des SLM est leur capacité à traiter directement la parole sans conversion de texte intermédiaire, en tirant parti des caractéristiques acoustiques uniques des locuteurs humains, permettant la génération rapide de discours de haute qualité même dans des modèles à grande échelle.
Cependant, les modèles existants ont été confrontés à des difficultés à maintenir la cohérence sémantique et des haut-parleurs pour une parole de longue durée en raison de l'augmentation de la « résolution de jetons de la parole » et de la consommation de mémoire lors de la capture d'informations très détaillées en décomposant la parole en fragments fins.
SpeechSSM utilise une « structure hybride » qui place alternativement « les couches d'attention » en se concentrant sur les informations récentes et les « couches récurrentes » qui se souviennent du flux narratif global (contexte à long terme). Cela permet à l'histoire de s'écouler sans perdre la cohérence même lors de la génération de la parole pendant longtemps.
De plus, l'utilisation de la mémoire et la charge de calcul n'augmentent pas fortement avec la longueur d'entrée, permettant un apprentissage stable et efficace et la génération de discours de longue durée.
SpeechSSM traite efficacement les séquences de parole illimitées en divisant les données de la parole en unités courtes et fixes (Windows), en traitant chaque unité indépendamment, puis en les combinant pour créer une longue parole.
De plus, dans la phase de génération de la parole, il utilise un modèle de synthèse audio « non autorégressif » (Soundstorm), qui génère rapidement plusieurs parties à la fois au lieu de créer lentement un caractère ou un mot à la fois, permettant la génération rapide de discours de haute qualité.
Alors que les modèles existants ont généralement évalué les modèles de discours courts d'environ 10 secondes, SE Jin Park a créé de nouvelles tâches d'évaluation pour la génération de la parole en fonction de leur ensemble de données de référence auto-construit, « Librispeech-Long », capable de générer jusqu'à 16 minutes de discours.
Par rapport à PPL (perplexité), une métrique d'évaluation du modèle de parole existant qui n'indique que l'exactitude grammaticale, elle a proposé de nouvelles mesures d'évaluation telles que « SC-L (cohérence sémantique au fil du temps) » pour évaluer la cohérence du contenu au fil du temps, et « N-MOS-T (le score d'opinion moyen du naturel) » pour évaluer le naturalité au fil du temps, permettant une évaluation plus efficace et précise.
Grâce à ces nouvelles évaluations, il a été confirmé que la parole générée par le modèle de langage parlé SpeechSSM présentait systématiquement des individus spécifiques mentionnés dans l'invite initiale, et de nouveaux personnages et événements se sont déroulés naturellement et contextuellement de manière cohérente, malgré la génération de longue durée.
Cela contraste fortement avec les modèles existants, qui avaient tendance à perdre facilement leur sujet et à présenter une répétition pendant la génération de longue durée.
Sejin Park a expliqué: « Les modèles de langue parlée existants avaient des limites de génération de longue durée, notre objectif était donc de développer un modèle de langue parlée capable de générer une parole de longue durée pour une utilisation humaine réelle. »
Elle a ajouté: « Cette réalisation de la recherche devrait contribuer considérablement à divers types de création de contenu vocal et de champs d'IA vocaux comme les assistants vocaux, en maintenant un contenu cohérent dans de longs contextes et en répondant plus efficacement et rapidement en temps réel que les méthodes existantes. »
Cette recherche, avec Se Jin Park en tant que premier auteur, a été menée en collaboration avec Google Deepmind.