Une base de données linguistique améliore la reconnaissance vocale automatique de l'allemand autrichien
Les locuteurs de langue seconde qui arrivent en Autriche avec une bonne connaissance de l'allemand ont généralement du mal à comprendre les dialectes locaux. De même, les systèmes de reconnaissance vocale ne parviennent souvent pas à décoder le choix et la prononciation des mots avec un accent régional.
Barbara Schuppler du laboratoire de traitement du signal et de communication vocale de l'université technologique de Graz (TU Graz), en collaboration avec des chercheurs du Know Center et de l'université de Graz, a étudié la complexité de la parole conversationnelle et a constitué une base de données de conversations en allemand autrichien. et acquis de nouvelles connaissances sur la manière d'améliorer la reconnaissance vocale.
Les résultats ont été récemment publiés dans l'article « Qu'est-ce qui est si complexe dans le discours conversationnel ? Une comparaison des architectures ASR basées sur HMM et basées sur des transformateurs » dans la revue Parole et langage informatique.
Conversations fluides dans le studio d'enregistrement
L'un des principaux objectifs du projet était d'améliorer la précision des systèmes de reconnaissance automatique de la parole (ASR) dans les conversations spontanées avec des locuteurs autrichiens. L’équipe s’est concentrée sur les défis posés par la spontanéité, les phrases courtes, les locuteurs qui se chevauchent et l’accent dialectal dans les conversations quotidiennes.
Afin de disposer d'une base de données adaptée, les chercheurs ont mis en place la base de données GRASS (Graz corpus of read and spontané Speech). Il contient des enregistrements de 38 locuteurs, qui comprennent à la fois des textes lus et des conversations spontanées au cours desquelles deux personnes qui se connaissaient bien parlaient librement pendant une heure dans le studio d'enregistrement sans qu'on leur donne de sujet.
Étant donné que les mêmes locuteurs ont été enregistrés dans les deux styles de parole, l’équipe de recherche a pu éliminer l’influence de l’identité du locuteur et de la qualité d’enregistrement sur les performances ASR.
Sur la base de la base de données, l'équipe a comparé diverses architectures ASR, y compris les modèles HMM (modèles de Markov cachés) établis de longue date et les modèles relativement nouveaux basés sur des transformateurs. Cela a montré que les modèles basés sur des transformateurs, tels que le système de reconnaissance vocale Whisper, fonctionnent très bien pour les phrases plus longues avec beaucoup de contexte, mais rencontrent des problèmes avec les phrases courtes et fragmentaires qui surviennent fréquemment dans les conversations.
Les systèmes traditionnels basés sur HMM, explicitement entraînés avec des variations de prononciation, se sont révélés plus robustes pour les phrases courtes et le langage dialectal. Les chercheurs souhaitent donc poursuivre une approche système hybride combinant les atouts des deux architectures. Ils ont déjà combiné un modèle de transformateur avec un lexique basé sur la connaissance et un modèle de langage statistique, obtenant ainsi des améliorations significatives.
Utilisation possible dans le diagnostic médical
L’équipe a également analysé comment des caractéristiques telles que le débit de parole, l’intonation et le choix des mots influencent la précision de la reconnaissance vocale. Ces résultats peuvent contribuer au développement de systèmes ASR capables de mieux comprendre la parole humaine dans toutes ses nuances.
L'équipe prévoit de poursuivre les recherches dans ces domaines et d'intégrer les résultats dans le développement de nouveaux systèmes de reconnaissance vocale plus robustes. Cependant, les résultats du projet ont également des applications potentielles intéressantes au-delà, notamment dans les domaines du diagnostic médical et de l'interaction homme-machine.
À l’avenir, les systèmes ASR pourraient être utilisés pour reconnaître la démence ou l’épilepsie sur la base de modèles de parole lors de conversations spontanées ou pour rendre l’interaction avec des robots sociaux plus naturelle.
« Le discours spontané, en particulier dans le dialogue, présente des caractéristiques complètement différentes de celles d'un discours récité ou lu », explique Schuppler. « En analysant en particulier la communication entre humains, nous avons obtenu dans notre projet des découvertes importantes qui nous aident également sur le plan technique et ouvrent de nouveaux domaines d'application.
« En collaboration avec des partenaires du PMU Salzbourg, de Med Uni Graz et de Med Uni Vienna, nous travaillons déjà sur des projets de suivi visant à créer des applications socialement pertinentes basées sur les fondations que nous avons créées dans le cadre du projet du Fonds scientifique autrichien. »