Décalage temporel pour la reconnaissance des émotions dans la parole
Les humains peuvent deviner ce que ressent une personne à l’autre bout d’un fil en fonction de la façon dont elle parle et de ce qu’elle dit. La reconnaissance des émotions par la parole est la version de cette capacité issue de l’intelligence artificielle. Cherchant à résoudre le problème de l’alignement des canaux dans les applications de reconnaissance des émotions par la parole en aval, un groupe de recherche de l’Université normale de Chine orientale à Shanghai a développé un module de décalage temporel qui surpasse les méthodes de pointe dans les scénarios de réglage fin et d’extraction de caractéristiques.
Les recherches du groupe ont été publiées le 21 février dans Informatique intelligente.
Selon les auteurs, « cet enrichissement architectural améliore les performances sans imposer de charges de calcul ». Ils ont introduit trois modèles de décalage temporel avec des architectures différentes : un réseau neuronal convolutionnel, un transformateur et un réseau neuronal récurrent à mémoire à court terme.
Des expériences ont comparé ces modèles de décalage temporel aux modèles existants sur le grand ensemble de données de référence IEMOCAP et ont révélé qu'ils étaient généralement plus précis, en particulier dans le scénario de réglage fin. Les modèles de décalage temporel ont également obtenu de bons résultats dans l'extraction de caractéristiques lors de l'utilisation d'une couche de somme pondérée pouvant être entraînée.
De plus, les modèles de décalage temporel ont surpassé les modèles de référence sur trois petits ensembles de données, RAVDESS, SAVEE et CASIA. De plus, le décalage temporel, en tant que module réseau, surpasse le type d'opérations de décalage courantes qui ont été utilisées pour l'augmentation des données.
Le nouveau module de décalage temporel permet d'obtenir de meilleures performances en permettant le mélange des caractéristiques passées, présentes et futures. Bien que ce mélange soit bénéfique pour la précision, il peut également entraîner un désalignement, ce qui nuit à la précision.
Les auteurs ont utilisé deux stratégies pour résoudre ce compromis : le contrôle de la proportion de décalage et la sélection du placement du décalage. Les modèles ont été testés avec une moitié, un quart, un huitième et un seizième de tous les canaux décalés ; une proportion plus importante permet un plus grand mélange mais provoque plus de désalignement. Deux modèles de placement différents ont été testés : le décalage résiduel, dans lequel le module de décalage temporel est situé sur une branche du réseau et préserve ainsi les données non décalées aux côtés des données décalées, et le décalage en place, qui décale toutes les données.
Après avoir étudié la proportion de décalage et le placement du décalage, les auteurs ont choisi les variantes les plus performantes pour chacune des trois architectures pour mener des expériences sur les modèles de pointe en matière de réglage fin et d'extraction de fonctionnalités.
Les méthodes de reconnaissance des émotions vocales existantes qui s’appuient sur des architectures de réseaux neuronaux profonds sont efficaces, mais elles sont confrontées au défi de la saturation de la précision. En d’autres termes, leur précision n’augmente pas avec l’augmentation progressive de la taille du réseau. Un élément clé du problème est que les informations de canal et les informations temporelles ne sont pas traitées indépendamment.
Les travaux futurs pourront étudier l'influence de l'échelle de l'ensemble de données et de la complexité du modèle en aval sur la précision. D'autres tâches en aval, telles que la classification audio, méritent une analyse quantitative. De plus, il serait avantageux de rendre les paramètres des futures versions du modèle de décalage temporel apprenables pour permettre une optimisation automatique.