Le sarcasme, notoirement difficile à interpréter, démystifié par une approche multimodale
Oscar Wilde a dit un jour que le sarcasme était la forme la plus basse de l'esprit, mais aussi la forme la plus élevée de l'intelligence. Cela est peut-être dû à la difficulté de l’utiliser et de le comprendre. Le sarcasme est notoirement difficile à transmettre par texte : même en personne, il peut être facilement mal interprété. Les changements subtils de ton qui véhiculent le sarcasme confondent également souvent les algorithmes informatiques, limitant les assistants virtuels et les outils d'analyse de contenu.
Xiyuan Gao, Shekhar Nayak et Matt Coler du Speech Technology Lab de l'Université de Groningen, Campus Fryslân ont développé un algorithme multimodal pour une détection améliorée du sarcasme qui examine plusieurs aspects des enregistrements audio pour une précision accrue. Gao a présenté son travail le 16 mai, lors d'une réunion conjointe de l'Acoustical Society of America et de l'Association canadienne d'acoustique, qui s'est tenue du 13 au 17 mai au Centre Shaw situé au centre-ville d'Ottawa, Ontario, Canada.
Les algorithmes traditionnels de détection du sarcasme s’appuient souvent sur un seul paramètre pour produire leurs résultats, ce qui est la principale raison pour laquelle ils échouent souvent. Gao, Nayak et Coler ont plutôt utilisé deux approches complémentaires : l'analyse des sentiments à l'aide du texte et la reconnaissance des émotions à l'aide de l'audio pour obtenir une image plus complète.
« Nous avons extrait les paramètres acoustiques tels que la hauteur, la vitesse de parole et l'énergie de la parole, puis avons utilisé la reconnaissance automatique de la parole pour transcrire la parole en texte à des fins d'analyse des sentiments », a déclaré Gao.
« Ensuite, nous avons attribué des émoticônes à chaque segment de parole, reflétant son contenu émotionnel. En intégrant ces signaux multimodaux dans un algorithme d'apprentissage automatique, notre approche exploite les atouts combinés des informations auditives et textuelles ainsi que des émoticônes pour une analyse complète. »
L’équipe est optimiste quant aux performances de son algorithme, mais elle cherche déjà des moyens de l’améliorer encore.
« Il existe toute une gamme d'expressions et de gestes que les gens utilisent pour mettre en évidence les éléments sarcastiques dans un discours », a expliqué Gao. « Ceux-ci doivent être mieux intégrés dans notre projet. De plus, nous aimerions inclure davantage de langues et adopter des techniques de reconnaissance des sarcasmes en développement. »
Cette approche peut être utilisée pour bien plus que l’identification d’un esprit sec. Les chercheurs soulignent que cette technique peut être largement appliquée dans de nombreux domaines.
« Le développement de la technologie de reconnaissance du sarcasme peut bénéficier à d'autres domaines de recherche en utilisant l'analyse des sentiments et la reconnaissance des émotions », a déclaré Gao.
« Traditionnellement, l'analyse des sentiments se concentre principalement sur le texte et est développée pour des applications telles que la détection des discours de haine en ligne et l'exploration des opinions des clients. La reconnaissance des émotions basée sur la parole peut être appliquée aux soins de santé assistés par l'IA. La technologie de reconnaissance des sarcasmes qui applique une approche multimodale est perspicace. à ces domaines de recherche.