L'analyse vocale de l'IA peut aider à évaluer et à prévenir les suicides potentiels, selon un chercheur

La parole est essentielle pour détecter les idées suicidaires et constitue une clé pour comprendre l’état mental et émotionnel des personnes qui en font l’expérience. Les conseillers de la hotline anti-suicide sont formés pour analyser rapidement les variations de discours afin de mieux aider les appelants à traverser une crise.

Mais tout comme aucun système n'est parfait, il existe une marge d'erreur dans l'interprétation du discours de l'appelant. Afin d'aider les conseillers de la ligne d'assistance à évaluer correctement l'état de l'appelant, Concordia Ph.D. L'étudiant Alaa Nfissi a développé un modèle de reconnaissance des émotions vocales (SER) à l'aide d'outils d'intelligence artificielle. Le modèle analyse et code les modulations de forme d'onde dans la voix des appelants. Ce modèle, dit-il, peut conduire à une amélioration des performances des intervenants dans la surveillance réelle du suicide.

La recherche est publiée dans le cadre du 18e Conférence internationale de l'IEEE 2024 sur l'informatique sémantique (ICSC).

« Traditionnellement, le SER était effectué manuellement par des psychologues qualifiés qui annotaient les signaux vocaux, ce qui nécessite beaucoup de temps et d'expertise », explique-t-il. « Notre modèle d'apprentissage profond extrait automatiquement les caractéristiques vocales pertinentes pour la reconnaissance des émotions. »

Nfissi est membre du Centre de recherche et d'intervention sur le suicide, les enjeux éthiques et les pratiques de fin de vie (CRISE). Son article a été présenté pour la première fois en février 2024 lors de la 18e conférence internationale de l'IEEE sur l'informatique sémantique en Californie, où il a reçu le prix du meilleur article étudiant.

Lectures émotionnelles instantanées

Pour construire son modèle, Nfissi a utilisé une base de données d’appels réels passés aux lignes d’assistance téléphonique contre le suicide, qui ont été fusionnées avec une base de données d’enregistrements d’un large éventail d’acteurs exprimant des émotions particulières. Les deux séries d'enregistrements ont été segmentées et annotées par des chercheurs qualifiés ou par les acteurs qui avaient doublé les enregistrements, selon un protocole adapté à cette tâche.

Chaque segment a été annoté pour refléter un état d’esprit spécifique : en colère, neutre, triste ou craintif/inquiet/inquiet. Les enregistrements des acteurs ont amélioré la couverture émotionnelle de l'ensemble de données d'origine, dans lequel les états de colère et de peur/inquiétude/inquiétude étaient sous-représentés.

Le modèle d'apprentissage profond de Nfissi a ensuite analysé les données à l'aide d'un réseau neuronal et d'unités récurrentes fermées. Ces architectures d'apprentissage en profondeur sont utilisées pour traiter des séquences de données qui extraient des fonctionnalités locales et dépendantes du temps.

« Cette méthode transmet les émotions à travers un processus temporel, ce qui signifie que nous pouvons détecter les émotions par ce qui s'est passé avant un instant donné. Nous avons une idée de ce qui s'est passé et de ce qui s'est passé avant, et cela nous permet de mieux détecter l'état émotionnel à un moment donné. « .

Ce modèle améliore les architectures existantes, selon Nfissi. Les modèles plus anciens exigeaient que les segments aient la même longueur pour être traités, généralement entre cinq et six secondes. Son modèle utilise des signaux de gestion de longueur variable, qui peuvent traiter différents segments temporels sans nécessiter de fonctionnalités artisanales.

Les résultats ont validé le modèle de Nfissi. Il a reconnu avec précision les quatre émotions dans l’ensemble de données fusionnées. Il a correctement identifié la peur/l’inquiétude/l’inquiétude dans 82 % des cas ; neutre, 78 % ; triste, 77 % ; et en colère, 72 % du temps.

Le modèle s'est révélé particulièrement apte à identifier correctement les segments enregistrés par des professionnels, avec des taux de réussite compris entre 78 % pour les segments tristes et 100 % pour les segments en colère.

Ce travail est personnel à Nfissi, qui a dû étudier en profondeur l’intervention en cas de suicide lors du développement du modèle.

« Beaucoup de ces personnes souffrent, et parfois une simple intervention d'un conseiller peut être très utile. Cependant, tous les conseillers ne sont pas formés de la même manière, et certains peuvent avoir besoin de plus de temps pour traiter et comprendre les émotions de l'appelant. »

Il espère que son modèle pourra être utilisé pour développer un tableau de bord en temps réel que les conseillers pourront utiliser lorsqu'ils parlent à des appelants émotionnels afin de les aider à choisir la stratégie d'intervention appropriée.

« Nous espérons que cela garantira que l'intervention les aidera et, à terme, empêchera un suicide. »

Le professeur Nizar Bouguila de l'Institut Concordia d'ingénierie et de systèmes d'information a co-écrit l'article, avec Wassim Bouachir de l'Université TÉLUQ et CRISE et Brian Mishara de l'UQÀM et CRISE.