Les chercheurs développent une application d’IA pour aider les utilisateurs à la parole de la parole à communiquer plus naturellement
Plus de 250 millions de personnes dans le monde ont des troubles de communication verbale qui rendent difficile l’utilisation de programmes de reconnaissance vocale automatiques. Partager simplement ce qu’ils aimeraient manger pour le dîner en utilisant ASR est lourde.
Le résultat ressort d’une voix audio générique qui ne reflète pas l’humeur de l’orateur. Et comme la voix humaine est si étroitement liée à l’identité, lorsqu’un outil de communication ressemble à une machine ou ne fonctionne pas du tout, l’utilisateur peut craindre que sa personnalité soit mal interprétée.
Les chercheurs de la Northeastern University s’efforcent de changer cela. Les professeurs d’informatique Aanchan Mohan et Mirjana PRPA développent une application intégrée à l’IA qui donnera aux utilisateurs de la parole accès à une gamme d’outils de communication sur leur téléphone: reconnaissance de la parole, texte, sélection des mots entiers, emojis et synthèse de texte à parole personnalisée.
« Les gens utilisent la reconnaissance de la parole de manière isolée, soit ils utilisent du texte vocale isolément, ou ils tapent isolément », a déclaré Mohan. « Personne n’avait assemblé les trois. »
Ils appellent l’application parler facilité. En utilisant de grands modèles de langage pour prédire les prochaines phrases d’un utilisateur, l’application facilitera que les personnes atteintes de troubles de la communication l’inverse en temps réel. Mais ce qui le rend différent des autres logiciels de reconnaissance vocale automatiques, c’est qu’il permettra aux utilisateurs de communiquer dans leurs propres voix avec l’expression de l’humeur spécifique qu’ils choisissent.
« L’expressivité est toujours sur un brûleur arrière parce que tout le monde essaie de résoudre le problème de vitesse », a déclaré PRPA. « Très peu de recherches se sont concentrées sur la résolution du problème de savoir si le discours a été ce qui sonne comme l’utilisateur aimerait sonner. »
Le logiciel que Mohan et PRPA construisent va au-delà de la reconnaissance automatique de la parole et entrent dans la catégorie des logiciels de communication augmentative et alternative, qui met l’accent sur la sensibilisation au contexte et l’authenticité à mesure que les utilisateurs parlent et tapent. Les transcriptions peuvent être modifiées pour corriger les erreurs, et l’application suggère des phrases contextuellement pertinentes avec un ton émotionnel suggéré par l’IA.
Mohan et PRPA ont présenté un article et une vidéo sur l’application en août à Intelleech, une conférence sur la science et la technologie du traitement parlé du langage.
La PRPA, dont la recherche se concentre sur les interactions humaines-ordinateur, et Mohan, qui travaille sur le traitement du langage naturel, sont basés sur le campus de Vancouver de Northeastern.
« Nous avons réalisé qu’il pourrait y avoir beaucoup de potentiel pour tirer parti de grands modèles de langue pour aider les personnes qui ont des défis de communication », a déclaré PRPA.
Ils développent l’application avec l’aide de l’orthophonie, qui ont souligné que les utilisateurs voulaient des outils numériques qui soulignent l’expressivité et pas seulement la vitesse. Grâce à des évaluations de groupes de discussion, ils ont identifié des moyens de dire que la facilité peut améliorer l’expressivité en donnant aux utilisateurs plus de moyens de personnaliser la communication.
Mohan et PRPA ont travaillé avec une agence partenaire en Colombie-Britannique, Aide à la communication pour les jeunes et les adultes, dont l’orthophonie a fourni des commentaires dans le développement de l’application.
En utilisant des échantillons de la voix d’un utilisateur, l’application pourra éventuellement convertir la parole atypique en une version plus intelligible. Un utilisateur qui souhaite composer un message à son père d’un ton heureux, par exemple, peut utiliser le « mode Speak » de l’application pour créer une transcription, qu’il peut modifier et lire dans sa propre voix à l’aide du logiciel de texte vocal.
Les fonctionnalités du modèle de langue des grandes langues de l’application utiliseront des conversations passées entre l’utilisateur et leur père pour suggérer des mots et des phrases pertinents. Et les utilisateurs peuvent sélectionner parmi les choix de l’interface pour choisir une humeur pour le message.
« Ce que nous recherchons dans notre application, c’est que lorsque je parle à maman ou à quelqu’un dans ma famille, je pourrais vouloir sembler très différent de celle quand je parle à l’école », a déclaré PRPA.
Des échantillons de discours préservés rendraient l’application utile pour une personne ayant une condition dégénérative, a déclaré PRPA, qui altère sa capacité à communiquer. Au fur et à mesure que leur capacité se détériore, ils peuvent utiliser l’application pour continuer à « parler » comme ils l’intention. La même caractéristique pourrait être utilisée dans le contexte opposé, pour quelqu’un qui se remet d’un accident vasculaire cérébral. Speak Factive pourrait soutenir une personne lorsqu’elle gagne la capacité de parler à nouveau.
En plus d’ajouter l’expressivité, l’application est destinée à donner une clarté. Un exemple du moment où cela pourrait être utile est une visite au cabinet du médecin. Certaines personnes ayant des difficultés de parole ont du mal à être comprise par des professionnels de la santé.
« Disons qu’un individu atteint du syndrome de Down décrit une condition », a déclaré Mohan. « Les gens ont tendance à être polis, laissez la personne terminer et dire: » Pouvez-vous répéter cela, non? » Ce qui signifie qu’ils ne comprenaient pas. «
Speak Ease aidera dans ces situations en fournissant une transcription en temps réel qui peut être corrigée et lue à haute voix, à la fois clarifier les questions dans le moment et le faire dans la propre voix de l’orateur.
Mohan reconnaît qu’il s’agit d’un défi technique.
« L’intention est de pouvoir capturer ce qui a été transcrit par rapport à ce qui est finalement composé, de prendre la différence entre les deux et de l’utiliser pour signaler le système », a-t-il déclaré.