Les chercheurs développent une reconnaissance vocale axée sur la vie privée pour les enfants

De la fonction de voix à texte de votre téléphone aux légendes qui rendent les vidéos plus accessibles, la transcription de la parole est déjà tissée dans la vie quotidienne. Dans les coulisses, l'intelligence artificielle fait le gros levage, transformant le mot parlé en texte avec vitesse et précision qui semblait autrefois impossible.

Au Texas Advanced Computing Center, le supercalculateur LoneStar6 aide les orthophonistes de l'UT Dallas à repousser les limites de la reconnaissance automatique de la parole (ASR) pour les enfants. En créant des abstractions mathématiques appelées «unités de parole discrètes» de l'audio en tant que forme de codage anonyme, les chercheurs peuvent identifier les problèmes de parole et de langage chez les jeunes enfants et permettre des interventions plus rapides pour les aider.

« L'objectif est que nous puissions comprendre et comprendre comment les enfants parlent », a déclaré Satwik Dutta, un doctorat. Étudiant à l'École d'ingénierie et informatique Erik Jonsson et Fellow diplômé d'Eugene McDermott chez UT Dallas. Dutta et son conseiller John Hl Hansen, président distingué des télécommunications et professeur en génie électrique, ont co-écrit une étude sur le développement de systèmes ASR enfants publiés dans le Journal international des études humaines – Computer Studies.

« Au fil des ans, le développement d'un tel système de reconnaissance vocale automatique a été très difficile, en particulier pour les enfants », a déclaré Dutta. « C'est parce que les enfants, en particulier ceux de moins de huit ans, développent toujours leurs compétences parlées et vocales, et leur connaissance de la grammaire. Leur discours peut être très différent de la plupart des systèmes ASR open-source créés avec des données de discours pour adultes, ce qui entraîne une mauvaise performance du modèle avec la parole des enfants. »

Dutta contribue à un projet financé par la National Science Foundation chez UT Dallas appelé mesurer les interactions dans les salles de classe. Dirigée par Hansen en collaboration avec le co-auteur de l'étude Dwight Irvin de l'Anita Zucker Center for Excellence in Early Childhood Studies à l'Université de Floride, le projet comprend également des partenaires de l'Université du Kansas, réunissant une équipe multi-institutionnelle pour faire avancer la recherche sur la petite enfance.

Lorsque le projet a commencé sous les restrictions Covid-19, les chercheurs se sont limités aux ensembles de données existants de plus d'un millier d'enfants enregistrés via des casques lors de tutoriels virtuels. Une fois que les restrictions se sont effondrées, l'équipe a pu recueillir de nouvelles données dans des paramètres du monde réel, enregistrant des enfants préscolaires dans des services de garde d'enfants bruyants à l'aide d'un petit enregistreur appelé dispositif Lena, discrètement niché dans la poche d'un t-shirt personnalisé.

Les superordinateurs TACC font progresser la recherche sur la parole des enfants

Ce projet étudie un nouvel aspect de la reconnaissance vocale automatique à l'aide d'unités de parole discrètes, qui peuvent être considérées comme des représentations mathématiquement abstraites de la parole. Le point à retenir – la création de la séquence de sortie des unités de parole discrètes rend pratiquement impossible de revenir en arrière et de créer la forme d'onde de la parole d'origine, introduisant ainsi un degré de protection de la vie privée.

« Dès que le discours est chargé, vous pouvez le convertir en unités de discours discrètes, vous n'avez aucune préoccupation de violation de la vie privée parce que le discours a disparu. Vous ne pouvez plus le générer », a déclaré Dutta.

Le processus de conversion en unités de parole discrètes supprime les couches de redondance du contenu des données et réduit la formation globale et les exigences de calcul pour le modèle ASR.

« C'est là que TACC s'est avéré indispensable. Mon modèle ASR basé sur la parole discret n'avait que 40 millions de paramètres. En utilisant des systèmes TACC, j'ai pu obtenir une performance similaire à un modèle ASR de bout en bout, qui avait 428,96 millions de paramètres – presque 10 fois la taille. »

TACC a attribué des allocations de supercomputières sur le système de stockage des supercomputeurs LoneStar6 et Corral Data via la cyberinfrastructure (UTRC) de la recherche du système UT, qui fournit des ressources informatiques aux chercheurs au sein des 14 institutions système UT.

« Les données vocales sont coûteuses en calcul et j'avais besoin de comparer mes résultats avec des systèmes modernes de pointe. Sans TACC, cela n'aurait pas été possible. Nous avons également apprécié le stockage protégé sur Corral et les nœuds protégés de LoneStar6 pour exécuter nos processus », a ajouté Dutta.

Les unités de traitement graphique sur LoneStar6 sont bien adaptées aux travaux d'intelligence artificielle dans le développement de modèles d'apprentissage en profondeur tels que ceux utilisés dans ce travail.

Des travaux plus récents acceptés dans le 7th ISCA Workshop on Child Computer Interaction (WOCCI 2025) explorent l'utilisation d'un modèle ASR appelé Whisper (développé à l'origine sur OpenAI) dans le but de l'exécuter sur un périphérique sur un Raspberry Pi 5 (8 Go). Le PI fonctionne comme un dispositif de bord qui transcrit et élimine les données vocales brutes une fois qu'elle est traitée. En utilisant LoneStar6 pour l'évaluation du modèle, le réglage fin et la comparaison, cette recherche fait progresser le développement de systèmes de reconnaissance vocale axés sur l'enfant avec des protections de confidentialité intégrées plus fortes.

« L'utilisation de supercalculateurs pour étudier la parole est nouvelle, innovante et peut accélérer les recherches sur l'utilisation de l'IA de la parole pour de nombreuses applications – éducation, clinique, éducative, médico-légale – partout où vous pouvez trouver le discours. » Dutta a conclu. « Je pense qu'en tant que scientifique, si vous travaillez sur les applications pour les enfants, la première chose à laquelle vous devriez penser est de savoir comment préserve la vie privée des enfants. Quoi que nous faisons, cela devrait être digne de confiance et éthique. J'imagine un avenir numérique sûr pour tous les enfants. »