Une nouvelle approche multimodale de l'évaluation automatisée des compétences en parole

La capacité de communiquer efficacement en anglais parlé est un déterminant clé de la réussite académique et professionnelle. Traditionnellement, le degré de maîtrise sur la grammaire anglaise, le vocabulaire, la prononciation et les compétences en communication a été évalué par des tests fastidieux et coûteux à administration humaine.

Cependant, avec l'avènement de l'intelligence artificielle (IA) et de l'apprentissage automatique ces dernières années, les tests d'évaluation automatisés en anglais parlé ont gagné une immense popularité parmi les chercheurs du monde entier.

Bien que les évaluations parlantes basées sur les monologues soient répandues, elles manquent de pertinence réelle, en particulier dans les environnements où une dialogue ou une interaction de groupe est cruciale. De plus, la recherche sur l'évaluation automatisée des compétences en anglais parlées en milieu interactif reste limitée et se concentre souvent uniquement sur les modalités uniques, telles que le texte ou l'audio.

Dans cette optique, une équipe de chercheurs dirigée par le professeur Shogo Okada qui comprenait le professeur adjoint Candy-Olivia Mawalim du Japan Advanced Institute of Science and Technology (JAIST), ont développé un cadre d'apprentissage multi-débitport qui peut simultanément évaluer plusieurs aspects de la compétence en anglais parlé. Leurs résultats sont publiés en ligne dans la revue Ordinateurs et éducation: intelligence artificielle.

Les chercheurs ont utilisé un nouveau jeu de données d'évaluation en anglais parlé (voir) comprenant des transcriptions audio, vidéo et de texte synchronisées provenant d'entretiens à enjeux ouverts et à enjeux élevés avec des adolescents (9 à 16 ans) s'appliquant aux lycées et aux universités. Cet ensemble de données a été collecté par le véritable service de Vericant et est particulièrement remarquable pour incorporer des scores attribués par des experts supervisés par des chercheurs du service d'éducation (ETS) à travers une gamme de dimensions de compétences parlant, permettant une analyse riche et multimodale de maîtrise de l'anglais.

Le Dr Mawalim dit: « Notre cadre permet la modélisation et l'intégration de différents aspects de la maîtrise de la parole, améliorant ainsi notre compréhension des divers facteurs sous-jacents. De plus, en incorporant des interviews à endormir dans notre cadre d'évaluation, nous pouvons évaluer la capacité d'un individu à s'engager dans la communication spontanée et créative et leur compétence sociolinguistique globale. » «

Le cadre d'apprentissage multiutput développé par l'équipe intègre des fonctionnalités acoustiques telles que la prosodie, des indices visuels comme les unités d'action faciale et des modèles linguistiques tels que la prise de virage. Par rapport aux approches unimodales, cette stratégie multimodale a considérablement amélioré la précision de la prédiction, réalisant une précision globale de prédiction de score de voir environ 83% en utilisant l'algorithme de machine à augmentation du gradient léger (LightGBM).

« Les résultats de notre étude ont de grandes implications, offrant des applications diverses pour les parties prenantes dans divers domaines », explique le professeur Okada. « En plus de fournir des informations réalisables directes aux étudiants afin d'améliorer leur maîtrise de l'anglais parlé, notre approche peut aider les enseignants à adapter leurs instructions pour répondre aux besoins individuels des élèves. De plus, notre cadre d'apprentissage multiput peut aider le développement de modèles plus transparents et interprétables pour l'évaluation des compétences en langue parlée. »

Les scientifiques ont également étudié l'importance de la séquence d'énoncés dans la maîtrise de l'anglais parlé. Les représentations de codeur bidirectionnelles de Transformers (Bert), un modèle d'apprentissage en profondeur pré-formé, ont révélé que l'énoncé initial avait beaucoup de signification dans la prévision de la maîtrise de la parole. En outre, l'influence de facteurs externes, tels que le comportement de l'intervieweur et le cadre de l'entretien sur la maîtrise de l'anglais parlé, a également été évalué.

Leurs analyses ont montré que des caractéristiques spécifiques, telles que la parole de l'intervieweur, le sexe et le cadre d'entretien en personne ou à distance, ont eu un impact significatif sur la cohérence des réponses des personnes interrogées.

« Avec la croissance rapide des technologies axées sur l'IA et leur intégration en expansion dans notre vie quotidienne, les évaluations multimodales pourraient devenir des standard dans des contextes éducatifs dans un avenir proche.

« Cela pourrait conduire à des programmes sur mesure et à des méthodes d'enseignement, aidant les étudiants à affiner et à développer des compétences générales cruciales comme la prise de parole en public, la présentation et la communication interpersonnelle », explique le Dr Mawalim, auteur principal de la présente étude.

Dans l'ensemble, la recherche offre une approche plus nuancée et interprétable de l'évaluation automatisée de l'anglais parlé et jette les bases du développement d'outils intelligents et centrés sur les étudiants dans des contextes éducatifs et professionnels.