Des scientifiques développent un outil d'apprentissage automatique pour identifier avec précision les dialectes arabes dans 22 pays arabophones

Des scientifiques de l’Université de Sharjah pensent avoir créé un système d’intelligence artificielle capable d’identifier automatiquement le dialecte arabe parlé par une personne. L'ouvrage est publié dans IEEE Xplore.

Ils affirment que leur système dévoile la mosaïque riche et complexe des dialectes arabes que les systèmes vocaux conventionnels ne parviennent pas à interpréter et à identifier avec précision.

« L'arabe est une langue riche avec de nombreux dialectes régionaux, et chacun a son propre vocabulaire, ses expressions et sa prononciation. Cette diversité rend difficile pour la technologie de les comprendre et de les différencier avec précision », a déclaré Ashraf Elnagar, professeur d'informatique et Systèmes de renseignement.

« Pour résoudre ce problème, nous avons développé un système capable d'identifier automatiquement le dialecte arabe parlé par une personne. »

Langue officielle dans 22 pays du Moyen-Orient, de l'Afrique du Nord et de la péninsule arabique, l'arabe est l'une des langues les plus parlées au monde avec plus de 370 millions de personnes l'ayant comme langue maternelle. C'est également l'une des langues les plus immergées dans la culture au monde et ceux qui l'ont comme langue maternelle ou l'apprennent comme langue seconde ou étrangère se retrouvent également en train d'en apprendre davantage sur l'Islam et sa culture.

Des scientifiques développent un outil d'apprentissage automatique pour identifier avec précision les dialectes arabes dans 22 pays arabophones

Dotée d'un alphabet totalement différent de l'anglais, la langue possède de nombreux sons propres à sa phonologie. Le charme de ses sons et de ses personnages déconcerte les innombrables apprenants étrangers qui aspirent à le parler couramment. Bien que l’essentiel de l’apprentissage de la langue arabe se fasse sous la forme formelle standard, de nombreux apprenants étrangers optent pour des versions familières ou quotidiennes, en particulier les formes parlées utilisées en Égypte et en Syrie.

Les auteurs affirment qu'ils n'ont pas été confrontés à une tâche facile en apprenant aux ordinateurs à reconnaître différents dialectes arabes simplement en écoutant des mots prononcés. Ils écrivent : « Le principal défi est le développement d'un modèle d'apprentissage automatique capable d'identifier avec précision un large éventail de dialectes arabes à partir d'enregistrements audio.

« Cette tâche est aggravée par la diversité et la complexité inhérentes aux dialectes arabes, associées aux défis techniques du traitement audio et de l'optimisation des modèles d'apprentissage automatique. »

Les auteurs ont utilisé des ensembles de données comprenant plus de 3 000 heures de segments audio collectés sur YouTube. Les données comprennent 19 dialectes différents parlés en Algérie, Égypte, Irak, Jordanie, Arabie Saoudite, Koweït, Liban, Libye, Mauritanie, Tunisie, Maroc, Oman, Palestine, Qatar, Soudan, Syrie, Émirats arabes unis (EAU), Bahreïn. et au Yémen.

Les résultats ont été impressionnants, a déclaré le professeur Elnagar, soulignant la grande précision du modèle dans l'identification des dialectes arabes au niveau régional et national. « Notre modèle a correctement identifié les dialectes régionaux dans 97,29 % des cas et les dialectes nationaux spécifiques dans 94,92 % des cas.

« Ce qui est remarquable, c'est que nous y sommes parvenus en utilisant seulement 29 % des données de formation généralement requises par d'autres chercheurs. Nous avons rendu nos modèles accessibles au public afin que d'autres chercheurs et développeurs puissent les utiliser pour créer de meilleures technologies liées à la parole pour les arabophones. «

Le projet a le potentiel d’améliorer la communication et l’accessibilité pour des millions d’arabophones dans le monde. Le professeur Elnagar a déclaré que la capacité du modèle à identifier correctement un dialecte peut « améliorer les technologies à commande vocale telles que les assistants virtuels, les services de traduction et les systèmes automatisés de support client ».

« Cela comble non seulement les écarts de communication entre les différentes régions arabophones, mais contribue également à rendre la technologie plus inclusive et plus conviviale pour les arabophones. »

Malgré les résultats étonnants, a noté le professeur Elnagar, le projet peut encore être amélioré. À cette fin, les auteurs ont rendu leur système accessible au public « en ligne sur une plateforme appelée HuggingFace, afin que d'autres puissent accéder à notre travail visant à améliorer les technologies de la langue arabe et s'en inspirer ».

La recherche est le résultat de la collaboration entre le professeur Elnagar et trois de ses étudiants de premier cycle dans le cadre d'un projet visant à construire un modèle d'apprentissage en profondeur pour l'identification du dialecte arabe à partir de la parole. Les premiers résultats de la recherche ont été présentés pour la première fois lors de la 15e Conférence annuelle de recherche de premier cycle sur l’informatique appliquée (URC) en 2024.

« Développée par nos étudiants dévoués, la technologie derrière notre système intègre des méthodologies de pointe et des techniques d'apprentissage profond. L'extension de ses fonctionnalités du texte aux signaux audio le distingue, offrant une approche multimodale de la compréhension et du traitement de la langue arabe », professeur » dit Elnagar.

Pour l'étudiant chercheur Amr Barakat, le projet « comble une lacune critique dans la technologie linguistique, permettant une communication plus inclusive et plus précise pour les arabophones du monde entier. En tirant parti de l'apprentissage automatique avancé, nous avons créé un modèle qui non seulement excelle en termes de performances, mais ouvre également la voie. pour les futures innovations en matière de reconnaissance vocale.

Un autre étudiant chercheur, Abdulla Aldhaheri, a signalé un grand intérêt de l'industrie pour le projet, car il « présente un potentiel d'adoption généralisée, offrant de nombreux avantages et améliorations à diverses applications et services linguistiques basés sur l'IA ».

Outre sa grande précision, l'outil développé par les auteurs, contrairement aux modèles actuellement disponibles, nécessite moins de données et de ressources informatiques, ce qui le rend accessible pour une utilisation plus large. Selon les auteurs, cette caractéristique est à l'origine de l'intérêt de l'industrie pour leurs travaux. Ils ont cité des entreprises technologiques comme Microsoft et des organismes gouvernementaux de Sharjah, aux Émirats arabes unis, comme étant particulièrement enthousiastes à l'égard de leur travail.