trois instituts d'Alicante mènent cette initiative avec l'IA

Trois instituts d'Elche et d'Alicante dirigent le projet Lara, qui vise à faciliter la communication pour ceux qui ont des difficultés à parler. Ils le font grâce à une application qui retranscrit et prononce leurs paroles en temps réel.

Ce qui ressemble à une phrase inintelligible devient une voix claire qui leur permet de s'exprimer.

Parce que c'est important. De nombreuses personnes atteintes de paralysie cérébrale, de la maladie de Parkinson, de dysphasie, d'aphasie suite à un accident vasculaire cérébral ou d'autres maladies ont de grandes difficultés à communiquer oralement, ce qui entraîne frustration et exclusion sociale. Il est difficile pour une entreprise de rentabiliser les développements de solutions pour ce groupe.

« Lara est un lieu où communiquer est un droit et non un privilège », explique Aitor Medrano, coordinateur du Projet de Recherche Appliquée dans les cycles FP.

L'origine. L'idée est née à l'IES Severo Ochoa d'Elche, où Medrano est enseignant. « Nous avions une élève qui venait toujours en classe avec son père, car personne ne la comprenait à part lui. Notre raisonnement était le suivant : si le père la comprend, une IA doit la comprendre. C'est comme l'apprentissage humain. »

C'est ainsi qu'est né ce projet collaboratif, impliquant 150 étudiants et enseignants de trois centres :

Cours de spécialisation en intelligence artificielle et Big Data à l'IES Severo Ochoa (Elche)
Cycle Supérieur de Médiation Communicative à l'IES Victoria Kent (Elche)
Cycle moyen de soins pour personnes en situation de dépendance à l'IES Gran Vía (Alicante)

Tous les étudiants impliqués dans le projet Lara, la semaine dernière au Palais des Congrès d'Elche. Image fournie.

Comment ça marche. Les étudiants des cycles sanitaires et sociaux contactent les utilisateurs ayant des problèmes d'élocution et enregistrent des centaines d'audios avec leur voix en suivant une « syllabe », un ensemble de phrases phonétiquement équilibrées. « Ils nous donneraient les voix et nous les connaissances technologiques », résume Medrano. Ces audios sont hébergés dans une base de données MongoDB et un AWS S3.

Avec ces audios, les étudiants du cours IA forment des modèles capables « d'apprendre » à comprendre ces voix altérées grâce à l'architecture Whisper d'OpenAI. Ils le font sur un GPU NVIDIA 4090. Un modèle personnalisé pour chaque utilisateur fonctionne très bien, mais le but est d'aboutir à des modèles génériques par pathologie. Et à l’avenir, un modèle général unique.

La démo en direct. La semaine dernière, les étudiants ont fait une démonstration au Palais des Congrès d'Elche. C'est là que l'effort de ces deux cours s'est matérialisé, puisque deux utilisateurs de cette application l'ont utilisée devant les participants. L'application permet à l'utilisateur d'enregistrer sa voix, qui est transcrite en texte et traduite en une voix synthétique claire.

Raquel, faisant un énorme effort musculaire pour pouvoir articuler la phrase, prononça « J'aime siffler quand il pleut ». Il était très difficile pour quiconque n’était pas habitué à l’entendre de le comprendre, mais le système le détectait parfaitement.

Travaux en cours. Le grand défi consiste à collecter suffisamment d’audio pour entraîner les algorithmes. Lors du premier cours du projet, le 22/23, ils n'avaient que quatre utilisateurs qui leur ont donné environ 700 audios. Aujourd’hui, il y a 75 utilisateurs et plus de 10 000 enregistrements, mais il en faudrait davantage.

Grâce à la collaboration d'une douzaine d'associations, elles n'en forment qu'une seule. « Maintenant, nous voulons regrouper les utilisateurs par pathologies, en nous concentrant sur trois, même si cela dépendra du nombre d'utilisateurs que nous avons et de la pathologie », explique Medrano.

Autres tâches en attente : appliquer des techniques d'augmentation des données, pour générer des versions plus rapides ou plus lentes de chaque audio, ou avec une tonalité plus basse et plus haute, et tester des algorithmes avancés dans le cloud.

L'évolution du QR code est espagnole : ce sont les étiquettes colorées des transports publics qui peuvent être lues à 15 mètres

Le futur. Les responsables du PIA rêvent qu'une entreprise adopte leur solution et la transforme en un véritable produit. « Ce n'est pas un atout personnel », explique Aitor. « J'aimerais qu'une entreprise prenne Lara demain et la développe réellement, et qu'elle soit un produit utile qui fonctionne bien. »

D'autres possibilités qu'il envisage sont de l'intégrer comme dans Alexa ou d'adapter le modèle à une application que chaque utilisateur peut installer. Mais la maintenance des serveurs et le développement ont un coût qu’un centre éducatif ne peut supporter indéfiniment.

La Conselleria d'Educació les a subventionnés à hauteur de 15 000 euros, d'où provenaient l'argent, les événements et autres besoins. Mais ils finissent.
Ils aspirent à étendre le projet à l'échelle nationale et ont un accord avec des instituts de Séville et de Mérida.
L'accent peut être important. « Nous verrons si un modèle de course andalou fonctionne comme un modèle de course valencien, par exemple », ajoute Aitor.

Jusqu'à présent, ils ont même remporté des prix, comme le Teaching Action 10 pour le meilleur projet d'innovation pédagogique. D’autres viendront sûrement.

À Simseo | 18 mois à déchiffrer les yeux de Dulce

Image en vedette | IES Severo Ochoa d'Elche