Une étude utilise l'IA pour interpréter la langue des signes américaine en temps réel
La langue des signes constitue un moyen de communication sophistiqué, vital pour les personnes sourdes ou malentendantes, s'appuyant sur les mouvements des mains, les expressions faciales et le langage corporel pour transmettre une signification nuancée. La langue des signes américaine illustre cette complexité linguistique avec sa grammaire et sa syntaxe distinctes.
La langue des signes n’est pas universelle ; il existe plutôt de nombreuses langues des signes différentes utilisées dans le monde, chacune avec sa propre grammaire, syntaxe et vocabulaire, soulignant la diversité et la complexité des langues des signes à l'échelle mondiale.
Diverses méthodes sont explorées pour convertir les gestes de la main en langue des signes en texte ou en langage parlé en temps réel. Pour améliorer l'accessibilité aux communications pour les personnes sourdes ou malentendantes, il est nécessaire de disposer d'un système fiable en temps réel, capable de détecter et de suivre avec précision les gestes de la langue des signes américaine. Ce système pourrait jouer un rôle clé en éliminant les barrières de communication et en garantissant des interactions plus inclusives.
Pour surmonter ces obstacles à la communication, des chercheurs du Collège d'ingénierie et d'informatique de la Florida Atlantic University ont mené une étude unique en son genre axée sur la reconnaissance des gestes de l'alphabet de la langue des signes américaine à l'aide de la vision par ordinateur. Ils ont développé un ensemble de données personnalisé de 29 820 images statiques de gestes de la main en langue des signes américaine.
À l’aide de MediaPipe, chaque image a été annotée avec 21 points de repère clés sur la main, fournissant des informations spatiales détaillées sur sa structure et sa position.
Ces annotations ont joué un rôle essentiel dans l’amélioration de la précision de YOLOv8, le modèle d’apprentissage profond formé par les chercheurs, en lui permettant de mieux détecter les différences subtiles dans les gestes de la main.
Résultats de l'étude, publiés dans Ouvert de Franklinrévèlent qu'en exploitant ces informations détaillées sur la pose de la main, le modèle a obtenu un processus de détection plus raffiné, capturant avec précision la structure complexe des gestes de la langue des signes américaine.
La combinaison de MediaPipe pour le suivi des mouvements de la main avec YOLOv8 pour la formation a abouti à un système puissant pour reconnaître les gestes de l'alphabet en langue des signes américaine avec une grande précision.
« La combinaison de MediaPipe et de YOLOv8, ainsi que le réglage fin des hyperparamètres pour une précision optimale, représente une approche révolutionnaire et innovante », a déclaré Bader Alsharif, premier auteur et titulaire d'un doctorat. candidat au Département de génie électrique et informatique de la FAU. « Cette méthode n'a pas été explorée dans des recherches antérieures, ce qui en fait une direction nouvelle et prometteuse pour les progrès futurs. »
Les résultats montrent que le modèle a fonctionné avec une précision de 98 %, une capacité à identifier correctement les gestes (rappel) à 98 % et un score de performance global (score F1) de 99 %. Il a également atteint une précision moyenne (mAP) de 98 % et un score mAP50-95 plus détaillé de 93 %, soulignant sa grande fiabilité et sa précision dans la reconnaissance des gestes en langue des signes américaine.
« Les résultats de nos recherches démontrent la capacité de notre modèle à détecter et classer avec précision les gestes de la langue des signes américaine avec très peu d'erreurs », a déclaré Alsharif. « Il est important de noter que les résultats de cette étude soulignent non seulement la robustesse du système, mais également son potentiel d'utilisation dans des applications pratiques en temps réel pour permettre une interaction homme-machine plus intuitive. »
L'intégration réussie des annotations de points de repère de MediaPipe dans le processus de formation YOLOv8 a considérablement amélioré la précision du cadre de délimitation et la classification des gestes, permettant au modèle de capturer des variations subtiles dans les poses des mains. Cette approche en deux étapes de suivi des points de repère et de détection d'objets s'est avérée essentielle pour garantir la haute précision et l'efficacité du système dans des scénarios réels.
La capacité du modèle à maintenir des taux de reconnaissance élevés, même dans des positions de main et des gestes variables, met en évidence sa force et son adaptabilité dans divers contextes opérationnels.
« Notre recherche démontre le potentiel de combiner des algorithmes avancés de détection d'objets avec le suivi de points de repère pour la reconnaissance des gestes en temps réel, offrant ainsi une solution fiable pour l'interprétation de la langue des signes américaine », a déclaré Mohammad Ilyas, Ph.D., co-auteur et professeur à l'American Sign Language. Département FAU de génie électrique et d'informatique.
« Le succès de ce modèle est en grande partie dû à l'intégration minutieuse de l'apprentissage par transfert, à la création méticuleuse d'ensembles de données et au réglage précis des hyperparamètres. Cette combinaison a conduit au développement d'un système hautement précis et fiable pour reconnaître les gestes de la langue des signes américaine, représentant un une étape majeure dans le domaine des technologies d'assistance.
Les efforts futurs se concentreront sur l'élargissement de l'ensemble de données pour inclure un plus large éventail de formes de mains et de gestes afin d'améliorer la capacité du modèle à différencier les gestes qui peuvent sembler visuellement similaires, améliorant ainsi davantage la précision de la reconnaissance. De plus, l'optimisation du modèle pour le déploiement sur les appareils de périphérie sera une priorité, garantissant qu'il conserve ses performances en temps réel dans des environnements aux ressources limitées.
« En améliorant la reconnaissance de la langue des signes américaine, ce travail contribue à créer des outils susceptibles d'améliorer la communication pour la communauté des sourds et des malentendants », a déclaré Stella Batalama, Ph.D., doyenne du FAU College of Engineering and Computer Science.
« La capacité du modèle à interpréter de manière fiable les gestes ouvre la porte à des solutions plus inclusives qui soutiennent l'accessibilité, rendant les interactions quotidiennes, que ce soit dans l'éducation, les soins de santé ou les milieux sociaux, plus fluides et plus efficaces pour les personnes qui s'appuient sur la langue des signes. promesse de favoriser une société plus inclusive où les barrières de communication sont réduites.