Ai Ring Tracks Mots épelés dans la langue des signes américaine
Une équipe de recherche dirigée par Cornell a développé une bague alimentée par l’intelligence artificielle équipée d’une technologie de micro-sonar qui peut continuellement – et en temps réel – des doigts de pont en langue des signes américains (ASL).
Dans sa forme actuelle, Spellring pourrait être utilisé pour entrer du texte en ordinateurs ou smartphones via des doigts, qui est utilisé dans ASL pour épeler des mots sans signes correspondants, tels que les noms, les noms et les termes techniques appropriés. Avec un développement ultérieur, l’appareil – a été le premier du genre – pourrait révolutionner la traduction ASL en suivant continuellement des mots et des phrases signés entiers.
La recherche est publiée sur le arxiv serveur de préimprimée.
« De nombreuses autres technologies qui reconnaissent les doigts dans l’ASL n’ont pas été adoptées par la communauté sourde et malentendante parce que le matériel est volumineux et impraticable », a déclaré Hyunchul Lim, doctorant dans le domaine des sciences de l’information. « Nous avons cherché à développer un seul anneau pour capturer tout le mouvement subtil et complexe des doigts dans ASL. »
Lim est l’auteur principal de « Spellring: reconnaître les doigts continus dans la langue des signes américains à l’aide d’un anneau », qui sera présenté à la Conférence de l’Association of Computing Machinery sur les facteurs humains dans les systèmes informatiques (CHI), 26 avril – mai 1 à Yokohama, Japon.
Développé par LIM et les chercheurs dans les interfaces informatiques intelligentes pour les futures interactions (SCIFI), dans le Cornell Ann S. Bowers College of Computing and Information Science, Spellring est porté sur le pouce et équipé d’un microphone et d’un haut-parleur. Ensemble, ils envoient et reçoivent des ondes sonores inaudibles qui suivent les mouvements de la main et des doigts du porteur, tandis qu’un mini gyroscope suit le mouvement de la main. Ces composants sont logés dans un anneau imprimé en 3D et ne sont pas plus grands qu’un quartier américain standard.
Un algorithme d’apprentissage profond propriétaire traite ensuite les images du sonar et prédit les lettres jointes aux doigts ASL en temps réel et avec une précision similaire, car de nombreux systèmes existants nécessitent plus de matériel.
Les développeurs ont évalué la transmission avec 20 signataires ASL expérimentés et novices, les faisant des doigts naturellement et en permanence un total de plus de 20 000 mots de longueurs variables. Le taux de précision de Spellring était entre 82% et 92%, selon la difficulté des mots.
« Il y a toujours un écart entre la communauté technique qui développe des outils et la communauté cible qui les utilise », a déclaré Cheng Zhang, professeur adjoint de sciences de l’information (Cornell Bowers CIS) et co-auteur du papier. « Nous avons comblé une partie de cet écart. Nous avons conçu des épeères pour les utilisateurs cibles qui l’ont évalué. »
La formation d’un système d’IA pour reconnaître 26 étapes associées à chaque lettre de l’alphabet – en particulier puisque les signataires modifient naturellement la forme d’une lettre particulière pour l’efficacité, la vitesse et le flux – était loin d’être simple, ont déclaré les chercheurs.
« La variation entre les lettres peut être significative », a déclaré Zhang, qui dirige le laboratoire SciFi. « Il est difficile de capturer cela. »
Spellring construit une itération précédente du laboratoire SCIFI appelé Ring-a-Pose et représente le dernier d’une ligne en cours d’appareils intelligents équipés de sonar du laboratoire. Les chercheurs ont déjà développé des gadgets pour interpréter les poses à la main dans la réalité virtuelle, le haut du corps en 3D, la reconnaissance de la parole silencieuse et le regard et les expressions faciales, entre autres.
« Alors que les grands modèles de langue sont à l’avant et au centre des nouvelles, l’apprentissage automatique permet de sentir le monde de manière nouvelle et inattendue, comme ce projet et d’autres membres du laboratoire le démontrent », a déclaré le co-auteur François Guimbretière, professeur de sciences de l’information (Cornell Bowers CIS). « Cela ouvre la voie à un accès plus diversifié et inclusif aux ressources informatiques. »
« Je voulais aider à m’assurer que nous avons pris toutes les mesures possibles pour faire le bien de la communauté ASL », a déclaré la co-auteur Jane Lu, un doctorant dans le domaine de la linguistique dont la recherche se concentre sur l’ASL. « Les doigts, bien que nuancées et difficiles à suivre d’un point de vue technique, ne comprend qu’une fraction d’ASL et n’est pas représentative de l’ASL en tant que langue. Nous avons encore un long chemin à parcourir dans le développement d’appareils comparables pour une reconnaissance complète de l’ASL, mais c’est une étape passionnante dans la bonne direction. »
Les travaux futurs de Lim comprendront l’intégration du système micro-sonare dans des lunettes pour capturer les mouvements du haut du corps et les expressions faciales, pour un système de traduction ASL plus complet.
« Les personnes sourdes et malentendantes utilisent plus que leurs mains pour ASL. Ils utilisent des expressions faciales, des mouvements du haut du corps et des gestes de la tête », a déclaré Lim, qui a suivi des cours de base ASL de base et intermédiaire à Cornell dans le cadre de ses recherches sur les sorts. « ASL est un langage visuel très compliqué et complexe. »