La prochaine génération d'aides auditives pourrait lire les lèvres à travers les masques

Nature Communications (2022). DOI : 10.1038/41467-022-32231-1. https://www.nature.com/articles/s41467-022-32231-1″ width= »800″ height= »530″>

Illustration conceptuelle du cadre de lecture labiale proposé. Le cadre utilise les technologies Wi-Fi et radar comme catalyseurs de la lecture labiale basée sur la détection RF. Un ensemble de données comprenant les voyelles A, E, I, O, U et vide (lèvres statiques/fermées) est collecté à l’aide des deux technologies, avec un masque facial. Les données collectées sont utilisées pour former des modèles ML et DL. Le crédit: Communication Nature (2022). DOI : 10.1038/41467-022-32231-1. https://www.nature.com/articles/s41467-022-32231-1

Un nouveau système capable de lire les lèvres avec une précision remarquable même lorsque les locuteurs portent des masques faciaux pourrait aider à créer une nouvelle génération d’aides auditives.

Une équipe internationale d’ingénieurs et d’informaticiens a développé la technologie, qui associe pour la première fois la détection par radiofréquence à l’intelligence artificielle pour identifier les mouvements des lèvres.

Le système, lorsqu’il est intégré à la technologie des aides auditives conventionnelles, pourrait aider à lutter contre « l’effet cocktail », une lacune courante des aides auditives traditionnelles.

Actuellement, les aides auditives aident les personnes malentendantes en amplifiant tous les sons ambiants qui les entourent, ce qui peut être utile dans de nombreux aspects de la vie quotidienne.

Cependant, dans des situations bruyantes telles que des cocktails, le large spectre d’amplification des aides auditives peut rendre difficile pour les utilisateurs de se concentrer sur des sons spécifiques, comme une conversation avec une personne en particulier.

Une solution potentielle à l’effet cocktail est de fabriquer des aides auditives « intelligentes », qui combinent une amplification audio conventionnelle avec un deuxième appareil pour collecter des données supplémentaires pour des performances améliorées.

Alors que d’autres chercheurs ont réussi à utiliser des caméras pour faciliter la lecture labiale, la collecte de séquences vidéo de personnes sans leur consentement explicite soulève des inquiétudes pour la vie privée des individus. Les caméras sont également incapables de lire les lèvres à travers les masques, un défi quotidien pour les personnes qui portent des couvre-visages à des fins culturelles ou religieuses et un problème plus large à l’ère du COVID-19.

Dans un nouvel article publié aujourd’hui dans la revue Communication Nature, l’équipe dirigée par l’Université de Glasgow décrit comment elle a entrepris d’exploiter une technologie de détection de pointe pour lire les lèvres. Leur système préserve la confidentialité en collectant uniquement des données de radiofréquence, sans séquence vidéo d’accompagnement.

Pour développer le système, les chercheurs ont demandé à des volontaires masculins et féminins de répéter les cinq voyelles (A, E, I, O et U) d’abord sans masque, puis en portant un masque chirurgical.

Alors que les volontaires répétaient les sons des voyelles, leurs visages étaient scannés à l’aide de signaux radiofréquence provenant à la fois d’un capteur radar dédié et d’un émetteur wifi. Leurs visages ont également été scannés tandis que leurs lèvres sont restées immobiles.

Ensuite, les 3 600 échantillons de données collectés lors des scans ont été utilisés pour « enseigner » aux algorithmes d’apprentissage automatique et d’apprentissage en profondeur comment reconnaître les mouvements caractéristiques des lèvres et de la bouche associés à chaque son de voyelle.

Étant donné que les signaux radiofréquence peuvent facilement traverser les masques des volontaires, les algorithmes pourraient également apprendre à lire la formation des voyelles des utilisateurs masqués.

Le système s’est avéré capable de lire correctement les lèvres des volontaires la plupart du temps. Les données Wifi ont été correctement interprétées par les algorithmes d’apprentissage jusqu’à 95% du temps pour les lèvres non masquées, et 80% pour les masquées. Pendant ce temps, les données radar ont été interprétées correctement jusqu’à 91% sans masque et 83% du temps avec un masque.

Le Dr Qammer Abbasi, de la James Watt School of Engineering de l’Université de Glasgow, est l’auteur principal de l’article. Il a déclaré : « Environ 5 % de la population mondiale, soit environ 430 millions de personnes, ont une sorte de déficience auditive.

« Les aides auditives ont apporté des avantages transformateurs à de nombreuses personnes malentendantes. Une nouvelle génération de technologie qui collecte un large éventail de données pour augmenter et améliorer l’amplification du son pourrait être une autre étape majeure dans l’amélioration de la qualité de vie des personnes malentendantes.

« Grâce à cette recherche, nous avons montré que les signaux de radiofréquence peuvent être utilisés pour lire avec précision les sons des voyelles sur les lèvres des gens, même lorsque leur bouche est couverte. Alors que les résultats de la lecture labiale avec des signaux radar sont légèrement plus précis, le Wi- Les signaux Fi ont également démontré une précision impressionnante.

« Compte tenu de l’omniprésence et de l’abordabilité des technologies Wi-Fi, les résultats sont très encourageants, ce qui suggère que cette technique a de la valeur à la fois en tant que technologie autonome et en tant que composant des futures aides auditives multimodales. »

Le professeur Muhammad Imran, chef du groupe de recherche sur les communications, la détection et l’imagerie de l’Université de Glasgow et co-auteur de l’article, a ajouté : « Cette technologie est le résultat de deux projets de recherche financés par le Conseil de recherche en génie et en sciences physiques (EPSRC) , appelés COG-MHEAR et QUEST.

« Les deux visent à trouver de nouvelles méthodes de création de la prochaine génération d’appareils de soins de santé, et ce développement jouera un rôle majeur pour soutenir cet objectif. »

L’article de l’équipe, intitulé « Repousser les limites de la détection RF à distance en lisant les lèvres sous le masque facial », est publié dans Communication Nature.

Fourni par l’Université de Glasgow