Les lunettes équipées d'IA lisent la parole silencieuse

Les lunettes équipées d’IA lisent la parole silencieuse

Disposition du système et profils d’écho. (ab)Position finale du capteur et trajets du signal. S1, S2 : haut-parleurs ; M1, M2 : micros. P1-P4 : Chemins. Notez que chaque trajet consiste en une réflexion et une diffraction à trajets multiples qui proviennent du haut-parleur source et se terminent au niveau du microphone cible. Les lignes de la figure illustrent uniquement les sources et les cibles. (c) Profils d’écho pour différents énoncés. Crédit: EchoSpeech : Reconnaissance vocale silencieuse continue sur des lunettes peu gênantes alimentée par la détection acoustique (2023).

Les chercheurs de l’Université Cornell ont développé une interface de reconnaissance vocale silencieuse qui utilise la détection acoustique et l’intelligence artificielle pour reconnaître en continu jusqu’à 31 commandes non vocales, basées sur les mouvements des lèvres et de la bouche.

L’interface portable à faible consommation d’énergie, appelée EchoSpeech, ne nécessite que quelques minutes de données de formation de l’utilisateur avant de reconnaître les commandes et de pouvoir être exécutée sur un smartphone.

Ruidong Zhang, doctorant en sciences de l’information, est l’auteur principal de « EchoSpeech: Continuous Silent Speech Recognition on Minimally-obtrusive Eyewear Powered by Acoustic Sensing », qui sera présenté à l’Association for Computing Machinery Conference on Human Factors in Computing Systems ( CHI) ce mois-ci à Hambourg, en Allemagne.

« Pour les personnes qui ne peuvent pas vocaliser le son, cette technologie de parole silencieuse pourrait être une excellente entrée pour un synthétiseur vocal. Elle pourrait redonner aux patients leur voix », a déclaré Zhang à propos de l’utilisation potentielle de la technologie avec un développement ultérieur.

Dans sa forme actuelle, EchoSpeech pourrait être utilisé pour communiquer avec d’autres via un smartphone dans des endroits où la parole est gênante ou inappropriée, comme un restaurant bruyant ou une bibliothèque tranquille. L’interface vocale silencieuse peut également être associée à un stylet et utilisée avec un logiciel de conception tel que la CAO, éliminant ainsi le besoin d’un clavier et d’une souris.

Équipées d’une paire de microphones et de haut-parleurs plus petits que des gommes à crayons, les lunettes EchoSpeech deviennent un système de sonar portable alimenté par l’IA, envoyant et recevant des ondes sonores sur le visage et détectant les mouvements de la bouche. Un algorithme d’apprentissage en profondeur analyse ensuite ces profils d’écho en temps réel, avec une précision d’environ 95 %.

« Nous déplaçons le sonar sur le corps », a déclaré Cheng Zhang, professeur adjoint de sciences de l’information et directeur du laboratoire d’interfaces informatiques intelligentes pour les interactions futures (SciFi) de Cornell.

« Nous sommes très enthousiasmés par ce système », a-t-il déclaré, « car il fait vraiment progresser les performances et la confidentialité. Il est petit, à faible consommation d’énergie et sensible à la confidentialité, qui sont toutes des caractéristiques importantes pour le déploiement de nouvelles technologies portables dans le vrai monde. »

La plupart des technologies de reconnaissance vocale silencieuse se limitent à un ensemble sélectionné de commandes prédéterminées et obligent l’utilisateur à faire face ou à porter une caméra, ce qui n’est ni pratique ni faisable, a déclaré Cheng Zhang. Il existe également des problèmes majeurs de confidentialité concernant les caméras portables, à la fois pour l’utilisateur et pour ceux avec qui l’utilisateur interagit, a-t-il déclaré.

La technologie de détection acoustique comme EchoSpeech élimine le besoin de caméras vidéo portables. Et parce que les données audio sont beaucoup plus petites que les données image ou vidéo, elles nécessitent moins de bande passante pour être traitées et peuvent être relayées vers un smartphone via Bluetooth en temps réel, a déclaré François Guimbretière, professeur en sciences de l’information.

« Et parce que les données sont traitées localement sur votre smartphone au lieu d’être téléchargées sur le cloud », a-t-il déclaré, « les informations sensibles à la confidentialité ne vous quittent jamais ».

Fourni par l’Université Cornell