Un «sonar» alimenté par l'IA sur des lunettes intelligentes suit le regard et les expressions faciales

Les chercheurs de l'Université Cornell ont développé deux technologies qui suivent le regard et les expressions faciales d'une personne grâce à une détection semblable à celle d'un sonar. La technologie est suffisamment petite pour s'adapter aux lunettes intelligentes commerciales ou aux casques de réalité virtuelle ou de réalité augmentée, mais consomme beaucoup moins d'énergie que des outils similaires utilisant des caméras.

Les deux utilisent des haut-parleurs et des microphones montés sur une monture de lunettes pour faire rebondir les ondes sonores inaudibles sur le visage et capter les signaux réfléchis provoqués par les mouvements du visage et des yeux. L'un des appareils, GazeTrak, est le premier système de suivi oculaire qui repose sur des signaux acoustiques. Le second, EyeEcho, est le premier système basé sur des lunettes à détecter en continu et avec précision les expressions faciales et à les recréer via un avatar en temps réel.

Les appareils peuvent durer plusieurs heures avec une batterie de lunettes intelligentes et plus d’une journée avec un casque VR.

« Il est petit, bon marché et très peu gourmand en énergie, vous pouvez donc le porter sur des lunettes intelligentes tous les jours. Cela ne tuera pas votre batterie », a déclaré Cheng Zhang, professeur adjoint de sciences de l'information. Zhang dirige le laboratoire Smart Computer Interfaces for Future Interactions (SciFi) qui a créé les nouveaux appareils.

« Dans un environnement VR, vous souhaitez recréer des expressions faciales et des mouvements du regard détaillés afin de pouvoir avoir de meilleures interactions avec les autres utilisateurs », a déclaré Ke Li, doctorant qui a dirigé le développement de GazeTrak et EyeEcho.

Pour GazeTrak, les chercheurs ont positionné un haut-parleur et quatre microphones autour de l’intérieur de chaque monture d’œil d’une paire de lunettes pour rebondir et capter les ondes sonores du globe oculaire et de la zone autour des yeux. Les signaux sonores qui en résultent sont introduits dans un pipeline d'apprentissage en profondeur personnalisé qui utilise l'intelligence artificielle pour déduire en continu la direction du regard de la personne.

Pour EyeEcho, un haut-parleur et un microphone sont situés à côté des charnières des lunettes, pointant vers le bas pour capter les mouvements de la peau lorsque les expressions faciales changent. Les signaux réfléchis sont également interprétés à l’aide de l’IA.

Grâce à cette technologie, les utilisateurs peuvent passer des appels vidéo mains libres via un avatar, même dans un café bruyant ou dans la rue. Bien que certaines lunettes intelligentes aient la capacité de reconnaître des visages ou de distinguer quelques expressions spécifiques, aucune ne suit actuellement les expressions en continu comme EyeEcho.

Ces deux avancées ont des applications qui vont au-delà de l'amélioration de l'expérience VR d'une personne. GazeTrak pourrait être utilisé avec des lecteurs d'écran pour lire des parties de texte destinées aux personnes malvoyantes lorsqu'elles parcourent un site Web.

GazeTrak et EyeEcho pourraient également potentiellement aider à diagnostiquer ou à surveiller les maladies neurodégénératives, comme la maladie d'Alzheimer et la maladie de Parkinson. Dans ces conditions, les patients ont souvent des mouvements oculaires anormaux et des visages moins expressifs, et ce type de technologie pourrait suivre la progression de la maladie dans le confort de la maison du patient.

Li présentera GazeTrak à la conférence internationale annuelle sur l'informatique mobile et les réseaux à l'automne et EyeEcho à la conférence CHI de l'Association of Computing Machinery sur les facteurs humains dans les systèmes informatiques en mai.

Les résultats sont publiés sur le arXiv serveur de préimpression.