Les écouteurs AI permettent à l'utilisateur d'écouter une seule personne dans une foule en la regardant une seule fois

Les écouteurs antibruit sont devenus très efficaces pour créer une page vierge auditive. Mais autoriser l'effacement de certains sons provenant de l'environnement du porteur reste un défi pour les chercheurs. La dernière édition des AirPods Pro d'Apple, par exemple, ajuste automatiquement les niveaux sonores pour les utilisateurs, en détectant par exemple quand ils sont en conversation, mais l'utilisateur a peu de contrôle sur qui écouter ou quand cela se produit.

Une équipe de l'Université de Washington a développé un système d'intelligence artificielle qui permet à un utilisateur portant des écouteurs de regarder une personne qui parle pendant trois à cinq secondes pour l'« inscrire ». Le système, appelé « Target Speech Hearing », annule ensuite tous les autres sons de l'environnement et diffuse uniquement la voix de l'orateur enregistré en temps réel, même lorsque l'auditeur se déplace dans des endroits bruyants et ne fait plus face à l'orateur.

L'équipe a présenté ses conclusions le 14 mai à Honolulu lors de la conférence ACM CHI sur les facteurs humains dans les systèmes informatiques. Le code du dispositif de validation de principe est disponible pour que d'autres puissent s'en inspirer. Le système n'est pas disponible dans le commerce.

« Nous avons désormais tendance à considérer l'IA comme des chatbots basés sur le Web qui répondent aux questions », a déclaré l'auteur principal Shyam Gollakota, professeur à l'UW à la Paul G. Allen School of Computer Science & Engineering. « Mais dans ce projet, nous développons l'IA pour modifier la perception auditive de toute personne portant des écouteurs, en fonction de ses préférences. Avec nos appareils, vous pouvez désormais entendre clairement un seul locuteur même si vous êtes dans un environnement bruyant avec de nombreuses autres personnes qui parlent. »

Pour utiliser le système, une personne portant des écouteurs du commerce équipés de microphones appuie sur un bouton tout en dirigeant sa tête vers quelqu'un qui parle. Les ondes sonores de la voix de ce locuteur doivent alors atteindre simultanément les microphones des deux côtés du casque ; il y a une marge d'erreur de 16 degrés. Les écouteurs envoient ce signal à un ordinateur embarqué, où le logiciel d'apprentissage automatique de l'équipe apprend les modèles vocaux du locuteur souhaité. Le système s'accroche à la voix de ce locuteur et continue de la restituer à l'auditeur, même lorsque les deux se déplacent. La capacité du système à se concentrer sur la voix enregistrée s'améliore à mesure que l'orateur continue de parler, ce qui donne au système davantage de données d'entraînement.

L'équipe a testé son système sur 21 sujets, qui ont évalué en moyenne la clarté de la voix de l'orateur inscrit près de deux fois supérieure à celle de l'audio non filtré.

Ce travail s'appuie sur les recherches précédentes de l'équipe sur « l'audition sémantique », qui permettaient aux utilisateurs de sélectionner des classes de sons spécifiques, telles que les oiseaux ou les voix, qu'ils souhaitaient entendre et d'annuler d'autres sons dans l'environnement.

Actuellement, le système TSH ne peut inscrire qu'un seul locuteur à la fois, et il ne peut inscrire un locuteur que lorsqu'il n'y a pas d'autre voix forte venant de la même direction que la voix de l'orateur cible. Si un utilisateur n'est pas satisfait de la qualité du son, il peut effectuer une autre inscription sur le haut-parleur pour améliorer la clarté.

L’équipe travaille à étendre le système aux écouteurs et aux aides auditives à l’avenir.

Les autres co-auteurs de l'article étaient Bandhav Veluri, Malek Itani et Tuochao Chen, doctorants UW à l'école Allen, et Takuya Yoshioka, directeur de recherche à AssemblyAI.