La nouvelle technologie de casque antibruit AI permet aux utilisateurs de choisir les sons qu’ils entendent

La nouvelle technologie de casque antibruit AI permet aux utilisateurs de choisir les sons qu’ils entendent

La plupart de ceux qui ont utilisé des écouteurs antibruit savent qu’entendre le bon bruit au bon moment peut être vital. Quelqu’un voudra peut-être effacer les klaxons de voiture lorsqu’il travaille à l’intérieur, mais pas lorsqu’il marche dans des rues animées. Pourtant, les gens ne peuvent pas choisir quels sons leurs écouteurs annulent.

Aujourd’hui, une équipe dirigée par des chercheurs de l’Université de Washington a développé des algorithmes d’apprentissage en profondeur qui permettent aux utilisateurs de choisir en temps réel les sons filtrés par leurs écouteurs. L’équipe appelle le système « audition sémantique ». Les écouteurs diffusent l’audio capturé vers un smartphone connecté, ce qui annule tous les sons environnementaux.

Que ce soit via des commandes vocales ou une application pour smartphone, les porteurs d’écouteurs peuvent sélectionner les sons qu’ils souhaitent inclure parmi 20 classes, tels que les sirènes, les cris de bébé, la parole, les aspirateurs et les gazouillis d’oiseaux. Seuls les sons sélectionnés seront joués via le casque.

L’équipe a présenté ses résultats le 1er novembre à l’UIST ’23 à San Francisco. À l’avenir, les chercheurs prévoient de publier une version commerciale du système.

« Comprendre à quoi ressemble le son d’un oiseau et l’extraire de tous les autres sons d’un environnement nécessite une intelligence en temps réel que les écouteurs antibruit actuels n’ont pas atteint », a déclaré l’auteur principal Shyam Gollakota, professeur à l’UW de la Paul G. Allen School of. Informatique et ingénierie.

« Le défi est que les sons entendus par les porteurs d’écouteurs doivent être synchronisés avec leurs sens visuels. Vous ne pouvez pas entendre la voix de quelqu’un deux secondes après qu’il vous a parlé. Cela signifie que les algorithmes neuronaux doivent traiter les sons en moins d’un centième de seconde.  »

En raison de ce manque de temps, le système d’audition sémantique doit traiter les sons sur un appareil tel qu’un smartphone connecté, plutôt que sur des serveurs cloud plus robustes. De plus, étant donné que les sons provenant de différentes directions arrivent dans les oreilles des personnes à des moments différents, le système doit préserver ces retards et autres signaux spatiaux afin que les personnes puissent toujours percevoir de manière significative les sons de leur environnement.

Testé dans des environnements tels que des bureaux, des rues et des parcs, le système a pu extraire des sirènes, des gazouillis d’oiseaux, des alarmes et d’autres sons de cible, tout en supprimant tous les autres bruits du monde réel. Lorsque 22 participants ont évalué la sortie audio du système pour le son cible, ils ont déclaré qu’en moyenne, la qualité s’était améliorée par rapport à l’enregistrement original.

Dans certains cas, le système a eu du mal à distinguer les sons partageant de nombreuses propriétés, comme la musique vocale et la parole humaine. Les chercheurs notent que la formation des modèles sur davantage de données réelles pourrait améliorer ces résultats.

Les autres co-auteurs de l’article étaient Bandhav Veluri et Malek Itani, tous deux doctorants de l’UW à l’Allen School ; Justin Chan, qui a réalisé cette recherche en tant que doctorant à l’école Allen et qui est maintenant à l’université Carnegie Mellon ; et Takuya Yoshioka, directeur de recherche chez AssemblyAI.