L'IA peut utiliser la perception humaine pour aider à éliminer les sons bruyants

Les chercheurs ont développé un nouveau modèle d’apprentissage profond qui promet d’améliorer considérablement la qualité audio dans des scénarios réels en tirant parti d’un outil jusqu’alors sous-utilisé : la perception humaine.

Les chercheurs ont découvert qu’ils pouvaient utiliser les évaluations subjectives de la qualité sonore effectuées par les personnes et les combiner avec un modèle d’amélioration de la parole pour aboutir à une meilleure qualité de la parole mesurée par des mesures objectives.

Le nouveau modèle a surpassé les autres approches standards pour minimiser la présence de sons bruyants, c’est-à-dire des sons indésirables susceptibles de perturber ce que l’auditeur souhaite réellement entendre. Plus important encore, les scores de qualité prévus générés par le modèle se sont révélés fortement corrélés aux jugements que les humains feraient.

Les mesures conventionnelles visant à limiter le bruit de fond ont utilisé des algorithmes d’IA pour extraire le bruit du signal souhaité. Mais ces méthodes objectives ne coïncident pas toujours avec l’évaluation par les auditeurs de ce qui rend la parole facile à comprendre, a déclaré Donald Williamson, co-auteur de l’étude et professeur agrégé d’informatique et d’ingénierie à l’Ohio State University.

« Ce qui distingue cette étude des autres, c’est que nous essayons d’utiliser la perception pour entraîner le modèle à supprimer les sons indésirables », a déclaré Williamson. « Si quelque chose concernant le signal en termes de qualité peut être perçu par les gens, alors notre modèle peut l’utiliser comme information supplémentaire pour apprendre et mieux éliminer le bruit.

L’étude, publiée dans la revue Transactions IEEE/ACM sur le traitement de l’audio, de la parole et du langageaxé sur l’amélioration de l’amélioration de la parole monaurale, ou de la parole provenant d’un seul canal audio, tel qu’un microphone.

Cette étude a entraîné le nouveau modèle sur deux ensembles de données issus de recherches antérieures impliquant des enregistrements de personnes parlant. Dans certains cas, des bruits de fond comme la télévision ou la musique pouvaient obscurcir les conversations. Les auditeurs ont évalué la qualité vocale de chaque enregistrement sur une échelle de 1 à 100.

Le modèle de cette équipe tire ses performances impressionnantes d’une méthode d’apprentissage conjoint qui intègre un module spécialisé de langage d’amélioration de la parole avec un modèle de prédiction capable d’anticiper le score d’opinion moyen que les auditeurs humains pourraient donner un signal bruyant.

Les résultats ont montré que leur nouvelle approche surpassait les autres modèles en conduisant à une meilleure qualité de parole mesurée par des mesures objectives telles que la qualité de perception, l’intelligibilité et les évaluations humaines.

Mais l’utilisation de la perception humaine de la qualité sonore présente ses propres problèmes, a déclaré Williamson.

« Ce qui rend l’audio bruyant si difficile à évaluer, c’est qu’il est très subjectif. Cela dépend de vos capacités auditives et de vos expériences auditives », a-t-il déclaré. Des facteurs tels que le fait d’avoir une aide auditive ou un implant cochléaire ont également un impact sur la façon dont une personne moyenne perçoit son environnement sonore, a-t-il déclaré.

Étant donné que l’amélioration de la qualité de la parole bruyante est cruciale pour améliorer les aides auditives, les programmes de reconnaissance vocale, les applications de vérification du locuteur et les systèmes de communication mains libres, il est important que ces différences de perception soient suffisamment faibles pour éviter que l’audio bruyant ne soit moins convivial.

Alors que la relation complexe entre l’intelligence artificielle et le monde réel continue d’évoluer, Williamson imagine que, à l’instar des dispositifs de réalité augmentée pour les images, les technologies futures pourront augmenter l’audio en temps réel, en ajoutant ou en supprimant certaines parties de l’environnement sonore pour améliorer l’expérience du consommateur. expérience d’écoute globale.

Pour y parvenir, les chercheurs prévoient de continuer à utiliser des évaluations subjectives humaines pour renforcer leur modèle afin de gérer des systèmes audio encore plus complexes et de garantir qu’il réponde aux attentes toujours fluctuantes des utilisateurs humains.

« En général, l’ensemble du processus d’apprentissage automatique de l’IA nécessite davantage d’implication humaine », a-t-il déclaré. « J’espère que le secteur reconnaîtra cette importance et continuera à soutenir cette voie. »