La reconnaissance vocale automatique rivalise avec les humains dans les environnements bruyants

La reconnaissance automatique de la parole (ASR) a fait des progrès incroyables au cours des dernières années, notamment pour les langues largement parlées comme l’anglais. Avant 2020, on supposait généralement que les capacités humaines en matière de reconnaissance vocale dépassaient de loin les systèmes automatiques, mais certains systèmes actuels ont commencé à égaler les performances humaines.

L’objectif du développement des systèmes ASR a toujours été de réduire le taux d’erreur, quelle que soit la manière dont les personnes se comportent dans le même environnement. Après tout, même les gens ne reconnaîtront pas la parole avec une précision de 100 % dans un environnement bruyant.

Dans une nouvelle étude, Eleanor Chodroff, spécialiste de la linguistique informatique à l’UZH, et Chloe Patman, chercheuse de l’Université de Cambridge, ont comparé deux systèmes ASR populaires, wav2vec 2.0 de Meta et Whisper d’Open AI, à des auditeurs natifs d’anglais britannique. Ils ont testé dans quelle mesure les systèmes reconnaissaient la parole dans un bruit en forme de parole (un bruit statique) ou dans un bruit de pub, et l’ont produit avec ou sans masque en coton.

L’étude est publiée dans la revue Lettres express JASA.

Le dernier système OpenAI est meilleur, à une exception près

Les chercheurs ont découvert que les humains conservaient toujours un avantage sur les deux systèmes ASR. Cependant, le plus récent grand système ASR d’OpenAI, Whisper large-v3, a largement surpassé les auditeurs humains dans toutes les conditions testées, à l’exception du bruit naturaliste des pubs, où il était simplement à égalité avec les humains. Whisper large-v3 a ainsi démontré sa capacité à traiter les propriétés acoustiques de la parole et à la mapper avec succès au message visé (c’est-à-dire la phrase).

« C’était impressionnant car les phrases testées étaient présentées hors contexte et il était difficile de prédire un mot parmi les mots précédents », explique Chodroff.

Vastes données de formation

Un examen plus attentif des systèmes ASR et de la manière dont ils ont été formés montre que les humains accomplissent néanmoins quelque chose de remarquable. Les deux systèmes testés impliquent un apprentissage en profondeur, mais le système le plus compétitif, Whisper, nécessite une quantité incroyable de données d’entraînement.

Le wav2vec 2.0 de Meta a été formé sur 960 heures (ou 40 jours) de données audio en anglais, tandis que le système Whisper par défaut a été formé sur plus de 75 ans de données vocales. Le système qui a réellement surpassé les capacités humaines a été formé sur plus de 500 ans de parole ininterrompue.

« Les humains sont capables d’égaler cette performance en quelques années seulement », explique Chodroff. « Des défis considérables restent également à relever pour la reconnaissance automatique de la parole dans presque toutes les autres langues. »

Différents types d’erreurs

Le document révèle également que les humains et les systèmes ASR commettent différents types d’erreurs. Les auditeurs anglais produisaient presque toujours des phrases grammaticales, mais étaient plus susceptibles d’écrire des fragments de phrase, plutôt que d’essayer de fournir un mot écrit pour chaque partie de la phrase parlée.

En revanche, wav2vec 2.0 produisait fréquemment du charabia dans les conditions les plus difficiles. Whisper avait également tendance à produire des phrases grammaticales complètes, mais était plus susceptible de « combler les lacunes » avec des informations complètement fausses.