Une étude comparative sur les services de transcription

Une équipe de recherche de l'Empirical Research Support (ERS) du CISPA Helmholtz Center for Information Security a mené une comparaison systématique des services de transcription les plus populaires. La comparaison a impliqué 11 fournisseurs de transcriptions manuelles et basées sur l'IA.

Il montre que, malgré une bonne qualité, ces derniers ont encore des problèmes d'attribution du locuteur et qu'il existe des écarts entre l'enregistrement et la transcription qui faussent le sens. Whisper AI d'OpenAI a fourni les meilleurs résultats parmi les fournisseurs d'IA.

Les entretiens sont une méthode populaire de collecte de données scientifiques. Il existe une distinction fondamentale entre les entretiens quantitatifs et qualitatifs. Alors que le premier vise à obtenir des informations statistiquement utilisables auprès d'un grand nombre de participants à l'aide de questionnaires standardisés, le second vise à obtenir des données d'entretien permettant l'interprétation par les chercheurs.

Un type particulier est l'entretien guidé, dans lequel se trouve une liste de questions préparées à l'avance, dont il est toutefois possible de s'écarter au cours de l'entretien. « Dans la recherche sur la cybersécurité, ces entretiens sont utilisés pour explorer les schémas d'action et l'interprétation des acteurs qui opèrent via des moyens numériques », explique le sociologue Dr Rafael Mrowczynski de l'équipe de soutien à la recherche empirique (ERS) du CISPA. L'équipe de l'ERS conseille les chercheurs du Centre sur les questions méthodologiques.

Conversion d'un fichier audio en texte

La transcription est une étape cruciale dans l’analyse qualitative des données. « La procédure standard consiste à convertir les enregistrements audio des entretiens en texte. Il est important pour la qualité des données que les transcriptions soient adéquates », explique Mrowczynski. Selon le domaine scientifique, il existe différentes normes de transcription.

« Dans la recherche sur la cybersécurité, nous travaillons généralement avec des transcriptions qui reproduisent précisément le contenu de la conversation », explique Mrowczynski. Une transcription adéquate ne contient donc que les paroles prononcées pertinentes. Les chercheurs peuvent obtenir la transcription de deux manières : soit elle est créée par l’équipe de recherche elle-même, soit la tâche est sous-traitée à des prestataires tiers.

Parmi les fournisseurs tiers, outre la transcription manuelle, il y a récemment eu un véritable battage médiatique autour de la transcription automatisée basée sur l'IA. Cela est dû aux progrès exponentiels en matière de développement et de qualité que les applications d’IA ont connu dans de nombreux domaines au cours des deux dernières années.

Les chercheurs de l'équipe ERS de CISPA voulaient savoir quel fournisseur du marché obtenait les meilleurs résultats et comment la transcription automatisée basée sur l'IA se comportait par rapport à la transcription manuelle. L'objectif était de pouvoir fournir aux chercheurs du CISPA et à la communauté de la cybersécurité une recommandation pour travailler avec des entretiens qualitatifs.

L'approche de l'équipe ERS

Pour leur projet de recherche, Mrowczynski et ses collègues, le Dr Maria Hellenthal, le Dr Rudolf Siegel et le Dr Michael Schilling, ont créé un ensemble de données de test. Il s'agissait d'entretiens individuels d'une dizaine de minutes et de discussions de groupe avec des chercheurs du CISPA en allemand et en anglais. Le contenu était axé sur le domaine de recherche de la cybersécurité.

« Il était important que les termes techniques de la communauté soient inclus afin que la précision de la transcription puisse être évaluée », explique Mrowczynski. Certains entretiens ont en outre été enrichis d'un bruit de fond afin de mieux refléter les contextes réels de la recherche quotidienne.

Les données ont été envoyées à onze fournisseurs en décembre 2022. Parmi eux figuraient les services de transcription Amberscript, GoTranscript, QualTranscribe, Rev et Scribbl, ainsi que les fournisseurs de transcription basés sur l'IA Amazon Transcribe, AssemblyAI, Audiotranskription.de, Google Cloud, Microsoft. Azure et Whisper par OpenAI.

Pour l'évaluation des transcriptions obtenues, Mrowczynski et ses collègues ont créé une transcription de référence qui a servi de base à l'analyse comparative. L’analyse elle-même s’est ensuite concentrée sur deux critères centraux. Premièrement, les chercheurs ont évalué le taux d’erreur sur les mots, qui indique de combien de mots une transcription diffère de la transcription de référence. Deuxièmement, l’écart qualitatif par rapport à la transcription de référence a été codé manuellement.

Les services de transcription manuelle battent l’IA

Dans leur article, Mrowczynski et ses collègues concluent qu'en général, « la plupart des services de transcription manuelle atteignent un niveau de performance louable, tandis que les services basés sur l'IA montrent souvent des écarts déformant le sens entre l'enregistrement et la transcription ».

La distorsion du sens est clairement visible en termes techniques ; Mrowczynski explique : « Dans la transcription, par exemple, le terme « hachages » est devenu « cendres ». C'est ainsi que nous avons trouvé le titre du journal. »

Whisper d'OpenAI a obtenu les meilleurs résultats parmi les fournisseurs basés sur l'IA. La plupart des prestataires géraient mieux l’anglais que l’allemand. Trois fournisseurs ne proposaient pas du tout de transcription pour l’allemand. Le bruit de fond a généralement un effet négatif sur le résultat. Les fournisseurs basés sur l'IA ont particulièrement eu des problèmes avec l'attribution des intervenants.

De plus, les transcriptions créées par une IA devaient être reformatées avant qu’il soit possible de les traiter davantage dans un logiciel d’analyse qualitative des données. Les chercheurs soulignent toutefois que leur analyse reflète l’état de l’art en décembre 2022 et que les évolutions actuelles ne peuvent pas être prises en compte.

La recherche a été présentée lors de la conférence CCS ACM 2023 sur la sécurité informatique et des communications.

Fourni par le Centre CISPA Helmholtz pour la sécurité de l'information