Une étude évalue la qualité des traductions littéraires de l'IA en les comparant aux traductions humaines

Une étude évalue la qualité des traductions littéraires de l’IA en les comparant aux traductions humaines

Crédit : Thai et al.

Les avancées récentes dans le domaine de l’apprentissage automatique (ML) ont considérablement amélioré la qualité des outils de traduction automatique. À l’heure actuelle, ces outils sont principalement utilisés pour traduire des phrases simples, ainsi que des textes courts ou des documents non officiels.

Les textes littéraires, tels que les romans ou les nouvelles, sont encore entièrement traduits par des traducteurs humains experts, qui ont l’habitude de saisir des significations abstraites et complexes et de les traduire dans une autre langue. Alors que quelques études ont étudié le potentiel des modèles informatiques pour traduire des textes littéraires, les résultats dans ce domaine sont encore limités.

Des chercheurs de l’UMass Amherst ont récemment mené une étude explorant la qualité des traductions de textes littéraires produites par des machines, en les comparant aux mêmes traductions de texte créées par des humains. Leurs conclusions, prépubliées sur arXiv, mettent en évidence certaines des lacunes des modèles informatiques existants pour traduire des textes étrangers en anglais.

« La traduction automatique (MT) a le potentiel de compléter le travail des traducteurs humains en améliorant à la fois les procédures de formation et leur efficacité globale », ont écrit Katherine Thai et ses collègues dans leur article. « La traduction littéraire est moins contrainte que les paramètres de traduction automatique plus traditionnels, car les traducteurs doivent équilibrer l’équivalence de sens, la lisibilité et l’interprétabilité critique dans la langue cible. Cette propriété, ainsi que le contexte complexe au niveau du discours présent dans les textes littéraires, rend également la traduction littéraire plus difficile. pour modéliser et évaluer par ordinateur. »

L’objectif principal des travaux récents de Thai et de ses collègues était de mieux comprendre les raisons pour lesquelles les outils de traduction automatique de pointe échouent encore dans la traduction de textes littéraires par rapport aux traductions humaines. Leur espoir était que cela aiderait à identifier les domaines spécifiques sur lesquels les développeurs devraient se concentrer pour améliorer les performances de ces modèles.

« Nous collectons un ensemble de données (PAR3) de romans en langue non anglaise dans le domaine public, chacun aligné au niveau du paragraphe sur les traductions anglaises humaines et automatiques », ont expliqué Thai et ses collègues dans leur article.

PAR3, le nouvel ensemble de données compilé par les chercheurs pour le cadre de leur étude, contient 121 000 paragraphes extraits de 118 romans écrits à l’origine dans différentes langues autres que l’anglais. Pour chacun de ces paragraphes, le jeu de données comprend plusieurs traductions humaines différentes, ainsi qu’une traduction produite par Google translate.

Les chercheurs ont comparé la qualité des traductions humaines de ces paragraphes littéraires avec celles produites par Google Translate, en utilisant des métriques communes pour évaluer les outils de traduction automatique. Parallèlement, ils ont demandé à des traducteurs humains experts quelles traductions ils préféraient, tout en les invitant à identifier les problèmes avec leur traduction la moins préférée.

« En utilisant PAR3, nous découvrons que les traducteurs littéraires experts préfèrent les traductions humaines de référence aux paragraphes traduits automatiquement à un taux de 84 %, tandis que les mesures automatiques de traduction automatique de pointe ne correspondent pas à ces préférences », ont écrit Thai et ses collègues. dans leur papier. « Les experts notent que les sorties MT contiennent non seulement des erreurs de traduction, mais aussi des erreurs perturbatrices du discours et des incohérences stylistiques. »

Essentiellement, les résultats recueillis par Thai et ses collègues suggèrent que les mesures pour évaluer MT (par exemple, BLEU, BLEURT et BLONDE) pourraient ne pas être particulièrement efficaces, car les traducteurs humains n’étaient pas d’accord avec leurs prédictions. Notamment, les commentaires qu’ils ont recueillis auprès de traducteurs humains ont également permis aux chercheurs d’identifier des problèmes spécifiques avec les traductions créées par Google translate.

En utilisant les commentaires des experts humains comme ligne directrice, l’équipe a finalement créé un modèle de post-édition automatique basé sur GPT-3, une approche d’apprentissage en profondeur introduite par un groupe de recherche d’OpenAI. Ils ont constaté que les traducteurs humains experts préféraient les traductions littéraires produites par ce modèle à un taux de 69 %.

À l’avenir, les résultats de cette étude pourraient éclairer de nouvelles études explorant l’utilisation des outils de traduction automatique pour traduire des textes littéraires. De plus, l’ensemble de données PAR3 compilé par Thai et ses collègues, qui est maintenant disponible publiquement sur GitHubpourraient être utilisés par d’autres équipes pour former ou évaluer leurs modèles linguistiques.

« Dans l’ensemble, nos travaux révèlent de nouveaux défis pour progresser dans la traduction littéraire, et nous espérons que la sortie publique de PAR3 encouragera les chercheurs à les relever », ont conclu les chercheurs dans leur article.