Des traductions automatiques défectueuses jonchent le Web
Vers la fin du siècle dernier, Bill Gates a vu la possibilité d’unifier les citoyens de près de 200 pays, parlant plus de 7 000 langues, se réunissant dans un dialogue commun grâce à la communauté Web en plein essor.
« Internet est en train de devenir la place publique du village planétaire de demain », a-t-il déclaré.
Depuis lors, Internet a certainement rapproché le monde et a considérablement enrichi les communications, le commerce, la recherche et le divertissement à l’échelle mondiale.
Mais un rapport récent nous rappelle – comme si nous avions vraiment besoin de le rappeler – que les progrès s’accompagnent parfois de problèmes.
Des chercheurs du laboratoire d’intelligence artificielle d’Amazon Web Services et de l’Université de Californie à Santa Barbara affirment qu’après avoir examiné plus de 6 milliards de phrases sur le Web, ils ont découvert que plus de la moitié avaient été traduites dans deux langues différentes ou plus. Les traductions, constatèrent-ils, étaient souvent médiocres. Et à chaque traduction successive dans d’autres langues, certaines jusqu’à huit ou neuf, les résultats empiraient.
Le rapport, « Une quantité choquante de Web est traduite par machine : aperçus du parallélisme multidirectionnel », a été téléchargé sur le serveur de préimpression. arXiv 11 janvier.
« La faible qualité de ces traductions indique qu’elles ont probablement été créées à l’aide d’une traduction automatique », rapportent les auteurs. « Notre travail soulève de sérieuses inquiétudes concernant les modèles de formation tels que les grands modèles linguistiques multilingues sur des données monolingues et bilingues extraites du Web. »
Les chercheurs ont déclaré que les textes ne sont pas seulement traduits par l’intelligence artificielle, mais également créés par l’IA. Ils ont observé que les taux de traductions générées par l’IA étaient les plus élevés parmi les langues à faibles ressources, telles que le wolof et le xhosa, des langues africaines.
« Nous constatons que les traductions parallèles hautement multidirectionnelles sont de qualité nettement inférieure aux traductions parallèles bidirectionnelles », poursuivent les auteurs.
Cela signifie qu’à mesure que des milliards de bits de données sont ingérés pour les opérations de formation à l’IA, les régions sous-représentées sur le Web, telles que les pays africains et d’autres pays aux langues plus obscures, seront confrontées à de plus grands défis pour établir de grands modèles linguistiques fiables et grammaticaux. . Disposant de peu de ressources natives sur lesquelles s’appuyer, ils doivent largement s’appuyer sur des traductions corrompues qui inondent le marché.
Mehak Dhaliwal, ancien stagiaire en sciences appliquées chez Amazon Web Services, a déclaré à Carte mère dans une interview : « Nous nous sommes en fait intéressés à ce sujet parce que plusieurs collègues qui travaillent dans la formation automatique et qui sont des locuteurs natifs de langues à faibles ressources ont noté qu’une grande partie d’Internet dans leur langue maternelle semble être générée par une formation automatique… Tout le monde doit être conscient que le contenu qu’il consulte sur le Web peut avoir été généré par une machine.
Les chercheurs d’Amazon ont découvert des biais dans la sélection du contenu utilisé pour la formation en IA.
Ils déclarent : « Les traductions parallèles multidirectionnelles générées automatiquement dominent non seulement la quantité totale de contenu traduit sur le Web dans les langues à faibles ressources, mais constituent également une grande partie du contenu Web total dans ces langues. »
De tels contenus, suggèrent-ils, ont tendance à être des passages plus simples et de moindre qualité, « probablement produits pour générer des revenus publicitaires ». Étant donné que la fluidité et la précision sont moindres pour le matériel formé par machine, de nombreuses traductions conduiront à un contenu encore moins précis et augmenteront les risques d’hallucination de l’IA.
Parfois, les traductions générées par ordinateur au fil des années ont donné lieu à des interprétations involontairement humoristiques ou embarrassantes.
Google a mal interprété l’expression « La Russie est un grand pays » et a fait référence au Mordor, un village fictif du « Seigneur des anneaux » de JRR Tolkien. En 2019, le logiciel de traduction de Facebook a fait référence par inadvertance au président chinois Xi Jinping comme « M. S***hole » à plusieurs reprises dans un article anglais traduit à partir d’un texte birman. Facebook s’est immédiatement excusé et a imputé l’incident à une « erreur technique ».
Et un outil de traduction d’ordonnances médicales pour les locuteurs arméniens a donné des conseils malheureux à un patient souffrant de maux de tête.
Anglais : « Vous pouvez prendre de l’ibuprofène en vente libre si nécessaire pour soulager la douleur. »
Traduction en arménien : « Vous pouvez prendre autant de missiles antichar que nécessaire pour soulager la douleur. »
