Des chercheurs développent une reconnaissance automatique de texte pour les anciennes tablettes cunéiformes
Une nouvelle application d’intelligence artificielle (IA) développée par une équipe de l’Université Martin Luther de Halle-Wittenberg (MLU), de l’Université Johannes Gutenberg de Mayence et de l’Université des sciences appliquées de Mayence est désormais capable de déchiffrer des textes difficiles à lire sur des tablettes cunéiformes.
Au lieu de photos, le système d’IA utilise des modèles 3D des tablettes, fournissant des résultats nettement plus fiables que les méthodes précédentes. Cela permet de rechercher dans le contenu de plusieurs tablettes pour les comparer entre elles. Cela ouvre également la voie à des questions de recherche entièrement nouvelles. Les résultats sont publiés dans L’Association Eurographique journal.
Pour leur nouvelle approche, les chercheurs ont utilisé des modèles 3D de près de 2 000 tablettes cunéiformes, dont environ 50 provenant d’une collection du MLU. Selon les estimations, il existe encore environ un million de comprimés de ce type dans le monde. Beaucoup d’entre eux ont plus de 5 000 ans et comptent donc parmi les documents écrits les plus anciens de l’humanité.
Ils couvrent un éventail de sujets extrêmement large. « On y trouve de tout : des listes de courses aux décisions de justice. Les tablettes donnent un aperçu du passé de l’humanité il y a plusieurs millénaires. Cependant, elles sont fortement altérées et donc difficiles à déchiffrer, même pour des yeux avertis », explique Hubert Mara, assistant. professeur à MLU.
En effet, les tablettes cunéiformes sont des morceaux d’argile non cuits dans lesquels une écriture a été pressée. Pour compliquer les choses, le système d’écriture était alors très complexe et englobait plusieurs langues. Par conséquent, non seulement des conditions d’éclairage optimales sont nécessaires pour reconnaître correctement les symboles, mais de nombreuses connaissances de base sont également nécessaires. « Jusqu’à présent, il était difficile d’accéder simultanément au contenu de nombreuses tablettes cunéiformes : il fallait en quelque sorte savoir exactement ce que l’on cherchait et où », ajoute Mara.
Son laboratoire a eu l’idée de développer un système d’intelligence artificielle basé sur des modèles 3D. Le nouveau système déchiffre les caractères mieux que les méthodes précédentes. En principe, le système d’IA fonctionne sur le même principe qu’un logiciel OCR (reconnaissance optique de caractères), qui convertit les images d’écriture et de texte en texte lisible par machine.
Cela présente de nombreux avantages. Une fois converti en texte informatique, l’écrit peut être plus facilement lu ou recherché. « L’OCR fonctionne généralement avec des photographies ou des numérisations. Cela ne pose aucun problème pour l’encre sur papier ou parchemin. Dans le cas des tablettes cunéiformes, cependant, les choses sont plus difficiles car la lumière et l’angle de vue influencent grandement la façon dont certains caractères peuvent être identifiés, » explique Ernst Stötzner de MLU. Il a développé le nouveau système d’IA dans le cadre de son mémoire de maîtrise sous la direction d’Hubert Mara.
L’équipe a formé le nouveau logiciel d’IA à l’aide d’analyses tridimensionnelles et de données supplémentaires. Une grande partie de ces données ont été fournies par l’Université des sciences appliquées de Mayence, qui supervise un vaste projet d’édition de modèles 3D de tablettes d’argile. Le système d’IA a ensuite réussi à reconnaître de manière fiable les symboles présents sur les tablettes. « Nous avons été surpris de constater que notre système fonctionne même bien avec des photographies, qui constituent en réalité un matériau source de moindre qualité », explique Stötzner.
Les travaux des chercheurs de Halle et de Mayence ouvrent un nouvel accès à un matériau jusqu’ici relativement exclusif et ouvrent de nombreuses nouvelles pistes de recherche. Jusqu’à présent, il s’agissait uniquement d’un prototype capable de distinguer de manière fiable les symboles de deux langues. Cependant, il existe au total douze langues cunéiformes. À l’avenir, le logiciel pourrait également aider à déchiffrer les inscriptions altérées, par exemple dans les cimetières, qui sont tridimensionnelles comme l’écriture cunéiforme.