Lecture d'anciennes écritures manuscrites avec une plateforme d'IA

Lecture d’anciennes écritures manuscrites avec une plateforme d’IA

Grâce à la plateforme en ligne, même les non-experts peuvent numériser et lire très facilement des manuscrits historiques. Crédit : Universität Innsbruck

Grâce à l’intelligence artificielle, les ordinateurs peuvent déchiffrer des textes manuscrits et les rendre lisibles par tous. La plateforme Transkribus, co-développée à l’Université d’Innsbruck, en Autriche, met cette technologie à la disposition des universitaires et du grand public. Un groupe toujours croissant de personnes utilise Transkribus pour rechercher leur histoire familiale. Récemment, des utilisateurs du monde entier se sont rencontrés à Innsbruck.

L’écriture manuscrite est aussi individuelle que les gens. Néanmoins, les ordinateurs d’aujourd’hui sont capables de reconnaître automatiquement les écritures manuscrites dans une grande variété de langues. La plateforme logicielle Transkribus, co-développée par l’Université d’Innsbruck, met cette technologie à la disposition de la communauté scientifique, des archives et du grand public. Plus de 90 000 utilisateurs du monde entier utilisent déjà la plateforme pour rendre les documents manuscrits lisibles et consultables. Un groupe toujours croissant de personnes s’intéresse à l’histoire de leur famille et commence à rechercher leurs ancêtres dans les registres paroissiaux, les contrats ou d’autres documents historiques.

« Rechercher ces documents à la main peut être une tâche très fastidieuse. Notre technologie facilite désormais la recherche d’histoires familiales », déclare Günter Mühlberger du groupe de travail sur la numérisation et l’archivage numérique de l’université d’Innsbruck, en Autriche, et président du conseil d’administration. de la coopérative européenne READ-COOP.

Rechercher rapidement de grandes collections

Les archives et les bibliothèques conservent des documents historiques d’une valeur inestimable. Ces documents prennent beaucoup de place. Par exemple, les documents des Archives nationales autrichiennes remplissent 350 kilomètres de plateau. La plupart de ces documents ne sont disponibles que sous forme manuscrite et ne sont plus lisibles pour de nombreux utilisateurs car ils sont écrits dans un script appelé Kurrent, une ancienne forme d’écriture manuscrite en langue allemande basée sur l’écriture cursive de la fin du Moyen Âge.

« C’est là que la plateforme Transkribus entre en jeu, reconnaissant automatiquement cette écriture et la rendant ainsi lisible pour tous », explique Günter Mühlberger. De plus, les documents peuvent également être facilement recherchés. Cela rend la recherche dans les collections historiques beaucoup plus facile car des centaines ou des milliers de documents peuvent être recherchés simultanément pour les noms de famille ou d’autres termes.

Lecture de l’allemand courant, de l’arabe et du chinois

Transkribus fonctionne avec des réseaux de neurones. Cette méthode de machine learning a le grand avantage de ne plus avoir à programmer manuellement la reconnaissance pour chaque type d’écriture. « Les utilisateurs apprennent à la machine à lire l’écriture manuscrite », explique Günter Mühlberger. « Et une machine ne se fatigue pas, ce qui signifie qu’elle peut traiter des milliers, des centaines de milliers ou des millions de pages, automatiquement. C’est ce que nous avons fait pour les Archives nationales de Finlande, par exemple, où plus de 2 millions de documents manuscrits datant de au 19ème siècle sont désormais consultables par tous. »

La technologie utilisée est totalement indépendante de la langue et de l’écriture ou du type d’écriture. Transkribus reconnaît non seulement l’écriture manuscrite allemande kurrent ou moderne, mais également les écritures médiévales, ainsi que l’écriture manuscrite hébraïque, arabe ou indienne. « Et en ce moment, nous expérimentons avec le chinois ancien », ajoute Mühlberger.

Une aide précieuse pour les chercheurs

En science, et en sciences humaines aussi, les applications de Transkribus sont multiples. Par exemple, le philologue classique d’Innsbruck, William Barton, qui a reçu le prix START de 1,2 million d’euros pour ses recherches avec l’aide de Transkribus, a décodé les entrées du journal de Karl Benedikt Hase du XIXe siècle que l’on croyait perdues, rédigées en grec ancien manuscrit . Les précieuses informations qui y sont contenues doivent être rendues accessibles à d’autres domaines de recherche.

« Les journaux intimes et secrets du savant Karl Benedikt Hase contiennent des enregistrements de neuf ans. La quantité de texte est énorme, il y a environ 2 500 pages », explique William Barton du Département d’études néo-latines. « J’ai entraîné la machine à modéliser l’écriture manuscrite de Hase sur la base de 100 pages. Elle est désormais capable de lire tous ses journaux et de transcrire le texte de manière fiable. » Une étude récente de l’Université d’Edimbourg a révélé que plus de 400 publications scientifiques ont désormais été produites avec l’aide de Transkribus.