Dans le secret des manuscrits
L’institut de recherche et d’histoire des textes (IRHT) fête ses 80 ans. A cette occasion, en dix épisodes, plongée dans le travail des manuscrits. En commençant par la science de leur déchiffrement.
Par Dominique Stutzmann Paléographie : la révolution numérique
Ala fois ludique et parfois redoutée des étudiants, la paléographie est plus que le déchiffrement des textes des temps anciens : elle est l’étude des écritures, des modes de production et de réception des objets inscrits (que ce soit sur parchemin, papier ou cire). Le paléographe étudie à la fois les facteurs graphiques (visuels, matériels, techniques) et extra-graphiques (linguistiques, sociologiques, neuro-biologiques, etc.) qui influent sur l’histoire de l’écriture. En ce sens, il est donc pleinement historien. En outre, parce que la plupart des livres copiés au Moyen Age ne portent pas de titre ou de date de production, il doit savoir identifier, dater et localiser les objets écrits, ainsi que reconnaître l’activité d’un même scribe dans différents contextes. Pour cela, il distingue le « texte » (par exemple, une oeuvre de saint Augustin, écrite en Afrique du Nord au ve siècle) et l’« objet écrit » (la copie du même texte réalisée à Paris au xive siècle). Ce qu’étudie le paléographe, c’est l’objet écrit.
Dans toutes ces pratiques, la machine apporte aujourd’hui une aide considérable : elle permet de gagner du temps, préparant la matière dont seul un historien peut s’emparer et, grâce à l’étude de corpus démultipliés, ouvre de nouveaux champs de recherche. Les ordinateurs sont de bons élèves, sans toutefois être excellents. Leurs progrès de lecture (reconnaissance de l’écriture manuscrite, ou handwritten text recognition) se fondent sur l’intelligence artificielle et l’apprentissage supervisé, mais nécessitent d’immenses corpus d’apprentissage, car le texte manuscrit pose des problèmes de variabilité et d’ambiguïté des formes.
Il y a dix ans, les machines étaient seulement capables de lire des écritures imprimées et des écritures manuscrites modernes en cours de tracé. De nombreux progrès ont été réalisés depuis, mais les manuscrits restent difficiles à décoder. Les machines, par exemple, ont beaucoup plus de peine que les humains à identifier où se trouvent les lignes de texte sur l’image. Pour ne parler que de l’écriture médiévale, ses spécificités représentent des verrous encore non ouverts : faible quantité de données d’apprentissages adaptées aux ordinateurs, abréviations nombreuses, graphies variées, coexistence de plusieurs familles d’écritures issues des traditions livresque et cursive (capitale, onciale, caroline, textualis, cursiva, humanistique, etc.), avec des phénomènes de revival, comme lorsque l’humanistique de la Renaissance reprend les formes anciennes de la caroline (née au ixe siècle) contre les différents types d’écriture gothique.
Identifier les scribes
A l’heure actuelle, dans des projets pilotés par l’institut de recherche et d’histoire des textes (IRHT), on obtient des taux dépassant les 80 % de mots correctement reconnus par l’ordinateur (et 90 % pour les caractères). C’est mieux que la plupart des étudiants mais encore très loin des exigences pour obtenir une édition de texte. En attendant une lecture parfaite, une voie prometteuse est l’indexation plutôt que la reconnaissance linéaire : chaque mot sur la page est associé à plusieurs lectures possibles, affectées chacune d’un coefficient de confiance. C’est à l’utilisateur de chercher des mots du texte en décidant combien de bruit ou de lacunes il est disposé à accepter.
Les ordinateurs peuvent mesurer la ressemblance des écritures, mais sans avoir besoin de lire et de reconnaître les lettres ou les mots. Dans certains cas, on cherche à identifier la « main » (c’està-dire les caractéristiques personnelles) d’un scribe donné avec des résultats très convaincants.
A plus large échelle, dater et localiser consiste tout d’abord à réaliser la classification automatique des types d’écriture. L’IRHT a ainsi organisé deux compétitions où des développeurs du monde entier ont créé des systèmes capables de
Les machines lisent déjà les manuscrits du Moyen Age mieux que les étudiants
répartir les manuscrits en douze familles d’écritures et quinze familles de dates. Ces machines ont été entraînées sur un corpus de plusieurs milliers d’images : beaucoup pour un historien habitué à des manuels comprenant tout au plus 60 planches, bien trop peu pour les programmeurs ! Au total, pas de classification parfaite, mais, à nouveau, plus de 83 % de bonnes réponses.
Les technologies développées dans les dernières années permettent également d’explorer des phénomènes graphiques sur de larges corpus et de façon systématique (c’est ce qu’on appelle le « big data » ). Ainsi en va-t-il aussi bien de la mise en page que de l’étude des formes de lettres, des blancs ou de la séparation des mots dans les manuscrits. Les chercheurs, libérés d’une partie des tâches de lecture et d’expertise, peuvent se consacrer à des questions proprement historiennes sur les individus qui produisent les textes ou les communautés dans lesquelles ils s’inscrivent. Par exemple, on peut s’interroger sur l’usage des capitales pour certains mots à très large échelle : qui met un R majuscule au mot roi ? Quand ? Dans quels types de texte ? Ces questions peuvent alors nous faire réfléchir sur les structures mentales de ceux qui écrivent. Cela permet aussi de se poser pour des manuscrits des questions jusque-là réservées aux imprimés, sous forme par exemple de lexicogrammes.
Ces développements ne vont pas sans questionner la formalisation de l’argumentation en histoire, sur l’utilisation des intelligences artificielles et sur le travail transdisciplinaire. Les années qui s’ouvrent sont certainement celles d’une interaction intense, aux bénéfices réciproques, entre l’homme et la machine en paléographie. n