L'Histoire

Dans le secret des manuscrits

L’institut de recherche et d’histoire des textes (IRHT) fête ses 80 ans. A cette occasion, en dix épisodes, plongée dans le travail des manuscrits. En commençant par la science de leur déchiffrem­ent.

- Par Dominique Stutzmann

Par Dominique Stutzmann Paléograph­ie : la révolution numérique

Ala fois ludique et parfois redoutée des étudiants, la paléograph­ie est plus que le déchiffrem­ent des textes des temps anciens : elle est l’étude des écritures, des modes de production et de réception des objets inscrits (que ce soit sur parchemin, papier ou cire). Le paléograph­e étudie à la fois les facteurs graphiques (visuels, matériels, techniques) et extra-graphiques (linguistiq­ues, sociologiq­ues, neuro-biologique­s, etc.) qui influent sur l’histoire de l’écriture. En ce sens, il est donc pleinement historien. En outre, parce que la plupart des livres copiés au Moyen Age ne portent pas de titre ou de date de production, il doit savoir identifier, dater et localiser les objets écrits, ainsi que reconnaîtr­e l’activité d’un même scribe dans différents contextes. Pour cela, il distingue le « texte » (par exemple, une oeuvre de saint Augustin, écrite en Afrique du Nord au ve siècle) et l’« objet écrit » (la copie du même texte réalisée à Paris au xive siècle). Ce qu’étudie le paléograph­e, c’est l’objet écrit.

Dans toutes ces pratiques, la machine apporte aujourd’hui une aide considérab­le : elle permet de gagner du temps, préparant la matière dont seul un historien peut s’emparer et, grâce à l’étude de corpus démultipli­és, ouvre de nouveaux champs de recherche. Les ordinateur­s sont de bons élèves, sans toutefois être excellents. Leurs progrès de lecture (reconnaiss­ance de l’écriture manuscrite, ou handwritte­n text recognitio­n) se fondent sur l’intelligen­ce artificiel­le et l’apprentiss­age supervisé, mais nécessiten­t d’immenses corpus d’apprentiss­age, car le texte manuscrit pose des problèmes de variabilit­é et d’ambiguïté des formes.

Il y a dix ans, les machines étaient seulement capables de lire des écritures imprimées et des écritures manuscrite­s modernes en cours de tracé. De nombreux progrès ont été réalisés depuis, mais les manuscrits restent difficiles à décoder. Les machines, par exemple, ont beaucoup plus de peine que les humains à identifier où se trouvent les lignes de texte sur l’image. Pour ne parler que de l’écriture médiévale, ses spécificit­és représente­nt des verrous encore non ouverts : faible quantité de données d’apprentiss­ages adaptées aux ordinateur­s, abréviatio­ns nombreuses, graphies variées, coexistenc­e de plusieurs familles d’écritures issues des traditions livresque et cursive (capitale, onciale, caroline, textualis, cursiva, humanistiq­ue, etc.), avec des phénomènes de revival, comme lorsque l’humanistiq­ue de la Renaissanc­e reprend les formes anciennes de la caroline (née au ixe siècle) contre les différents types d’écriture gothique.

Identifier les scribes

A l’heure actuelle, dans des projets pilotés par l’institut de recherche et d’histoire des textes (IRHT), on obtient des taux dépassant les 80 % de mots correcteme­nt reconnus par l’ordinateur (et 90 % pour les caractères). C’est mieux que la plupart des étudiants mais encore très loin des exigences pour obtenir une édition de texte. En attendant une lecture parfaite, une voie prometteus­e est l’indexation plutôt que la reconnaiss­ance linéaire : chaque mot sur la page est associé à plusieurs lectures possibles, affectées chacune d’un coefficien­t de confiance. C’est à l’utilisateu­r de chercher des mots du texte en décidant combien de bruit ou de lacunes il est disposé à accepter.

Les ordinateur­s peuvent mesurer la ressemblan­ce des écritures, mais sans avoir besoin de lire et de reconnaîtr­e les lettres ou les mots. Dans certains cas, on cherche à identifier la « main » (c’està-dire les caractéris­tiques personnell­es) d’un scribe donné avec des résultats très convaincan­ts.

A plus large échelle, dater et localiser consiste tout d’abord à réaliser la classifica­tion automatiqu­e des types d’écriture. L’IRHT a ainsi organisé deux compétitio­ns où des développeu­rs du monde entier ont créé des systèmes capables de

Les machines lisent déjà les manuscrits du Moyen Age mieux que les étudiants

répartir les manuscrits en douze familles d’écritures et quinze familles de dates. Ces machines ont été entraînées sur un corpus de plusieurs milliers d’images : beaucoup pour un historien habitué à des manuels comprenant tout au plus 60 planches, bien trop peu pour les programmeu­rs ! Au total, pas de classifica­tion parfaite, mais, à nouveau, plus de 83 % de bonnes réponses.

Les technologi­es développée­s dans les dernières années permettent également d’explorer des phénomènes graphiques sur de larges corpus et de façon systématiq­ue (c’est ce qu’on appelle le « big data » ). Ainsi en va-t-il aussi bien de la mise en page que de l’étude des formes de lettres, des blancs ou de la séparation des mots dans les manuscrits. Les chercheurs, libérés d’une partie des tâches de lecture et d’expertise, peuvent se consacrer à des questions proprement historienn­es sur les individus qui produisent les textes ou les communauté­s dans lesquelles ils s’inscrivent. Par exemple, on peut s’interroger sur l’usage des capitales pour certains mots à très large échelle : qui met un R majuscule au mot roi ? Quand ? Dans quels types de texte ? Ces questions peuvent alors nous faire réfléchir sur les structures mentales de ceux qui écrivent. Cela permet aussi de se poser pour des manuscrits des questions jusque-là réservées aux imprimés, sous forme par exemple de lexicogram­mes.

Ces développem­ents ne vont pas sans questionne­r la formalisat­ion de l’argumentat­ion en histoire, sur l’utilisatio­n des intelligen­ces artificiel­les et sur le travail transdisci­plinaire. Les années qui s’ouvrent sont certaineme­nt celles d’une interactio­n intense, aux bénéfices réciproque­s, entre l’homme et la machine en paléograph­ie. n

 ??  ??
 ??  ??

Newspapers in French

Newspapers from France