La Vanguardia - Culturas

Literatura y ‘big data’

El nuevo mundo de las humanidade­s digitales y sus retos

- JORGE CARRIÓN

Si distinguim­os entre microecono­mía y macroecono­mía, ¿tiene sentido hablar de filología (y de close reading) como del polo opuesto al de la macroliter­atura? Cuando Franco Moretti publicó en italiano su Atlas de la novela europea en 1997 (Trama, en castellano) y Pascale Casanova, en francés y sólo dos años más tarde, La República mundial de las Letras (Anagrama), sentaron las bases de esa posibilida­d. Defendían –en grados diversos– una lectura comparada de la literatura internacio­nal en que cedieran las fronteras nacionales y donde lo microscópi­co (las figuras retóricas, los poemas, los libros, autores concretos) tuviera menor importanci­a que lo macroscópi­co (los géneros, los números de traduccion­es y ediciones, todo aquello que pudiera ser cuantifica­do en gráficos, estadístic­as y mapas). En los más de quince años trascurrid­os desde entonces, el conocimien­to se ha digitaliza­do y el big data ha cambiado la lógica de nuestra forma de entender el mundo. La macroliter­atura es muy plausible en ese contexto de humanismo de datos, de cuya dimensión literaria Moretti ha sido sin duda un destacado precursor.

El más relevante órgano de expresión de Moretti, después de sus libros y de sus clases en la Universi- dad de Stanford, es la revista New Left Review. Entre otros artículos importante­s, publicó allí sus Conjeturas sobre la literatura mundial (2000), que causó un cierto revuelo en su voluntad de trazar las pautas del sistema-mundo que crea la novela moderna. Efraín Kristal le respondió en el mismo medio, argumentan­do que la poesía hispanoame­ricana –y tal vez otros casos de literatura periférica– no se adapta al modelo de Moretti, según el cual existe una correlació­n entre la economía y las formas literarias de una sociedad. A él y a otros autores les respondió en Más conjeturas sobre la literatura mundial (2003), donde agrupó las críticas en “el (cuestionab­le) estatuto paradigmát­ico de la novela; la relación entre el centro y la periferia y sus consecuenc­ias para la forma literaria, y la naturaleza del análisis comparativ­o”. No hay que decir que sus argumentos se dirigieron a la reafirmaci­ón de su postura: desplazar la mirada de los textos aislados y presuntame­nte extraordin­arios a la gran masa textual. Inmediatam­ente después, en el 2004, se presentó en la Feria de Frankfurt Google Print, que pronto sería Google Books, una base de datos que parecía diseñada para elevar a la enésima potencia los análisis y los resultados de las lecturas cuantitati­vas de la literatura, des-

pués de siglos de estudios basados en conceptos esquivos y caprichoso­s, como gusto y calidad. Sus cinco miembros fundadores fueron Harvard, Oxford, la Biblioteca Pública de Nueva York, Michigan y, no por casualidad, Stanford.

La revolución del big data en las humanidade­s digitales no radica, no obstante, en la cantidad, sino –paradójica­mente– en la calidad. Pero no de los textos, sino de los patrones que se extraen de los datos: las interpreta­ciones que les otorgan sentidos. Se trata de un modo nuevo de construir modelos y relatos tan buenos o mejores que aquellos sustentado­s tradiciona­lmente en la reflexión, la intuición o el cruce de un número limitado de lecturas personales o colectivas. Heredero directo del trabajo de Moretti es Macroanaly­sis: Digital methods and literary history (2013), de Matthew L. Jockers, donde el autor –por ejemplo– ha cruzado 3.592 textos publicados entre 1780 y 1900 para determinar que los escritores en inglés más influyente­s del siglo XIX no fueron Dickens o Melville, sino Jane Austen y sir Walter Scott. Tanto en términos de recursos estilístic­os como en contagio de temas ningún otro escritor de la época fue capaz de una influencia similar a la de ellos.

Dos miembros del Stanford Literary Lab, Ryan Heuser y Long LeKhac, establecie­ron otro corpus de novelas decimonóni­cas (2.958 títulos) y observaron que a medida que el siglo avanza se dobla el número de términos que indican acción, al mismo ritmo que lo hacen las palabras que describen partes del cuerpo humano, como dedo o cara. Eso son los datos. La lectura que de ellos se deriva: así se expresa el proceso de urbanizaci­ón y el nacimiento de la masa moderna. En un artículo de la revista Wired del 2014, declaran: “La experienci­a primaria del contacto con otras personas en las ciudades radicaba en sus cuerpos, y las novelas lo documentan”. Las palabras abstractas entran en retroceso y proliferan las concretas: “Es el tránsito del contar al mostrar”. Uno de los gráficos elaborados por Jockers, de hecho, indica cómo durante el siglo XIX aumenta y decae el uso en la novela de la palabra beautiful. El periodista Clive Thompson, autor del artí-

En la macroliter­atura toma importanci­a todo lo que pueda ser cuantifica­do en mapas, gráficos y estadístic­as

culo de Wired, habla del big data como crítica de arte. Y sitúa los hallazgos en el campo de la literatura en la constelaci­ón de las humanidade­s digitales: los investigad­ores de Harvard Erez Aiden y Jean-Baptiste Michel han demostrado que la idea de los Estados Unidos como una entidad individual sólo emergió tras la Guerra Civil, cuando en los textos empieza a proliferar la frase “the United States is” en detrimento de “the United States are”.

La lectura condiciona­da por el algoritmo exige un nuevo tipo de investigad­or literario. Alguien que tenga conocimien­tos de informátic­a y de matemática­s. De hecho, Aiden y Michel son dos de los catorce autores de Quantitati­ve analysis of culture using millions of digitized books, un paper también firmado por el Google Books Team, que fue publicado en el 2010 por la revista Science. Se trata de trabajar en culturomic­s: la economía de la cultura; la cultura cuantifica­da. A partir del prototipo Bookworm que crearon los dos alumnos de Harvard, en colaboraci­ón con Yuam Shen del MIT, se creó el Google Ngram Viewer, gracias al cual cualquier lector puede llevar a cabo sus propias búsquedas estadístic­as. Las palabras introducid­as son rastreadas y encontrada­s en más de cinco millones de libros en inglés, español, francés, ruso, chino, alemán y hebreo publicados entre 1500 y el 2008; y convertida­s en un gráfico. Si introducim­os, por ejemplo, las palabras Shakespear­e y Cervantes, veremos que la presencia textual del primero es mucho mayor desde 1800 hasta el 2000, a excepción de los años veinte del siglo pasado, cuando se iguala. Ahí tenemos el hecho. En menos de un segundo. Las interpreta­ciones, en cambio, pueden tardar en llegar meses o años.

Pero no sólo nos encontramo­s

Las ‘humanidade­s digitales’ requieren conocimien­tos en informátic­a y matemática­s

ante jóvenes investigad­ores y nativos digitales: sir Brian Vickers, nacido en 1937, experto en Shakespear­e, ha introducid­o el análisis cuantitati­vo en sus últimos trabajos sobre la autoría de ciertas tragedias del bardo. El léxico, la sintaxis y la retórica, tratados estadístic­amente, pueden inclinar la balanza cuando se tienen dudas acerca de quién escribió realmente una obra. Es posible localizar palabras que no existían o que tenían otro significad­o u otra ortografía en la época en que supuestame­nte un texto fue creado: con la caza de los anacronism­os se reúnen evidencias para resolver el misterio. Hace cuatro años publicó Shakespear­e and Autorship Studies in the Twenty-First Century, donde explicaba los métodos científico­s con que está probando sus hipótesis. Entre sus herramient­as figura Pl@giarism, un software li- bre desarrolla­do por la Universida­d de Maastricht para detectar casos de copia en trabajos de alumnos de Derecho, mediante el que Vickers localiza secuencias de tres palabras que son exclusivas del autor de El Rey Lear. Es decir, no como “Yes, my lord”, sino como “eyebrows jutty over”.

Vickers ha trabajado durante décadas la idea de que Shakespear­e era, en efecto, un genio: pero un genio de la colaboraci­ón. En su libro del 2002, Shakespear­e, co-author, demostraba que hasta cinco obras canónicas suyas habían sido escritas colectivam­ente. La idealizaci­ón romántica del genio individual también ha proyectado su luz oscura sobre la figura del estudioso. Durante siglos los profesores han discutido sus hallazgos con alumnos y colegas y han introducid­o las aportacion­es de sus interlocut­ores en sus propios textos. En nuestra era digital, el flujo de informació­n es tan impetuoso que difícilmen­te podrá uno discernir entre aquello que leyó de soslayo, entre el magma de datos cotidianos, y una idea nueva, propia, sin relación genética directa o indirecta con esa textualida­d que nos envuelve. Si Homero fueron esos griegos a los que llamamos Homero; y Shakespear­e es la suma de diversas subjetivid­ades que orbitaron alrededor del William histórico, hay que rescatar los momentos de la modernidad en que el pensamient­o humanístic­o se construyó en grupo. Desde el Instituto Warburg o la Escuela de Frankfurt hasta Oulipo, pasando por tantísimos grupos de investigac­ión, institutos y centros: son varias las genealogía­s posibles de las formas de trabajo en red que han proliferad­o en nuestro cambio de siglo.

Con los análisis del ‘big data’ se desplaza la mirada de los textos aislados a la gran masa textual

 ??  ??
 ??  ?? Un ejemplo del trabajo del profesor Franco Moretti: gráfico a partir del análisis de los personajes de una de las principale­s obras de Shakespear­e, ‘Hamlet’
Un ejemplo del trabajo del profesor Franco Moretti: gráfico a partir del análisis de los personajes de una de las principale­s obras de Shakespear­e, ‘Hamlet’
 ??  ??

Newspapers in Spanish

Newspapers from Spain