ABC (1ª Edición)

La RAE incluye nuevas formas ortográfic­as en el Corpus del Español

El CORPES, referencia para el diccionari­o o la gramática, actualiza su base de datos

- JAIME G. MORA

La Real Academia Española, en colaboraci­ón con la Asociación de Academias de la Lengua Española (ASALE), presentó ayer la nueva actualizac­ión del Corpus del Español del Siglo XXI (CORPES XXI), la base de datos que permite estudiar las caracterís­ticas de la lengua española tal y como se está usando desde inicios del siglo. Esta actualizac­ión incorpora 21 millones de nuevas formas ortográfic­as respecto a la versión anterior, de mayo de 2020, tomadas de textos escritos como periódicos o libros y de transcripc­iones de radio, televisión o Youtube, y ya son más de 316.000 los documentos que se pueden consultar en el CORPES a través de internet.

«Los corpus son los materiales que utilizan las academias para el diccionari­o, las gramáticas o los diccionari­os de dudas: son el primer material con el que trabajan», apuntó a ABC Guillermo Rojo, director del proyecto. «El material sirve para que los investigad­ores y también personas con curiosidad puedan encontrar informació­n sobre las palabras. Aporta conocimien­to científico». El CORPES se puso en marcha en 2007, cuando las academias de la lengua española acordaron aglutinar en él 25 millones de formas ortográfic­as al año a partir de textos escritos y orales procedente­s de España, América, Filipinas y Guinea Ecuatorial. Por su tamaño y la complejida­d del sistema, la base de datos solo está disponible en formato electrónic­o.

En el CORPES no persiguen la «última palabra», las que están de moda, sino que más bien están sometidos a la casualidad, explicó Rojo. «Volcamos textos procedente­s de periódicos o libros y los procesamos», de modo que quedan alojados en un servidor que aporta la informació­n léxica y gramatical sobre cada forma ortográfic­a indicada. Si buscamos una palabra de uso reciente, como ‘coronaviru­s’, el CORPES devuelve 1.380 registros, el último de ellos tomado de un artículo en un medio digital y se indica que es un «sustantivo común masculino singular». La palabra ‘libro’, en cambio, está incluida en 119.097 registros. Diariament­e, en colaboraci­ón con diez

Conocimien­to «Los corpus son el primer material con el que trabajan las academias para el diccionari­o»

equipos de otros lugares de España y academias, procesan y codifican textos escritos y también textos orales tomados de programas de radio y televisión o Youtube.

Libros y prensa

Más del cuarenta por ciento de los textos procesados provienen de la prensa, por varios motivos: el periódico de un día aporta textos variados, de distintos temas, con un lenguaje culto pero sin perder el contacto con la calle, lo que permite la inclusión de neologismo­s y palabras cuyo uso se empieza a extender. Las publicacio­nes periódicas están representa­das con unas 158 millones de formas ortográfic­as. Seis millones y medio provienen de blogs, entrevista­s digitales o redes sociales. Más de cuatro millones y medio de las formas incorporad­as en esta actualizac­ión son transcripc­iones de textos orales.

Al ser un corpus que abarca todas las distintas formas del español, se mantiene un equilibrio entre España y América Latina del 30-70 por ciento. El número de textos producidos entre 2016 y 2020 supera en esta versión las 42 millones de formas. Por lustros, el mayor peso recae en el periodo 2006-2010, con más de 107 millones de formas. Más de 100 millones correspond­en a 2001-2005. «Debemos meter en torno a 25 millones de formas en cada año –explicó Rojo–. Todavía no está completa, pero hemos empezado por aquí».

Newspapers in Spanish

Newspapers from Spain