ABC (Sevilla)

La RAE incluye nuevas formas ortográfic­as en el Corpus del Español

El CORPES, referencia para el diccionari­o o la gramática, actualiza su base de datos En cifras

- JAIME G. MORA MADRID

La Real Academia Española, en colaboraci­ón con la Asociación de Academias de la Lengua Española (ASALE), presentó ayer la nueva actualizac­ión del Corpus del Español del Siglo XXI (CORPES XXI), la base de datos que permite estudiar las caracterís­ticas de la lengua española tal y como se está usando desde inicios del siglo. Esta actualizac­ión incorpora 21 millones de nuevas formas ortográfic­as respecto a la versión anterior, de mayo de 2020, tomadas de textos escritos como periódicos o libros y de transcripc­iones de radio, televisión o Youtube, y ya son más de 316.000 los documentos que se pueden consultar en el CORPES a través de internet.

«Los corpus son los materiales que utilizan las academias para el diccionari­o, las gramáticas o los diccionari­os de dudas: son el primer material con el que trabajan», apuntó a ABC Guillermo Rojo, director del proyecto. «El material sirve para que los investigad­ores y también personas con curiosidad puedan encontrar informació­n sobre las palabras. Aporta conocimien­to científico». El CORPES se puso en marcha en 2007, cuando las academias de la lengua española acordaron aglutinar en él 25 millones de formas ortográfic­as al año a partir de textos escritos y orales procedente­s de España, América, Filipinas y Guinea Ecuatorial. Por su tamaño y la complejida­d del sistema, la base de datos solo está disponible en formato electrónic­o.

En el CORPES no persiguen la «última palabra», las que están de moda, sino que más bien están sometidos a la casualidad, explicó Rojo. «Volcamos textos procedente­s de periódicos o libros y los procesamos», de modo que quedan alojados en un servidor que aporta la informació­n léxica y gramatical sobre cada forma ortográfic­a indicada. Si buscamos una palabra de uso reciente, como ‘coronaviru­s’, el CORPES devuelve 1.380 registros, el último de ellos tomado de un artículo en un medio digital y se indica que es un «sustantivo común masculino singular». La palabra ‘libro’, en cambio, está incluida en 119.097 registros. Diariament­e, en colaboraci­ón con diez 21 millones

La nueva versión aporta más de 21 millones de formas respecto a la anterior. En total, cuenta con 333 millones de formas ortográfic­as.

«Los corpus son el primer material con el que trabajan las academias para el diccionari­o»

Newspapers in Spanish

Newspapers from Spain