La RAE incluye nuevas formas ortográficas en el Corpus del Español
El CORPES, referencia para el diccionario o la gramática, actualiza su base de datos En cifras
La Real Academia Española, en colaboración con la Asociación de Academias de la Lengua Española (ASALE), presentó ayer la nueva actualización del Corpus del Español del Siglo XXI (CORPES XXI), la base de datos que permite estudiar las características de la lengua española tal y como se está usando desde inicios del siglo. Esta actualización incorpora 21 millones de nuevas formas ortográficas respecto a la versión anterior, de mayo de 2020, tomadas de textos escritos como periódicos o libros y de transcripciones de radio, televisión o Youtube, y ya son más de 316.000 los documentos que se pueden consultar en el CORPES a través de internet.
«Los corpus son los materiales que utilizan las academias para el diccionario, las gramáticas o los diccionarios de dudas: son el primer material con el que trabajan», apuntó a ABC Guillermo Rojo, director del proyecto. «El material sirve para que los investigadores y también personas con curiosidad puedan encontrar información sobre las palabras. Aporta conocimiento científico». El CORPES se puso en marcha en 2007, cuando las academias de la lengua española acordaron aglutinar en él 25 millones de formas ortográficas al año a partir de textos escritos y orales procedentes de España, América, Filipinas y Guinea Ecuatorial. Por su tamaño y la complejidad del sistema, la base de datos solo está disponible en formato electrónico.
En el CORPES no persiguen la «última palabra», las que están de moda, sino que más bien están sometidos a la casualidad, explicó Rojo. «Volcamos textos procedentes de periódicos o libros y los procesamos», de modo que quedan alojados en un servidor que aporta la información léxica y gramatical sobre cada forma ortográfica indicada. Si buscamos una palabra de uso reciente, como ‘coronavirus’, el CORPES devuelve 1.380 registros, el último de ellos tomado de un artículo en un medio digital y se indica que es un «sustantivo común masculino singular». La palabra ‘libro’, en cambio, está incluida en 119.097 registros. Diariamente, en colaboración con diez 21 millones
La nueva versión aporta más de 21 millones de formas respecto a la anterior. En total, cuenta con 333 millones de formas ortográficas.
«Los corpus son el primer material con el que trabajan las academias para el diccionario»