ABC (Sevilla)

Conocimien­to

-

equipos de otros lugares de España y academias, procesan y codifican textos escritos y también textos orales tomados de programas de radio y televisión o Youtube.

Libros y prensa

Más del cuarenta por ciento de los textos procesados provienen de la prensa, por varios motivos: el periódico de un día aporta textos variados, de distintos temas, con un lenguaje culto pero sin perder el contacto con la calle, lo que permite la inclusión de neologismo­s y palabras cuyo uso se empieza a extender. Las publicacio­nes periódicas están representa­das con unas 158 millones de formas ortográfic­as. Seis millones y medio provienen de blogs, entrevista­s digitales o redes sociales. Más de cuatro millones y medio de las formas incorporad­as en esta actualizac­ión son transcripc­iones de textos orales.

Al ser un corpus que abarca todas las distintas formas del español, se mantiene un equilibrio entre España y América Latina del 30-70 por ciento. El número de textos producidos entre 2016 y 2020 supera en esta versión las 42 millones de formas. Por lustros, el mayor peso recae en el periodo 2006-2010, con más de 107 millones de formas. Más de 100 millones correspond­en a 2001-2005. «Debemos meter en torno a 25 millones de formas en cada año –explicó Rojo–. Todavía no está completa, pero hemos empezado por aquí».

Newspapers in Spanish

Newspapers from Spain