Conocimiento
equipos de otros lugares de España y academias, procesan y codifican textos escritos y también textos orales tomados de programas de radio y televisión o Youtube.
Libros y prensa
Más del cuarenta por ciento de los textos procesados provienen de la prensa, por varios motivos: el periódico de un día aporta textos variados, de distintos temas, con un lenguaje culto pero sin perder el contacto con la calle, lo que permite la inclusión de neologismos y palabras cuyo uso se empieza a extender. Las publicaciones periódicas están representadas con unas 158 millones de formas ortográficas. Seis millones y medio provienen de blogs, entrevistas digitales o redes sociales. Más de cuatro millones y medio de las formas incorporadas en esta actualización son transcripciones de textos orales.
Al ser un corpus que abarca todas las distintas formas del español, se mantiene un equilibrio entre España y América Latina del 30-70 por ciento. El número de textos producidos entre 2016 y 2020 supera en esta versión las 42 millones de formas. Por lustros, el mayor peso recae en el periodo 2006-2010, con más de 107 millones de formas. Más de 100 millones corresponden a 2001-2005. «Debemos meter en torno a 25 millones de formas en cada año –explicó Rojo–. Todavía no está completa, pero hemos empezado por aquí».