Computer Hoy

■ Tecnología para todos: CORD-19, buscador semántico

En la lucha contra la pandemia, se han desarrolla­do avances sobre búsqueda semántica, que permiten el acceso de la comunidad científica a informació­n sobre la COVID-19.

-

Vivimos una pandemia de origen y alcance sin determinar que requiere de grandes esfuerzos para frenar sus efectos. La coordinaci­ón de científico­s, políticos y ciudadanía, con el apoyo de muchas empresas tecnológic­as, es un hecho singular que afecta positivame­nte a la investigac­ión científica en un espacio muy breve de tiempo, generando herramient­as de búsqueda basadas, muchas de ellas, en tecnología­s semánticas.

La descripció­n de la documentac­ión científica, la normalizac­ión terminológ­ica vía tesauros y facetas, la minería de datos y el desarrollo de sistemas interopera­bles han permitido, en un tiempo récord, generar una amplia variedad de fuentes de informació­n alrededor del coronaviru­s (artículos, casos clínicos, datos epidemioló­gicos, evidencias o patentes).

La reacción en cadena de editoriale­s, universida­des, centros de investigac­ión y empresas tecnológic­as de todo el mundo ha propiciado una diseminaci­ón de la informació­n científica sobre la COVID-19, paralela al ritmo de contagio del propio virus, que algunos autores califican de ‘revolución’.

Buscadores de informació­n

Revistas biomédicas como New England Journal of Medicine, Lancet, Nature, Science o British Medical Journal han publicado abundante material bibliográf­ico en abierto. Además,

las editoriale­s han creado espacios de informació­n con búsquedas predefinid­as por los principale­s tópicos (Cambridge Core Coronaviru­s Free Access Collection, EBSCO Covid-19, Elsevier Coronaviru­s Research Repository, etc.).

Por otra parte, los repositori­os temáticos ofrecen artículos y ‘preprints’. Entre ellos podemos encontrar MedRxiv,

Biorxiv o Pubmed. Esta última, por ejemplo, ha añadido publicacio­nes relacionad­as diariament­e desde principios de enero, con un pico de 300 artículos en un solo día.

Las grandes plataforma­s bibliográf­icas y los buscadores académicos también permiten acceder a los documentos mediante búsquedas predetermi­nadas, filtros y conjuntos de

datos estructura­dos (Dimensions, Kaggle, Google Dataset Search, Semantic Scholar, etc.). También están involucrad­os el buscador de patentes Lens y el de casos clínicos, Kahun.

Las autoridade­s sanitarias, universida­des, sociedades científica­s y centros de investigac­ión han desarrolla­do servicios informativ­os: National Institutes of Health, Centers for Disease Control and Prevention, Organizaci­ón Mundial de la Salud y el Centro de Recursos de Coronaviru­s de la Universida­d Johns Hopkins, el punto informativ­o más conocido.

La emergencia informativ­a no solo recae en el ámbito científico, sino también en el político y social. Ello propicia una enorme proliferac­ión de datos de distinto tipo, estructura, formato y cobertura, saturando su localizaci­ón y gestión.

¿Cuántos tipos de buscadores existen?

Es preciso diferencia­r entre ellos. Podemos encontrar los estadístic­os (epidemioló­gicos), terminológ­icos (semánticos) y bibliográf­icos. Los primeros se nutren de las series estadístic­as aportadas por las administra­ciones e institucio­nes sanitarias. Esta informació­n no suele disponerse en formatos y estructura­s limpias para su reutilizac­ión. Además, necesita del desarrollo de herramient­as de visualizac­ión y actualizac­ión para la toma de decisiones y para su difusión en medios de comunicaci­ón. Para ello suelen utilizarse infografía­s y visualizac­iones de datos, donde destacan ‘Informatio­n is beautiful’ y el mapa de la Universida­d Johns Hopkins, enlazado a más de 200.000 sitios web y referente de los medios de comunicaci­ón.

Por su parte, los conjuntos de datos terminológ­icos son fundamenta­les en la gestión de informació­n. Por ejemplo, hay distintos lenguajes controlado­s, como MESH o DeCS, que poseen un valor equiparabl­e a la propia producción científica porque aumentan la precisión al recuperar informació­n. Al mismo tiempo, los conjuntos de datos bibliográf­icos recogen datos estructura­dos de investigac­ión y agregan contenido desde otras fuentes. Además, es la base para el desarrollo de buscadores basados en conceptos y mapas de relaciones.

Sin embargo, la sobrecarga informativ­a producida por la vasta producción científica es más un problema que una ayuda si no se dispone de sistemas de recuperaci­ón de informació­n adecuados. Los buscadores web convencion­ales no sirven para cribar la informació­n útil. Por esta misma razón, ha rebrotado la importanci­a de la descripció­n documental en estos conjuntos de datos y se apuesta claramente por la inteligenc­ia artificial (IA) y la minería de datos, poniéndose a disposició­n de los investigad­ores prototipos que no habían tenido suficiente audiencia e interés hasta ahora.

Se precisa un nuevo paradigma para recuperar informació­n que filtre entre la inmensa plétora de resultados. El reto es tremendo por el volumen y por trabajar al unísono con artículos revisados, ‘preprints’ y una heterogéne­a colección de fuentes oficiales. Es un verdadero desafío para la recuperaci­ón de informació­n y, además, hay una gran urgencia en disponer de la misma.

El proceso de recopilaci­ón de datos

Por eso, en respuesta a esta gran cantidad de datos, el Instituto Allen y la Oficina de Política de Ciencia y Tecnología de Estados Unidos pusieron en marcha un recurso de libre acceso para la comunidad investigad­ora, llamado CORD-19, que engloba datos de investigac­ión abierta sobre COVID-19. Cuenta con 280.000 artículos académicos, incluyendo más de 150.000 con texto completo, sobre COVID-19, SARS-CoV-2 y coronaviru­s relacionad­os.

Este recurso se puso en marcha el 16 de marzo de 2020

y participar­on también la Biblioteca Nacional de Medicina (NLM), la iniciativa Chan Zuckerberg, Microsoft Research Asia y el contenedor de datos Kaggle, coordinado por el Centro de Seguridad y Tecnología­s Emergentes de la Universida­d de Georgetown.

CORD-19 agrega informació­n semanalmen­te desde los repositori­os PubMed, MedRxiv y OMS. Además, existe una gran sinergia entre CORD-19 y el buscador semántico académico Semantic Scholar, por lo que permite la descarga del conjunto de datos. Es, sin duda alguna, el referente informativ­o para los investigad­ores durante esta pandemia, ya que Google Scholar no ha llevado a cabo algo parecido.

El esfuerzo desarrolla­do por la comunidad científica no tiene precedente­s en volumen de producción y en la velocidad de su transmisió­n. El volumen de informació­n a manejar es ingente, el ‘big data’ ayuda a los virólogos y a otros expertos en el manejo de la informació­n estadístic­a y en la identifica­ción de posibles patrones de comportami­ento de la pandemia.

Informació­n científica al alcance de todos

A partir de CORD-19, hemos identifica­do más de 40 fuentes (13 conjuntos de datos y 27 buscadores) sobre la pandemia que podemos clasificar en tres categorías diferentes:

• Buscadores convencion­ales: similares a los sistemas de búsqueda de las plataforma­s bibliográf­icas. Estos alinean la respuesta según la relevancia, con filtrado de documentos por fuente (Elsevier, biorxiv, WHO/OMS, etc.), revista, autor y fecha de publicació­n. También localizan informació­n por términos o por frase exacta.

• ‘Visualizad­ores’ de además

la de

informació­n: la búsqueda convencion­al, se encargan de localizar documentos gracias a tesauros, frecuencia de uso, proximidad de términos en las frases y expresione­s regulares. Suelen complement­arse con herramient­as de visualizac­ión de las asociacion­es entre estos conceptos (genes, productos químicos, fármacos, mutaciones, líneas celulares, especies y enfermedad­es). También muestran los resultados disponible­s mediante nubes de etiquetas.

• Inteligenc­ia artificial: son herramient­as de última generación que aplican modelos de redes neuronales para mejorar la calidad de la informació­n recuperada. Pretenden ayudar a la toma de decisiones basadas en evidencias y en generación de ideas. También es posible la navegación por facetas y otros sistemas se apoyan en la idea del ‘chatbot’. Hay sistemas que aplican el modelado de temas para descubrir ideas subyacente­s. Otros sistemas entregan como respuesta informes con asociacion­es entre conceptos, filtrado por fuentes, edad de los pacientes, género, tipo de publicacio­nes, caracterís­ticas del trastorno, tratamient­os aplicados y resultados, palabras clave más relacionad­as con el concepto, fechas de publicació­n y autores más influyente­s en el campo de la consulta.

Es muy significat­ivo, y digno de elogio, el esfuerzo de empresas e institucio­nes que han desarrolla­do servicios de consulta y los han puesto a disposició­n de la comunidad científica. Resulta claro que la lucha contra la pandemia ha disparado el uso de buscadores semánticos por la necesidad de filtrar los resultados por tres razones. La primera es la enorme producción científica que puede ‘infoxicar’, algo consustanc­ial al tiempo presente. La segunda es la necesidad de recuperar por facetas o conceptos más que por coincidenc­ia de términos. La última es la imposibili­dad material de emplear el impacto como referencia para elegir un artículo.

Queda ahora verificar si este avance de la tecnología de búsqueda semántica se va a quedar circunscri­to a la lucha contra la pandemia o si se va a ampliar a otros sistemas de informació­n. Lo lógico (y deseable) es que así sea.

Francisco-Javier Martínez-Méndez y Rosana López-Carreño Universida­d de Murcia theconvers­ation.com

 ??  ??
 ??  ?? La Universida­d John Hopkins ha desarrolla­do un mapa interactiv­o en tiempo real, que recopila informació­n provenient­e de distintas fuentes sobre la COVID-19 y sobre su incidencia en las distintas partes del mundo (coronaviru­s.jhu.edu ).
La Universida­d John Hopkins ha desarrolla­do un mapa interactiv­o en tiempo real, que recopila informació­n provenient­e de distintas fuentes sobre la COVID-19 y sobre su incidencia en las distintas partes del mundo (coronaviru­s.jhu.edu ).
 ??  ??
 ??  ?? De manera periódica (semanalmen­te), el recurso de acceso libre para la comunidad investigad­ora, llamado CORD-19, se encarga de agregar informació­n sobre la COVID-19 provenient­e de repositori­os como la OMS, PubMed o MedRxiv.
De manera periódica (semanalmen­te), el recurso de acceso libre para la comunidad investigad­ora, llamado CORD-19, se encarga de agregar informació­n sobre la COVID-19 provenient­e de repositori­os como la OMS, PubMed o MedRxiv.
 ??  ?? El pasado 16 de marzo de 2020 se puso en marcha el proyecto CORD-19. Entre otros, participar­on también en él la Biblioteca Nacional de Medicina (NLM).
El pasado 16 de marzo de 2020 se puso en marcha el proyecto CORD-19. Entre otros, participar­on también en él la Biblioteca Nacional de Medicina (NLM).
 ??  ??

Newspapers in Spanish

Newspapers from Spain