La superestrella de los datos del Covid-19
Un joven de 27 años obtiene cifras más precisas que el Imperial College de Londres o el IHME de Seattle
La primavera de 2020 trajo consigo la llegada del famoso modelo estadístico. Mientras todos tratábamos de evaluar en marzo y abril la importancia que el coronavirus podría llegar a tener, la enfermedad era objeto una y otra vez de dos sistemas de pronóstico: uno elaborado por el Imperial College de Londres y otro nacido en el Institute for Health Metrics and Evaluation, o IHME, con sede en Seattle.
No obstante, los modelos arrojaron predicciones muy divergentes. El modelo del Imperial College de Londres advertía que, en verano, el número de fallecidos en los Estados Unidos por el Covid-19 podría alcanzar los dos millones, mientras que el pronóstico del IHME era mucho más conservador y preveía unas 60.000 muertes hacia el mes de agosto. Ninguno de los dos pronósticos fue acertado, ya que el número de muertos en los Estados Unidos a principios de agosto se situó finalmente en unas 160.000 personas.
La enorme discrepancia en las cifras de previsiones de la pasada primavera copó la atención de Youyang Gu, científico de datos que en aquel momento tenía 26 años. El joven había cursado un máster en ingeniería eléctrica y ciencias de la computación en el Instituto Tecnológico de Massachusetts y el grado en matemáticas, pero no había realizado ninguna formación reglada en un área relacionada con la pandemia, como la medicina o la epidemiología. Aun así, pensó que su experiencia en el manejo de modelos de datos podría ser de utilidad durante la pandemia.
Construcción de su modelo
A mediados de abril, mientras vivía con sus padres en Santa Clara (California), Gu se pasó una semana construyendo su propio modelo predictor de muertes Covid y un
sitio web en el que mostrar su macabra información. En poco tiempo, su modelo empezó a generar resultados más precisos que los procedentes de instituciones con cientos de millones de dólares de financiación y décadas de experiencia. «Su modelo era el único que resultaba coherente», comenta Jeremy Howard, un reputado experto en datos e investigador científico de la Universidad de San Francisco. «Los demás modelos demostraron una y otra vez no tener ni pies ni cabeza, pero, sin embargo, no había reflexión alguna por parte de las personas que publicaban las previsiones o de los periodistas que informaban sobre ellas. Nuestras vidas dependían de estos temas y Youyang era el único que realmente analizaba los datos y, además, correctamente». El modelo de previsión que Gu construyó era, en cierto modo, sencillo. En primer lugar, pensó en analizar la relación entre los test Covid, las hospitalizaciones y otros factores, pero se dio cuenta que tanto los diferentes estados como el Gobierno federal informaban de los datos sin consistencia ninguna. Las cifras más fiables parecían ser los recuentos diarios de fallecidos. «Otros modelos utilizaban más fuentes de datos, pero decidí basarme en las muertes pasadas para predecir las futuras», comenta Gu. «Partir de ese único dato me ayudó a aislarme de otros factores».
Uso de algoritmos
El giro novedoso y sofisticado del modelo de Gu tuvo su origen en el uso de algoritmos de aprendizaje automático para pulir sus cifras. Tras pasar por el MIT, Gu estuvo un par de años trabajando en el sector financiero en el desarrollo de algoritmos para sistemas de trading de alta frecuencia, donde, para mantener su trabajo, tenía que hacer pronósticos muy precisos.
En cuanto al Covid, Gu comparaba constantemente sus predicciones con los fallecidos totales que se comunicaban e iba ajustando de forma permanente su software de aprendizaje automático para que diera lugar a pronósticos cada vez más exactos. Si bien la tarea requería las mismas horas que un puesto de trabajo exigente a jornada completa, Gu optó por dedicar todo su tiempo y vivir de sus ahorros. Su intención siempre fue que sus datos no fueran objeto de conflicto de intereses o sesgo político.
Aunque no fuera perfecto, el modelo de Gu funcionó bien desde el inicio. A finales de abril predijo que en los Estados Unidos se producirían 80.000 muertes antes del 9 de mayo. La cifra real de fallecidos fue de 79.926. En sus previsiones, de naturaleza similar, de finales de abril, el IHME vaticinó que los Estados Unidos no superaría las 80.000 muertes en todo el año 2020. Gu también pronosticó 90.000 fallecidos para el 18 de mayo y 100.000 fallecidos el 27 de mayo, y una vez más, acertó con las cifras. Mientras que el IHME vaticinaba que el virus se iría desvaneciendo gracias al distanciamiento social y otras medidas, Gu predijo que habría una segunda gran ola de contagiados y fallecidos a medida que muchos estados volvieran a abrir tras los cierres.
Críticas al IHME
El IHME se enfrentó a algunas críticas en marzo y abril, a la vista de que sus cifras no se ajustaban a lo que estaba sucediendo. Aun así, el prestigioso centro, con sede en la Universidad de Washington, que cuenta con el respaldo de más de 500 millones de dólares de financiación de la Fundación Bill y Melinda Gates, era citado casi a diario durante las sesiones informativas de los miembros de la Administración del presidente Donald Trump.
En abril, el director de enfermedades infecciosas de EEUU, Anthony Fauci, comentó en una entrevista que el número de fallecidos por Covid «se situaba más cerca de los 60.000 que de los 100.000 o 200.000» que se esperaban, una predicción que reflejaba las previsiones del IHME. Y el 19 de abril, el
«Nuestras vidas dependían de estos temas y Youyang era el único que analizaba los datos»
mismo día en que Gu alertó sobre una segunda ola, Trump apuntó a la previsión de 60.000 fallecidos del IHME como un indicador de que la lucha contra el virus terminaría pronto. Los funcionarios del IHME también promovieron activamente sus cifras. «El IHME estaba siempre presente en todos los programas de actualidad, en su afán de comunicar al gran público que el número de fallecidos sería cero en julio», comenta Gu. «Cualquier persona con algo de sentido común podía ver que el dato rondaría las 1.000-1.500 muertes diarias durante un tiempo. Creo que pecaron de cierta falta de honestidad con que lo hicieron». Christopher Murray, director del IHME, afirma que, una vez que la organización logró un mejor manejo del virus tras el mes de abril, sus previsiones mejoraron radicalmente. Pero la atención estaba en el jove científico. Gu mostró su modelo a los periodistas en Twitter y envió correos electrónicos a los epidemiólogos, pidiéndoles que comprobaran sus cifras. Hacia finales de abril, el destacado biólogo de la Universidad de Washington Carl Bergstrom tuiteó sobre el modelo de Gu, y poco después, los Centros para el Control y la Prevención de Enfermedades de EEUU incluyeron las cifras de Gu en su sitio web de previsión del Covid. A medida que la pandemia avanzaba, Gu, un inmigrante chino que creció en Illinois y California, se vio participando en reuniones periódicas con esos mismos centros y equipos de modeladores de datos y epidemiólogos profesionales, en un intento conjunto por afinar los pronósticos.
Su labor había terminado
Las visitas a la web de Gu se dispararon, ya que eran millones de personas las que consultaban a diario qué ocurría en sus estados y en el conjunto de Estados Unidos. En la mayoría de los casos, las cifras que recogían sus predicciones acababan situándose muy cerca de las cifras reales de mortalidad cuando unas semanas más tarde se publicaban los datos.
A la vista del interés tan intenso que despertaban tales previsiones, empezaron a aparecer más modelos a lo largo de la primavera y el verano de 2020. Nicholas Reich, profesor asociado del departamento de bioestadística y epidemiología de la Universidad de Massachusetts, en Amherst, recopiló el medio centenar de modelos y midió su precisión a lo largo de muchos meses en el centro de previsión del Covid. «El modelo de Youyang siempre estuvo entre los mejores», comenta Reich. En el mes de noviembre, Gu decidió poner fin a sus pronósticos fundamentados en la muerte. Reich había estado combinando los distintos pronósticos y llegó a la conclusión de que las predicciones más exactas procedían de dicho «modelo de conjunto», o datos combinados. «Youyang supo dar un paso atrás con una notable humildad», afirma Reich. «Vio que los otros modelos estaban funcionando bien y que su labor había terminado». Un mes antes de poner fin al proyecto, Gu vaticinó que los Estados Unidos registrarían 231.000 muertes el 1 de noviembre, fecha en la que el número de fallecidos en EEUU se situó finalmente en 230.995.
Otra opinión sobre GU
Murray, del IHME, tiene su propia opinión sobre la salida de Gu. A su juicio, el modelo de Gu no habría sabido captar la naturaleza estacional del coronavirus y habría pasado por alto el repunte invernal de contagiados y fallecidos. «Él estimaba que la epidemia terminaría en invierno mientras que nosotros ya contemplamos la existencia de estacionalidad en mayo», comenta Murray.
Los métodos de aprendizaje automático que empleó Gu funcionan bien para las predicciones a corto plazo, afirma Murray, pero «no son muy buenos a la hora de captar lo que está pasando» desde una perspectiva global. Los algoritmos, fundamentados en el pasado, no pueden tener en cuenta las variantes del virus y la eficacia de las vacunas contra ellas, con arreglo a Murray.
Gu no ha querido responder a los comentarios sobre su modelo. En su lugar, opta por un cumplido con doble sentido, muy propio de un científico de datos. «Estoy muy agradecido a Murray y a su equipo», comenta Gu. «Sin ellos, no estaría donde estoy hoy».
Respecto de qué podríamos aprender de toda esta historia sobre datos, Reich pide que, la próxima vez que estemos ante una pandemia, no nos apresuremos a confiar en exceso en los primeros modelos a título personal. Asimismo, cuestiona que las previsiones más allá de seis u ocho semanas puedan ser muy precisas.
El IHME se enfrentó a críticas porque sus cifras no se ajustaban a lo que estaba sucediendo