Parte III La Era de los datos
El exceso de información está revolucionando todas las áreas de la vida, “desde las empresas y las ciencias hasta la atención médica, la administración, la educación, la economía, las humanidades y todos los demás aspectos de la sociedad”, señala Victor Mayer-Schönberger. Ahora mismo ya estamos beneficiándonos de estos análisis. Algo tan común, por ejemplo los filtros spam o las páginas de citas como Tinder, incluso las funciones de autocorrección y los aún limitados servicios de traducción, están basados en procesos de análisis y correcciones, aplicando matemáticas a enormes conjuntos de registros.
Pero hay áreas donde este cambio está siendo cada vez más notorio. En biología, por ejemplo, los cúmulos de información que cada año liberan experimentos como el Gran Colisionador de Hadrones en el CERN, o las inmensas bases de datos del Instituto Europeo de Bioinformática (EBI), en Hinxton, Reino Unido –que ya congregan 20 petabytes y siguen creciendo–, están obligando a cambiar la vieja mecánica en que trabajaban estos grupos. Ahora cada vez más data scientists, o científicos de datos, están siendo requeridos para colaborar codo a codo con los investigadores y darle sentido a estos millones de resultados. Como advierte Vivien Marx, editora de tecnología de la revista Nature, en un futuro incluso pequeños laboratorios estarán generando cantidades de información igual de inmensas. Si bien a esto mismo se enfrentan otras ciencias del saber (física, química, geología), en biología hay una especial dificultad debido a que estos datos pueden provenir de un amplio espectro de experimentos y áreas: desde las secuencias genéticas a las interacciones de proteínas o los hallazgos en registros médicos, dinámicas de poblaciones, microbiología, etc. Además, la comparación de información (pasada, actual y de diferentes investigaciones) que a primera vista podría parecer no relacionada entre sí, resulta relevante al ser compartida entre las diferentes áreas de esta ciencia.
Arend Sidow, biólogo computacional en la Universidad de Stanford en California, tuvo que crear una compañía para suplir su necesidad de conocer registros a gran escala sobre el genoma del cáncer. DNAnexus es un servicio de nube sobre análisis genéticos. Con esto cualquier grupo de investigación puede tener a su disposición la información de miles de estudios y genomas de cáncer con los cuales hacer comparaciones. Con la tecnología anterior este tipo de estudios habría sido imposible. Algo similar es lo que hace el proyecto europeo ELIXIR. Investigadores de ese continente suben, guardan y comparten sus conclusiones y aprovechan la información de los demás. Por si fuera poco, no es necesario implementar un pesado hardware y costos. Muchos de estos recursos se basan en los servicios de nube.
Cazadores de historias
Quizá el gran problema del Big Data es que muchas veces no podemos saber el porqué obtenemos los resultados que obtenemos. Es decir, no sabemos las razones que hacen que algo suceda, sino solamente que a gran escala ocurre así. Pero, mientras para algunos basta con ver el fenómeno aun sin entender sus causas, –en otras palabras, lo importante es que sabemos que algo está