El ‘big data’ es el futuro
“El negocio de Über no son los viajes, ni el de Airbnb el alojamiento, sino que es el big data. Yel de Twitter, Facebook y Nike”. Lo han oído en la última conferencia del último gurú de moda de internet, justo antes de: “Si hoy en día tu empresa no basa su negocio en el big data, no tiene futuro porque el big data es el futuro”. ¿Pero sabemos qué es el big data? ¿Yqué quiere decir que el big data sea el futuro?
Para empezar tendríamos que llamarlo por su nombre y aclarar que aunque le ponemos un artículo singular, la palabra data es un plural en inglés y que la traducción de big data sería datos masivos. A continuación tendríamos que aclarar si estamos hablando de datos estructurados –ordenados en filas y columnas, similares a una hoja de cálculo– o bien de datos desestructurados –un tuit o los papeles de Panamá– y qué entendemos por masivo. Nos pondríamos de acuerdo enseguida en que los 11,5 millones de documentos de los papeles de Panamá –la mayor filtración de la historia– son datos masivos; imprimirlos implicaría deforestar un bosque de 80.000 árboles y para bajarnos los 2,6 terabytes en casa necesitaríamos más de 16 meses. Pero otros casos no serían tan claros. ¿Lo son los 1,7 Gb de Wikileaks? ¿Y si no depende sólo del volumen de datos?
La definición más aceptada de datos masivos es la que propuso el analista de datos Doug Laney en el 2001: “Son grandes volúmenes, gran velocidad y gran variedad de activos de información que necesitan de eficientes e innovadoras maneras de procesamiento para su comprensión y para la toma de decisiones”. Lo que se conoce como la definición de las tres v: volumen, velocidad y variedad, en las que posteriormente se añadieron veracidad y valor. Así pues, nos encontramos ante un concepto multidimensional donde aparte del volumen cuenta la velocidad en la que estos datos se generan, se almacenan y se procesan, y la variedad en los formatos de adquisición: datos estructurados y no estructurados, que incluyen texto, datos de sensores, clics, imágenes, audio, vídeo.
¿Y de dónde salen estas grandes cantidades de datos? Pues de usted, de mí, de los otros 3.000 millones de personas conectadas y de los 6,4 millones de aparatos conectados a la red: de cuando buscamos en Google, compramos en Amazon, colgamos una foto en Facebook, miramos un vídeo en YouTube, cambiamos de canal en Movistar+ o pulsamos el botón del ascensor.
Tomemos el caso de los 140 caracteres de un tuit. Resulta que sólo son 140 para los sufridos humanos, pero son muchos más para las máquinas. Aparte de la información visible –nombre de usuario, texto del tuit, fecha, localización, aplicación desde donde se ha emitido– con cada tuit viaja: la biografía del autor, la fecha de creación de la cuenta, el idioma preferido del autor, el número de seguidores, series y favoritos en el momento de hacer el tuit, e información geográfica ampliada, entre mucha otra información. Multipliquémoslo por los 350.000 tuits que escribimos cada minuto y sumemos los 2,4 millones de búsquedas en Google, los 2,8 millones de vídeos vistos en YouTube, las 70.000 horas de vídeo vistas en Netflix que hacemos en el mismo minuto, extendámoslo al resto de servicios en línea, sensores y aparatos conectados y ya tendremos el volumen, la velocidad y la variedad de los datos masivos en una escala que sobrepasa nuestra capacidad de comprensión.
En un día entre todos –humanos y sensores– generamos más de 2,5 trillones de bytes, el equivalente a 10 millones de discos Blu-ray que puestos los unos encima de otros equivalen a cuatro torres Eiffel. El 90% de los datos generados por la humani- dad se ha creado en los últimos dos años.
Yno hace falta que nos conectemos a la red para contribuir al volumen de datos masivos. Desde que nos despertamos hasta que vamos a dormir –mientras dormimos también– estamos generando datos continuamente: la hora de la ducha y la duración, la hora que se enciende la calefacción, el consumo eléctrico, el botón del ascensor, el arranque del motor del coche, la hora de salida del parking, las cámaras de tráfico, el paso por el peaje, las conexiones del móvil en las antenas. Nuestro estado natural es el de generar datos y los datos son el subproducto de nuestra existencia.
Hasta hace poco estos datos sólo servían para multiplicarlos por pesetas y facturar el resultado, el agregado se quedaba como mucho en un diagrama de barras en la memoria anual de la compañía. Ahora, el agregado de todos estos datos es una fotografía perfecta de nuestro estilo de vida con un valor para las organizaciones igual o superior al del propio servicio provisto.
Los cada vez más presentes monitores de actividad –relojes, pulseras, sensores de ritmo cardiaco– lo hacen todavía más evidente: cada paso, cada piso subido y cada kilómetro recorrido queda registrado. Incluso cambios tan pequeños como el latido del corazón se convierten en datos.
Las organizaciones utilizan los datos masivos en la gestión eficiente de las ciudades –ciudades inteligentes–, la prevención de epidemias de acuerdo con las búsquedas de síntomas en Google, la prevención de crímenes y para operaciones masivas de vigilancia. El doctor Baselga afirmaba en el último encuentro del Foro Económico Mundial en Davos que la cura del cáncer pasa por nuestra capacidad de computación en la recogida y el análisis de datos masivos de millones de historiales clínico de todo el planeta.
Ysi los pequeños cambios son poderosos –cómo decía el Capità Enciam–, los grandes volúmenes de pequeños cambios son superpoderosos, y es precisamente eso lo que son los datos masivos: un gran volumen de datos variables a una gran velocidad generados por pequeños cambios. El conocimiento de los datos masivos del presente nos otorga el superpoder de conocer el futuro, y es sólo cuestión de tiempo que tengamos la capacidad de computación y análisis necesarios para extraer información relevante para predecirlo efectivamente. La cuestión fundamental radica en cómo organizaciones e individuos utilizaremos este superpoder. La respuesta está en los datos masivos.