Big Data: mucho más que una recopilación de datos
Hace un tiempo, debatía con un colega las aplicaciones que tiene el uso de herramientas de big data en distintos ámbitos. Él lo usaba para mejorar las estrategias de marketing en su empresa, y cuando le consulté con qué herramienta procesaba los datos, respondió: “con Excel”. Pero algo de esto llamó mi atención, el Excel permite hasta un millón de entradas. Big data es un concepto que refiere a manejar una envergadura de datos que excede ampliamente este número. Los datos masivos son mucho más que una recopilación de información, implican también su síntesis y análisis, y, para esto, necesitamos muchas más herramientas que la tradicional hoja de cálculo.
Para dimensionarlo, pensemos que la utilización de big data hace posible, en parte, desde la aplicación de algoritmos para predecir el éxito de una canción, que Netflix produzca series basadas en los gustos de sus usuarios, hasta la aparición de los vehículos autónomos. Y eso excede a una cantidad masiva de datos, ya que, por sí solos, no significan mucho. Ahora bien, en estos ejemplos aparecen tecnologías como Inteligencia Artificial (IA), Machine Learning (ML) y Deep Learning (DL), cuyo combustible son los datos masivos.
Tomemos, para comprender a esas tres tecnologías, una analogía con lo que sucede en los seres humanos: la Inteligencia Artificial sería equivalente a la inteligencia humana; el Machine Learning, a la capacidad de aprendizaje; y el Deep Learning, estaría más asociado con nuestro sistema neuronal. Es importante diferenciar cada una de las etapas y entenderlas como parte de un camino en el que la IA, con la identificación de patrones, es el primer paso; el ML, con el aprendizaje, es el segundo; y el DL, con la capacidad para tomar decisiones, el tercero.
La Inteligencia Artificial, el concepto más genérico de los tres, utiliza datos para reconocer patrones, y tiene la capacidad de ver relaciones que nosotros no podríamos identificar o, al menos, no con facilidad. Un ejemplo que se dio a conocer este año fue el algoritmo basado en IA desarrollado por Google que permite que, a través de los ojos de una persona, se pueda saber si corre peligro de sufrir un ataque cardíaco o un derrame cerebral, obteniendo la respuesta a partir de una evaluación de datos como la edad, presión arterial, o si son fumadores o no.
Teniendo máquinas que simulan nuestros procesos mentales, es común que también queramos que aprendan por sí solas, que sean capaces de auto-programarse, que aprendan de su propia experiencia. Esto es el Aprendizaje Automático (o Machine Learning), y es aplicable a cuestiones como la clusterización de perfiles (puede tomarse el ejemplo de Netflix) y la detección de anomalías, entre otros.
Sucede, sin embargo, que también vamos a querer pedirle algo más a estas máquinas capaces ya de aprender por sí solas, y acá entra en juego el Deep Learning (DL). Ahora, el desafío se encontrará en que los algoritmos aprendan sin intervención humana previa, que sean ellos mismos los que saquen conclusiones y tomen decisiones. Esto significa desarrollar cerebros hechos de hardware y software con estructuras lógicas organizadas como si fuera nuestro sistema nervioso: capas de unidades de proceso (neuronas artificiales) que se especialicen en detectar determinadas características en los objetos que perciben, tal como sucede en los seres humanos.
La consecuencia de esto es un sistema cognitivo artificial, que puede observarse, por ejemplo, en los vehículos autonómos, como el sistema autopilot de Tesla, y en asistentes virtuales como Siri, Alexa o Google Now. Otro caso de DL es la aplicación de reconocimiento facial diseñada por Microsoft para ayudar a encontrar chicos perdidos, que puede escanear una base de datos en segundos, analizar 27 características faciales distintas y reconocer a una persona a través de diferentes fotos sin importar el ángulo ni la expresión del rostro.
Con esta interpretación detallada del concepto big data, podemos entender que la verdadera función de los datos masivos excede a su recopilación en celdas. De hecho, una vez que ya se dispone de los datos, su procesamiento y compresión, se realiza a través de diversas herramientas que se adaptan a lo que queramos hacer y a nuestros conocimientos de informática. Por solo mencionar algunas, tenemos a Hadoop y a Apache Storm.
Big data no es solo un concepto del que escuchamos cada vez más, sino que impacta de manera sustancial en el desarrollo económico. International Data Corporation (IDC), la empresa de inteligencia de mercados, sostiene que hacia el 2022 un 50% del PIB de América Latina estará digitalizado y que, durante 2019, aproximadamente la mitad del presupuesto de la industria de la tecnología de la información (TI) se gastará en los pilares de la Tercera Plataforma (movilidad, nube, big data y analítica, y herramientas sociales).
Aunque estos cambios pueden generar miedos o sensaciones adversas en la población, también hay quienes auguran un futuro mejor gracias a ellos. Lo cierto es que somos nosotros quienes los generamos, somos nosotros quienes tenemos la capacidad de desarrollar la tecnología necesaria para predecir el futuro y, sobre todo, cambiarlo. Dadas las condiciones y las predicciones, para el 2022 el continente latinoamericano se transformará en un terreno ideal para que estas tecnologías alcancen su potencial. La decisión que sí podemos tomar nosotros, es qué rol nos gustaría tener en este proceso de cambio: ser meros espectadores o protagonistas del futuro.