La larga marcha de los datos
Azure planteaba costos muy bajos y tiempos muy cortos de despliegue, dado que evita la compra de servidores y su instalación.
La plataforma de despegue
Matías Stanislavsky, jefe de Análisis de Datos del Banco Hipotecario y líder del proyecto, explicó que la plataforma incluye Databricks sobre Azure. Databricks es la versión comercial de Spark que corre como un servicio primario de Azure. Se trata de una herramienta de gestión de datos que puede correr sobre clústers (de manera distribuida) y a demanda (funciona sólo cuando es necesario, y el resto del tiempo puede estar apagada, lo cual no genera costos). Los datos descansan en un datalake sobre Microsoft Azure. “Nosotros podemos llegar con Databricks a este datalake, y hacer todo lo que necesitemos hacer en lo referente a la depuración y a la transformación de los datos, lo que se conoce como data engineering”. Los datos a los que se refiere Stanislavsky son aquellos que el banco tiene on premises (en su centro de datos), provenientes de sus sistemas. “Azure Data Factory es el servicio que permite conectarse a las distintas fuentes, capturar el dato, y moverlo a lo largo de toda la arquitectura para depositarlo donde se disponga: en este caso sobre Azure Datalake Store. Así, Data Factory actúa como ingestador de los datos y también como orquestador”. Así montada, esta clase de plataforma resultaba superior a otras alternativas, por más de un motivo. “Hadoop te permite leer grandes cantidades de datos. Esos datos los lee contra los discos duros”, aclara Stanislavsky. Spark lee contra la memoria RAM. Este detalle, y el hecho de que es un servicio primario de Azure, hacen que Databricks corra unas 320 veces más rápido que un clúster de Hadoop en la misma nube. Se trata además de un clúster elástico, que puede crecer a demanda. “Podemos tener el clúster encendido de 9.00 a 18.00 para trabajar con el código y hacer los modelos, y luego apagarlo. De 18.00 a 9.00 no existe”. En el departamento comercial, los científicos de datos desarrollan los modelos matemáticos usando Python.
Yamila Ariadna Zakhem, Senior Cloud Solution Architect especializada en Datos e IA de Microsoft Argentina, quien participó de la preventa de la solución, precisó que el banco necesitaba una plataforma de analítica avanzada que le permitiera generar modelos y obtener resultados de manera sencilla. “Necesitaban modelos cross-departamentales para trabajar distintas aristas y con distintos enfoques pero de una manera flexible rápida y sencilla”. La cuestión no era tan sólo armar un modelo, por lo que la propuesta de Microsoft y su partner incluyó la creación de un Framework de Dataops. Una arquitectura y unos procesos que manejaran el flujo de los datos y el modelado ad hoc para operacionalizar los modelos. “Y todo esto con los beneficios que son propios de la nube: escalabilidad, flexibilidad, integración, seguridad común para el tratamiento...” Albala cuenta que, para
— Guillermo Mansilla,
estudiar el comportamiento de los clientes, es necesario involucrar millones de registros de bases de datos diversas y cientos de tablas. La información que se procesa es mucha y en etapas anteriores ese procesamiento podía llevar 24 horas o más. La solución desplegada hoy puede hacerlo en 15 minutos, aprovechando la potencia instantánea de la nube. Para el despliegue de todos los modelos de Machine Learning y Data Engineering, el banco usa Azure Devops. “De esta manera pudimos llevar adelante nuestras estrategias de Integración Continua/despliegue Continuo, teniendo así la posibilidad de hacer el despliegue de nuestros modelos con un par de clicks”, agrega Stanislavsky. Si bien la relación entre Banco Hipotecario y Microsoft tiene larga data, el primer contacto con Pi Data Strategy & Consulting, el partner que llevó adelante el relevamiento y el despliegue de la solución, sucedió a fines de 2018, en un evento local de Microsoft: el AI+ Tour de Buenos Aires. “La propuesta fue entregada en enero o febrero de 2019”, explica Matías Deheza, Managing Director y cofundador de Pi Consulting. Luego de algunos retoques en marzo, el trabajo arrancó formalmente en julio, llegando al primer modelo en funcionamiento hacia octubre de 2019. “Fue algo bastante raro —se asombra el consultor—: dijimos que íbamos a hacer el proyecto en cuatro meses, y esto fue lo que se tardó. No siempre sucede. En este proyecto todas las cosas salían acorde a como se había pensado, incluso teniendo en cuenta la complejidad del escenario, y que estábamos trabajando en banca: un sector que no es simple dada la seguridad que hay que tener en cuenta”. Tener en producción ese primer modelo requirió una inversión de US$ 50.000, montó que abarcó la contratación de Microsoft y Pi Consulting y se especializa en estos temas, más la incorporación de tres personas internas. “A esto se suma lo que pagás año por año por el consumo de la plataforma. Hoy por hoy la estamos utilizando de 9.00 a 18.00. El resto del tiempo no pagás”, dice la CIO. El punto final de este proceso es la aplicación de dichos modelos para mejorar parámetros concretos de la relación comercial entre el banco y los clientes (como escenario inicial). Guillermo Mansilla, gerente de Banca Minorista, comenta que lo que más se valora en su área es el time to market. Su área, el área de Inteligencia Comercial (dentro de la Gerencia Comercial) y la Jefatura de Análisis de Datos, son los que tienen a su cargo el desarrollo de estos modelos (programando en lenguaje Python), con el área de TI ayudándolos a operacionalizarlos. “Hoy tenemos al menos cuatro modelos listos. Tres están implementados y se está trabajando en el cuarto. El primer modelo que hemos trabajado es la propensión a productos de paquetes (tarjeta de crédito, caja de ahorro en pesos y dólares). Con la implementación de analíticas avanzadas,