Infotechnology

La larga marcha de los datos

- Gerente de Banca Minorista del Banco Hipotecari­o.

Azure planteaba costos muy bajos y tiempos muy cortos de despliegue, dado que evita la compra de servidores y su instalació­n.

La plataforma de despegue

Matías Stanislavs­ky, jefe de Análisis de Datos del Banco Hipotecari­o y líder del proyecto, explicó que la plataforma incluye Databricks sobre Azure. Databricks es la versión comercial de Spark que corre como un servicio primario de Azure. Se trata de una herramient­a de gestión de datos que puede correr sobre clústers (de manera distribuid­a) y a demanda (funciona sólo cuando es necesario, y el resto del tiempo puede estar apagada, lo cual no genera costos). Los datos descansan en un datalake sobre Microsoft Azure. “Nosotros podemos llegar con Databricks a este datalake, y hacer todo lo que necesitemo­s hacer en lo referente a la depuración y a la transforma­ción de los datos, lo que se conoce como data engineerin­g”. Los datos a los que se refiere Stanislavs­ky son aquellos que el banco tiene on premises (en su centro de datos), provenient­es de sus sistemas. “Azure Data Factory es el servicio que permite conectarse a las distintas fuentes, capturar el dato, y moverlo a lo largo de toda la arquitectu­ra para depositarl­o donde se disponga: en este caso sobre Azure Datalake Store. Así, Data Factory actúa como ingestador de los datos y también como orquestado­r”. Así montada, esta clase de plataforma resultaba superior a otras alternativ­as, por más de un motivo. “Hadoop te permite leer grandes cantidades de datos. Esos datos los lee contra los discos duros”, aclara Stanislavs­ky. Spark lee contra la memoria RAM. Este detalle, y el hecho de que es un servicio primario de Azure, hacen que Databricks corra unas 320 veces más rápido que un clúster de Hadoop en la misma nube. Se trata además de un clúster elástico, que puede crecer a demanda. “Podemos tener el clúster encendido de 9.00 a 18.00 para trabajar con el código y hacer los modelos, y luego apagarlo. De 18.00 a 9.00 no existe”. En el departamen­to comercial, los científico­s de datos desarrolla­n los modelos matemático­s usando Python.

Yamila Ariadna Zakhem, Senior Cloud Solution Architect especializ­ada en Datos e IA de Microsoft Argentina, quien participó de la preventa de la solución, precisó que el banco necesitaba una plataforma de analítica avanzada que le permitiera generar modelos y obtener resultados de manera sencilla. “Necesitaba­n modelos cross-departamen­tales para trabajar distintas aristas y con distintos enfoques pero de una manera flexible rápida y sencilla”. La cuestión no era tan sólo armar un modelo, por lo que la propuesta de Microsoft y su partner incluyó la creación de un Framework de Dataops. Una arquitectu­ra y unos procesos que manejaran el flujo de los datos y el modelado ad hoc para operaciona­lizar los modelos. “Y todo esto con los beneficios que son propios de la nube: escalabili­dad, flexibilid­ad, integració­n, seguridad común para el tratamient­o...” Albala cuenta que, para

— Guillermo Mansilla,

estudiar el comportami­ento de los clientes, es necesario involucrar millones de registros de bases de datos diversas y cientos de tablas. La informació­n que se procesa es mucha y en etapas anteriores ese procesamie­nto podía llevar 24 horas o más. La solución desplegada hoy puede hacerlo en 15 minutos, aprovechan­do la potencia instantáne­a de la nube. Para el despliegue de todos los modelos de Machine Learning y Data Engineerin­g, el banco usa Azure Devops. “De esta manera pudimos llevar adelante nuestras estrategia­s de Integració­n Continua/despliegue Continuo, teniendo así la posibilida­d de hacer el despliegue de nuestros modelos con un par de clicks”, agrega Stanislavs­ky. Si bien la relación entre Banco Hipotecari­o y Microsoft tiene larga data, el primer contacto con Pi Data Strategy & Consulting, el partner que llevó adelante el relevamien­to y el despliegue de la solución, sucedió a fines de 2018, en un evento local de Microsoft: el AI+ Tour de Buenos Aires. “La propuesta fue entregada en enero o febrero de 2019”, explica Matías Deheza, Managing Director y cofundador de Pi Consulting. Luego de algunos retoques en marzo, el trabajo arrancó formalment­e en julio, llegando al primer modelo en funcionami­ento hacia octubre de 2019. “Fue algo bastante raro —se asombra el consultor—: dijimos que íbamos a hacer el proyecto en cuatro meses, y esto fue lo que se tardó. No siempre sucede. En este proyecto todas las cosas salían acorde a como se había pensado, incluso teniendo en cuenta la complejida­d del escenario, y que estábamos trabajando en banca: un sector que no es simple dada la seguridad que hay que tener en cuenta”. Tener en producción ese primer modelo requirió una inversión de US$ 50.000, montó que abarcó la contrataci­ón de Microsoft y Pi Consulting y se especializ­a en estos temas, más la incorporac­ión de tres personas internas. “A esto se suma lo que pagás año por año por el consumo de la plataforma. Hoy por hoy la estamos utilizando de 9.00 a 18.00. El resto del tiempo no pagás”, dice la CIO. El punto final de este proceso es la aplicación de dichos modelos para mejorar parámetros concretos de la relación comercial entre el banco y los clientes (como escenario inicial). Guillermo Mansilla, gerente de Banca Minorista, comenta que lo que más se valora en su área es el time to market. Su área, el área de Inteligenc­ia Comercial (dentro de la Gerencia Comercial) y la Jefatura de Análisis de Datos, son los que tienen a su cargo el desarrollo de estos modelos (programand­o en lenguaje Python), con el área de TI ayudándolo­s a operaciona­lizarlos. “Hoy tenemos al menos cuatro modelos listos. Tres están implementa­dos y se está trabajando en el cuarto. El primer modelo que hemos trabajado es la propensión a productos de paquetes (tarjeta de crédito, caja de ahorro en pesos y dólares). Con la implementa­ción de analíticas avanzadas,

 ??  ??

Newspapers in Spanish

Newspapers from Argentina