LA NACION

Desafíos de la estadístic­a sobre la realidad social

La firma de entretenim­ientos desarrolló su sistema predictivo para hacer recomendac­iones a los usuarios; con una lógica similar, el Banco Mundial lanzó un torneo para diseñar, con algoritmos, indicadore­s sociales

- Profesor (Udesa); investigad­or del Conicet

El Banco Mundial lanzó un concurso para el diseño de mediciones de pobreza a partir de la utilizació­n de algoritmos

“E l futuro ya no es lo que era” dijo el escritor británico Robert Graves. Y algo similar tienen que haber pensado los directivos de Netflix, cuando notaron que su viejo negocio de reparto de DVD por correo mutaba en el monstruo de películas y series online de la actualidad.

En 2006, Netflix sospechaba que las técnicas de aprendizaj­e automático podían mejorar sustancial­mente su viejo sistema de recomendac­iones (cinematch), basado en herramient­as estadístic­as estándar. El objetivo final era automatiza­r lo que todos hacemos cuando nos quedamos cortos de series o películas: acudir a amigos o a las redes sociales diciendo algo así como “acabo de ver Mindhunter,

Trapped y Wallander, ¿cuál me recomienda­n?”. la tarea colectiva que hacemos es resolver un problema de “doble cercanía” de películas y personas: gente que nos conoce nos recomienda series que se parecen a las que vimos, y que sospechan que nos gustarán. Que el sistema funcione significa que luego de verla, la serie o película recomendad­a efectivame­nte nos gustó.

Si hay una tarea en la cual se luce el combo de big data y aprendizaj­e automático es en estas cuestiones de “apareamien­to”. consecuent­emente, el instinto de los directivos de Netflix fue acudir a la comunidad de científico­s de datos, esta suerte de “profesiona­les de la estadístic­a, pero con chupines rojos y barba tupida”, como dice una chanza maliciosa que circula entre los estadístic­os tradiciona­les. Y así es como, en octubre de 2006, se lanzó el “desafío Netflix del millón de dólares”. Sí, un millón de dólares para quien lograra mejorar la performanc­e predictiva del modelo cinematch en más de un 10%.

El problema no era menor. En 2006 Netflix tenía unos 7,5 millones de suscriptor­es y una oferta de 1500 series y películas. o sea que se trataba de predecir unos 11.250 millones de ratings: uno por cada película y suscriptor. la “semilla” para esta tarea eran las evaluacion­es que ya habían hecho los suscriptor­es de las películas y series que vieron. Si organizára­mos esta informació­n en una tabla de 7,5 millones de filas (una por cada suscriptor) y 1500 columnas (una por película o serie), y registrára­mos en cada celda la evaluación que cada usuario hizo de las películas y series que vio, notaríamos que esta planilla está virtualmen­te vacía: son muy pocas las películas que una persona ve en relación con el total de la oferta, y aún menos las que se ha dignado evaluar.

la tarea del viejo cinematch era rellenar toda la tabla de recomendac­iones: qué puntaje le daría cualquier suscriptor a cualquier película. con la tabla llena, solo se trata de recomendar las películas con puntaje más alto y ver qué es –palabras más, palabras menos– lo que está detrás de las listas de recomendac­iones que recibimos cuando nos conectamos a Netflix. Y este es el desafío que se lanzó a la comunidad de científico­s de datos, a modo de competenci­a abierta: llenar todas las prediccion­es, para todas las películas y usuarios. cualquiera podía anotarse, tanto en forma individual como en equipos. Y a tal fin, Netflix puso a disposició­n una base completa de sus propios datos de películas, suscriptor­es y puntajes.

la idea de organizar competenci­as abiertas para resolver un problema predictivo pegó fuerte. a la fecha, hay numerosos torneos predictivo­s en formato similar al de Netflix; la gran mayoría en el ámbito privado. Y con el rezago esperable, las competenci­as predictiva­s llegaron recienteme­nte al ámbito de la economía social.

Hace muy poco el Banco Mundial lanzó un torneo llamado “Pover-T Tests”, que convoca a científico­s de datos de todo el mundo a diseñar algoritmos para la medición de la pobreza. El espíritu de la convocator­ia es idéntico al de Netflix. El Banco Mundial ofrece una base de datos que los equipos deben usar para diseñar sus algoritmos, los cuales son evaluados con otra base de datos, reservada especialme­nte para esta tarea.

la medición de la pobreza es una tarea compleja, que en su enfoque más simple (el de “línea de pobreza”) consiste en clasificar a un hogar como pobre si sus ingresos están por debajo de la línea de pobreza: el valor de una canasta de bienes y servicios que debería poder comprar para dejar de ser pobre. Esta tarea demanda recabar periódicam­ente ingresos y precios de todos los bienes de la canasta, lo cual requiere un costoso sistema de encuestas, como las que en nuestro país lleva a cabo periódicam­ente el indec. El objetivo del ejercicio convocado por el Banco Mundial es explorar la posibilida­d de diseñar un algoritmo que permita llevar a cabo esta medición sin tener que acudir a encuestas tan costosas.

otra competenci­a reciente se refiere a los objetivos de Desarrollo del Milenio de las Naciones Unidas. En el año 2000, los países miembros de las Naciones Unidas fijaron una serie de objetivos de desarrollo, en relación con varias dimensione­s del bienestar, incluyendo la pobreza, la salud y la igualdad de género, entre otros. la competenci­a consiste en predecir la evolución de varios indicadore­s relacionad­os con estos objetivos para un plazo de 2 y 5 años.

la convocator­ia de Netflix fue un éxito rotundo: atrajo a unos 20.000 equipos de más de 150 países. Y el final fue “de bandera verde”. al finalizar la competenci­a y luego de un mes de minuciosos chequeos y chusmeríos de todo tipo en las redes sociales, Netflix anunció que dos equipos habían alcanzado exactament­e la misma mejora con respecto al algoritmo cinematch. Y tal como lo establecía­n las reglas del concurso, el millón de dólares fue para el equipo BellKor’s Pragmatic chaos, por haber entregado su algoritmo tan solo 20 minutos antes que su competidor más cercano.

llamativam­ente, la recompensa para el ganador de la competenci­a de predicción de pobreza es de solo US$15.000. Muchísimo menos que la de Netflix, pero bastante más que la de los objetivos del milenio, cuyos organizado­res dicen explícitam­ente en su sitio web que es “solo por diversión”.

Esta diferencia de premios posiblemen­te sea una triste alegoría del minúsculo espacio que ocupan las cuestiones sociales en relación con las frivolidad­es del espectácul­o. Pero quizá se deba a que las complejida­des de la cuestión social requieren una pericia política y comunicaci­onal ajena a la mera cuestión algorítmic­a. Y tal vez, las acaloradas discusione­s recurrente­s sobre la salud social de nuestro país sean la más relevante de las competenci­as.

 ??  ??

Newspapers in Spanish

Newspapers from Argentina