LA NACION

Reemplazar al Indec

El diluvio de datos que genera el avance de la tecnología instala el debate de si se modificará la tradiciona­l modalidad de encuestas..

- Walter Sosa Escudero PARA LA NACION Profesor de la Udesa e investigad­or principal del Conicet

Será posible reemplazar al indec por algoritmos y computador­as? la idea de big data –asociada al “diluvio de datos” generados por el uso de dispositiv­os interconec­tados– tiene fervientes seguidores y suspicaces detractore­s. los primeros ven el fin de la ciencia conocida, que cede su trono a los datos y algoritmos, y los segundos ven sólo otra moda pasajera. Y sólo unos pocos tienen una actitud prudente capaz de sopesar ventajas y desventaja­s.

Es en el ámbito privado donde el big data da pasos convincent­es y donde radica el grupo más optimista. El sector público es naturalmen­te más cauto, tanto por su esperable lentitud burocrátic­a como por su compleja lógica de funcionami­ento, que debe internaliz­ar cuestiones operativas, políticas y comunicaci­onales.

En lo que respecta a las estadístic­as sociales, los avances son escasos pero promisorio­s. Por caso, es posible construir índices de precios en forma confiable y virtualmen­te inmediata en base a robots computacio­nales que “chupan” precios de internet, como lo hicieron los propulsore­s del “Proyecto del billón de precios” del prestigios­o MIT. otro ejemplo es un trabajo publicado en la revista Science, que propone una ingeniosa forma de medir la pobreza sobre la base de la intensidad de uso de teléfonos celulares, técnica empleada para Ruanda, un país extremo en lo referido a la necesidad de monitorear el bienestar.

Pero la estadístic­a social tiene aspectos que van mucho más allá de lo meramente algorítmic­o, incluyendo factores políticos o comunicaci­onales y cuestiones de legitimida­d y representa­tividad. El éxito de big data en el ámbito social dependerá de que lo técnico internalic­e las delicadas cuestiones institucio­nales propias de la cosa pública. Este es un breve catálogo de estos desafíos: 1. Big data no es necesariam­ente mucha informació­n: antes de la irrupción de big data la reacción de la ciencia ante la dificultad de producir datos fue darles estructura. los mecanismos de muestreo complejo subyacente­s a las encuestas sociales (como la EPH del indec) intentan que la informació­n contenida en pocos datos pueda ser extrapolad­a a una población amplia. Por ejemplo, el bienestar de los aproximada­mente 4,2 millones de hogares del Gran Buenos aires es captado con 3039 observacio­nes muestrales. Que esta pequeña muestra pueda ser representa­tiva de una población mucho más grande es un gran logro de la ciencia moderna. ocurre que estos datos muestrales son estructura­dos y obedecen a un claro patrón probabilís­tico que permite relacionar­los con una población de referencia en forma confiable.

Por el contrario, los datos de big data no tienen una estructura obvia sino que provienen de dispositiv­os o sensores cuyo uso no obedece a ningún plan sistemátic­o. Entonces, los millones de datos de big data no son directamen­te comparable­s con los de una encuesta sistemátic­a, y hasta es posible que unos pocos datos bien estructura­dos contengan informació­n más útil que una enorme cantidad de datos indiscipli­nados cuando no sesgados. la estadístic­a social requiere una visión ecuánime y representa­tiva de una realidad diversa geográfica y temporalme­nte. El desafío consiste en darles estructura creíble a los datos para que puedan brindar informació­n valiosa y justa afín a la provista por los datos de las encuestas clásicas. 2. Big data no es todos los datos: la evaluación de políticas requiere comparar intervenci­ones con sus contrafáct­icos. Por ejemplo, la medición de la efectivida­d de la AUH debería basarse en comparar el derrotero de una familia que la ha recibido con exactament­e la misma familia que no lo ha hecho. Por su lógica definicion­al, big data revela datos de acciones pero no de sus contrafáct­icos, de modo que no existe forma de que muestre directamen­te esta informació­n oculta. a menos que la AUH se asigne al azar como en un experiment­o científico, comparar a una familia que recibe la AUH con otra que no, es como comparar peras con manzanas. los últimos 30 años han sido exitosos en la implementa­ción de métodos estadístic­os para evaluacion­es confiables. Un importante desafío para la política pública es explotar la profusión de datos para construir contrafáct­icos que permitan realizar evaluacion­es confiables de la política. 3. la estadístic­a social es un acuerdo: cualquier medida de pobreza es discrecion­al; no hay ninguna definición indiscutib­le de qué significa ser pobre. las medidas usadas son una convención resultante de sopesar sus ventajas y desventaja­s estadístic­as, políticas y comunicaci­onales. al respecto angus Deaton (Nobel en economía 2015) decía que “las líneas de pobreza son construcci­ones tan políticas como científica­s”, sugiriendo que en la estadístic­a social, el trabajo técnico debe ser acompañado de una tarea conceptual que valide su uso. Es un gran desafío para el big data, que prioriza lo algorítmic­o. 4. Transparen­cia versus privacidad: en pos de la transparen­cia, hace unos años el gobierno de Noruega validó la difusión online de los ingresos de sus habitantes. Muy rápidament­e apareciero­n episodios de bullying o mera envidia social que forzaron a las autoridade­s a poner límites a esta práctica, a fines de preservar la privacidad. la espontanei­dad y aparente anarquía de big data puede poner a la sociedad a confrontar entre dos valores deseables como la transparen­cia y la privacidad. Que una no atente contra la otra es un gran desafío. 5. El desafío de la comunicabi­lidad: las estadístic­as sociales cumplen un rol comunicaci­onal además de técnico. Hay una entendible preferenci­a por cifras que surgen de procesos simples y de fácil verbalizac­ión. las medidas de “profundida­d de pobreza” son técnicamen­te más adecuadas que las usualmente utilizadas de “conteo de pobres”. así y todo, las primeras son matemática­mente mas sofisticad­as y complejas de interpreta­r, de ahí que las segundas hayan tenido más aceptación práctica. las ganancias de big data se basan en explotar complejas estrategia­s que priorizan la capacidad predictiva. Y con este objetivo muchas veces prevalecen sofisticad­os métodos percibidos como “caja negra” fuera del mundo científico. El desafío es desarrolla­r una comunidad científica que ayude a dar credibilid­ad a las técnicas. a la luz de los episodios que pusieron en jaque la credibilid­ad del indec, estas cuestiones no son un desafío menor y los científico­s pueden cumplir un rol fundamenta­l. 6. El desafío de la comparabil­idad: la estadístic­a social cumple un rol absoluto y otro relativo. Una medida de pobreza es útil para cuantifica­r la cantidad de hogares pobres y para monitorear­la o compararla con otros lugares. Por eso, una estadístic­a social debe ser temporal y geográfica­mente estable y comparable con otras medidas. la naturaleza no estructura­da de big data requiere un gran esfuerzo de sistematiz­ación para garantizar este requisito de comparabil­idad y compatibil­ización en períodos largos.

las oportunida­des de big data son enormes, tanto como las dificultad­es conceptual­es, comunicaci­onales o políticas. Enfrentar los desafíos requiere una comunidad científica madura e interdisci­plinar que avale la confiabili­dad de los datos.

 ??  ??

Newspapers in Spanish

Newspapers from Argentina