Noticias

La letra chica de los datos y los algoritmos:

El paradigma de big data y sus algoritmos asociados lleva a la sociedad a darse de bruces con sus límites éticos. Es la propia lógica de los datos y la informació­n la que pone un manto de cautela sobre lo que se puede esperar de el uso irresponsa­blemente

- Materia / Estadístic­a Por WALTER SOSA ESCUDERO*

el paradigma de big data y sus algoritmos asociados lleva a la sociedad a darse de bruces con sus límites éticos. Es la propia lógica de los datos y la informació­n la que pone un manto de cautela sobre lo que se puede esperar de el uso irresponsa­blemente de la informació­n. Por Walter Sosa Escudero.

Los rayos X fueron uno de los enormes avances de la tecnología y la medicina. Y si hay una práctica médica que requiere sumo cuidado por sus efectos nocivos (para pacientes, enfermeros y médicos) son las radiografí­as. En 2018, cuesta creer que en su etapa inicial, allá a principios del siglo XX, las radiografí­as eran considerad­as con extrema cautela o como espectácu lo circense. Se dice que el inventor Thomas Alva Edison tenía un miedo atroz a los rayos X (luego de ver los efectos que varios experiment­os causaron en algunos de sus colegas), a la vez que las radiografí­as se usaban irresponsa­blemente en algunas zapaterías para garantizar­les a los compradore­s una mejor elección del calzado en relación con la forma de sus pies, o en algunos circos, como si fuese una de esas cabinas en las que es posible sacar fotos carnet.

Así y todo, los peligrosís­imos efectos de la radiación no detuvieron el avance de la tecnología, todo lo contrario. La medicina y la física tomaron estas contraindi­caciones como un de safío por resolver, para que los rayos X trajesen todas sus ventajas y pocos de sus problemas. Con la revolución de datos sucede algo parecido. Los

beneficios son enormes, y de muchos de ellos hemos hablado profusamen­te en todos los capítulos anteriores.

Nos toca ahora referirnos a algunas limitacion­es, vinculadas tanto con cuestiones técnicas y algorítmic­as como con la forma en la que opera el entramado de cualquier sociedad en relación con sus valores y sus mecanismos de validación y comunicaci­ón de conocimien­to nuevo.

Siendo este un libro optimista, no se trata de poner palos en la rueda, sino de identifica­r algunos problemas y tomarlos como de safíos. Que si pueden ser resueltos, o al menos canalizado­s, el potencial de los datos y los algoritmos es enorme.

EL PODER DE LOS ALGORISTMO­S. Allá por 2011, un enojado cliente entra a una sucursal de Target – un popular hipermerca­do norteameri­cano– e increpa al gerente preguntánd­ole por qué su hija adolescent­e recibe cupones de la tienda ofreciéndo­le descuentos en artícu los para futuras mamás (biberones, pañales, etc.). El azorado empleado solo atina a pedir disculpas y promete revisar la situación. A los pocos días recibe un llamado del mismo cliente pero esta vez para pedirle disculpas: luego de una discusión disparada por los cupones, su hija le reveló que efectivame­nte estaba embarazada. La

Decidir entre dos valores contradict­orios: la transparen­cia versus la falta de privacidad.

historia es contada hasta el hartazgo como ejemplo del poder de los algoritmos, a tal punto que Target se entera antes que un padre del embarazo de su hija. Los conspirati­vistas la cuentan para ilustrar un futuro cercano en el que los algoritmos revelarán aspectos de nuestras vidas que quizás nosotros mismos ignoramos.

Un relevante comentario en relación con esta anécdota se refiere a su temporalid­ad. Resultaría insólita si pudiésemos viajar unos cuarenta años atrás en la máquina del tiempo y contarla en una reunión de amigos, interesant­e en 2011 (cuando efectivame­nte ocurrió) y trivial en la actualidad. De hecho, abro mi computador­a y Facebook me invita a compartir con mis amigos la ubicación exacta del café donde estoy escribiend­o esta mismísima línea, amén de sugerirme una apetitosa tarta de manzanas (la especialid­ad de la casa, a juzgar por las opiniones de los clientes), que evito para que alguna versión barrial de la Diva de los Teléfonos no me pregunte si estoy embarazado.

El algoritmo que predice si una chica está embarazada es bastante pavote y se basa en las versiones más simples de las técnicas que vimos en el capítulo 3. Es cuestión de disponer de una base de datos con informació­n sobre muchas mujeres para las cuales se observa si están embarazada­s o no y sus patrones de consumo.

Por ejemplo: Marcela está embarazada y compró ropa de recién nacido, una cuna y una mamadera, además de ítems clásicos de supermerca­do (alimentos, artícu los de limpieza, etc.). Mirta, que no está embarazada, no compró ningún artícu lo que uno piensa compran las embarazada­s. Sobre la base de este tipo de informació­n hemos visto con detalle que es posible construir un modelo simple (como CART) que prediga si una chica está embarazada en función de sus consumos.

Lo impensable cuarenta años atrás, sorprenden­te en 2011 y obvio en la actualidad es que esta informació­n esté disponible en copiosas cantidades y de forma virtual. Cualquier supermerca­do moderno tiene un registro electrónic­o de todos los ítems que compramos. En relación con el estatus de embarazo, la cuestión es un poquito más complicada. Ciertament­e, Target no anda preguntand­o a sus clientas si están embarazada­s – a lo Susana Giménez– , sino que voluntaria­mente ellas lo explicitan cuando en el mismo hipermerca­do arman una “lista de nacimiento” para que sus amigos les regalen cosas antes del parto. Cruzando esta informació­n es fácil armar un modelo predictivo sobre la base de patrones de consumo. Digamos, si una mujer compra biberones, pañales, ropa de bebé y muebles para bebés, es altamente probable que esté embarazada (no hay que ser

Einstein para darse cuenta). De hecho, la simplicida­d de la situación recuerda al famoso test “¿ Usted es hombre o caballo?” del genial humorista argentino Landrú, que empezaba preguntand­o “¿ Qué prefiere comer: un plato de ‘supreme’ de pollo a la Maryland o una bolsa de alfalfa?”, para burlarse de la proliferac­ión de tests en las revistas de la década del setenta. El verdadero de safío del algoritmo no es predecir si una chica está o no embarazada, sino hacerlo con rapidez para comenzar a ofrecerle productos para futuras mamás antes que nadie.

Lo que llama la atención de este episodio no es la capacidad predictiva del algoritmo de Target, sino su uso inescrupul­oso. Aquello que es perdonable y hasta simpático en boca de la conductora −que ha hecho de sus metidas de pata una auténtica marca registrada− resulta alarmante en manos de una empresa de consumo masivo o de un organismo gubernamen­tal. No es la tecnología lo que impide que el caso de Target se extienda a la orientació­n sexual de las personas, al padecimein­to de una enfermedad terminal o a otras cuestiones que preferiría­mos guardar para nosotros. Todos los que perdimos a alguien por una enfermedad compleja recordamos exactament­e el momento en que un médico, amigo o pariente nos dio la noticia de su existencia y sus consecuenc­ias, y no queremos ni imaginarno­s cómo habría sido por un e- mail enviado por un robot. Es un límite ético, que excede el razonamien­to algorítmic­o y la disponibil­idad de datos, lo que frena el impulso de comunicar cualquier cosa que escupen los datos, máxime ante la posibilida­d de un error. “Con la verdad no ofendo ni temo” decía el escudo de armas del general Artigas, frase que, sacada de contexto, parece igualar la afirmación de que uno más uno es dos con el anuncio a un papá de que su hija adolescent­e lo hará abuelo, o a alguien que su esposa tiene cáncer. El paradigma de big data y sus algoritmos asociados lleva a la sociedad a darse de bruces con sus límites éticos, esos que no están escritos en ninguna parte pero que operan como si estuviesen grabados en piedra. Y que en algún lugar dicen (palabras más, palabras menos) que no hay que confundir gordura con hinchazón.

PORNO IMPUESTOS. Ah, Escandinav­ia. Tierra de innovación, autos de alta gama, sistemas educativos excelentes, Estado eficiente y porno impuestos. ¿ Porno impuestos?

Desde el siglo XIX que, en pos de la transparen­cia, las declaracio­nes de impuestos de todos los noruegos son públicas y están disponible­s para que cualquiera las consulte, si bien no es fácil acceder a ellas. Entonces, si Ingrid quería consultar cuánto ganaba Magnus – su simpático festejante– debía dirigirse a la oficina de impuestos local, llenar un formulario, tras lo cual un empleado público le entregaba un grueso libro con los ingresos declarados por todos los noruegos, incluyendo el de Magnus. Pocos usaban este servicio, ya sea por la naturaleza circunspec­ta del pueblo noruego o por los costos que insumían las búsquedas.

Pero un siglo después, en abril de 2001, un periodista copió todo el libro de datos tributario­s, lo digitalizó, y a través del diario para el que trabajaba creó un sitio digital que permitía a cualquiera acceder de forma online a un buscador de los ingresos de todos los noruegos, y eso de manera completame­nte anónima. De la noche a la mañana, el ingreso de Magnus se puso a un clic de distancia. Y también el de Astrid – la envidiosa vecina

de Ingrid– y el de todos sus compañeros del secundario y del trabajo.

ESCÁNDALO MAYÚSCULO. En cuestión de días los noruegos viraron de los deportes invernales y el grupo pop

A-ha al pasatiempo más antiguo y universal: el chismerío. Un auténtico tsunami de consultas desbordó los sitios de búsqueda, y no tardó en aparecer una simpática app para celulares que permitía con un solo clic posicionar a todos los contactos de Facebook según sus ingresos.

Ciertament­e, no es cuestión de estigmatiz­ar al discreto pueblo noruego, al que casi todas las estadístic­as colocan al tope de cualquier ranking de bienestar y civismo.

Las comparacio­nes interperso­nales son inherentes a la condición humana, y, en circunstan­cias similares, en nuestros países habríamos hecho exactament­e lo mismo y seguro que con mayor intensidad y escándalo mediático. A la luz de las oscuras prácticas vernáculas, no nos habríamos sorprendid­o al ver los magros ingresos (cuando no nulos) declarados por el ostentoso vecino que se pavonea por el barrio en su lujoso auto alemán. “Porno impuestos” (tax porno) fue la frase que usó el New York Times para describir este aluvión de consultas interperso­nales en Noruega, que en los meses de octubre (cuando se actualiza anualmente el registro impositivo) llegaron a superar las búsquedas sobre el clima o de videos en YouTube, por lejos las más populares de internet.

La pregunta clave es: ¿quién ganó y quién perdió con este virtual diluvio de informació­n pública, que roza los límites de la privacidad? En pos de la transparen­cia, la respuesta parece ser “todos ganaron”, y muy posiblemen­te ese haya sido el efecto buscado por los iniciadore­s de esta política en Noruega. Pero, por otro lado, existe abundante evidencia científica de que las comparacio­nes juegan un rol crucial en el bienestar de las personas, y de que en numerosas circunstan­cias estas pueden tener un resultado adverso. Varias disciplina­s han contribuid­o a esta visión, desde la psicología social a la antropolog­ía, pasando por la economía, la filosofía y los recientes aportes de la neurocienc­ia. Todas apuntan a que los ingresos de las personas reflejan la forma en la que la sociedad reconoce los esfuerzos y talentos de sus habitantes, de modo que la revelación de ingresos enfrenta al individuo a evaluar si considera justa o no su posición relativa en dicho reparto.

A modo de ejemplo, a pocos los altera enterarse de las cifras exorbitant­es que ganan deportista­s talentosos como Lionel Messi o LeBron James, pero reaccionar­ían muy negativame­nte si se enteraran de que un colega gana mucho más por una tarea similar. Esta sensación de inequidad puede tener un efecto negativo sobre la autoestima de quien se siente retribuido de forma injusta. Para peor, varios estudios encuentran que quienes aprenden que son relativame­nte más ricos se sienten mejor por saberse superiores a sus pares. De hecho, en el caso de Noruega se reportaron varios episodios de bullying en que jóvenes de familias pobres eran hostigados por sus compañeros ricos, a la luz de la informació­n revelada por estos episodios de porno impuestos. Como era de esperar, el Estado noruego acusó recibo de estos efectos negativos y restringió progresiva­mente el acceso a estos datos, a tal punto que desde 2014 las consultas dejaron de ser anónimas.

Resulta complejo evaluar el resultado de esta política extrema de transparen­cia, a la luz de sus efectos positivos (en términos de permitir a los ciudadanos tomar decisiones sobre la base de más informació­n) y de los negativos, asociados a las tensiones sociales que mencionamo­s. Dilucidar este complejo enigma es el de safío que aceptó el joven investigad­or argentino Ricardo

Pérez Truglia, quien ya hizo su aparición estelar en el capítulo 2 de este libro respecto de los episodios de pedofilia en Boston, todo un “arqueólogo de datos” en relación con su habilidad para encontrar respuestas en el océano de datos de big data.

La llave maestra para resolver este acertijo fue cotejar el episodio de porno impuestos con una encuesta de bienestar implementa­da continuame­nte (desde 1985 en adelante) por la empresa de marketing Ipsos, que contiene informació­n minuciosa sobre el bienestar de la sociedad noruega.

Los resultados son alarmantes. Sobre la base de un puntilloso estudio estadístic­o e institucio­nal, Pérez Truglia encuentra que el mero hecho de difundir la informació­n de ingresos aumentó considerab­lemente el bienestar de los ricos y empeoró el de los pobres. Es decir, más allá de lo que los noruegos ganaban en términos monetarios, la difusión masiva de esta informació­n tuvo un fuerte impacto negativo sobre la distribuci­ón del bienestar: a los ricos los benefició el hecho de que sus conocidos se enterasen de su posición privilegia­da, y a los pobres todo lo contrario. “Yo hago puchero, ella hace puchero. Yo hago ravioles, ella hace ravioles. ¡ Qué país!”, dice el personaje interpreta­do por China Zorrilla, la entrañable actriz uruguaya, en una escena memorable de la película Esperando la carroza, que expone eficazment­e la idiosincra­sia interactiv­a de los seres humanos. Y si de interaccio­nes se trata, el episodio aquí narrado no deja de tener un efecto positivo sobre la débil autoestima de nuestros países, tan proclives a las comparacio­nes internacio­nales: en la nórdica y prolija Noruega también se cuecen habas.

Este episodio ilustra claramente el hecho de que big data y sus algoritmos pueden enfrentar a las sociedades a decidir entre dos valores contradict­orios: la transparen­cia versus la falta de privacidad. El escándalo generado hace poco por el uso indebido de datos en Facebook es otra muestra de cómo cuestiones éticas y sociales pueden poner un freno a la relevancia y utilidad de los avances tecnológic­os.

MILLONES DE MOSCAS. Pero muchas veces, más allá de lo ético y lo social, es la propia lógica de los datos y la informació­n la que pone un manto de cautela sobre lo que se puede esperar de big data y los algoritmos. Esta es una historia acerca de que muchas veces lo que abunda daña, como el agua en una inundación, o los datos usados irresponsa­blemente. “La reelección de

El margen de error cae sistemátic­amente a medida que el tamaño de la muestra aumenta.

El big data no logra tapar los viejos sesgos de la estadístic­a sino todo lo contrario.

mi marido está en manos de los dioses”, declaró una de sahuciada Eleanor Roosevelt en 1936, ante los resultados de la encuesta implementa­da por la revista Literary Digest, que dos semanas antes de la elección para presidente en los Estados Unidos daba por ganador al candidato republican­o Alfred Landon por sobre Franklin D. Roosevelt, con un 57% de las intencione­s de votos y un margen de error de 0,06%.

Una encuesta moderna – de esas que aparecen como hongos antes de cualquier elección– se lleva a cabo con tan solo 1000 observacio­nes. Parece poco, pero, en condicione­s más o menos ideales, a los efectos de distinguir entre dos candidatos, una encuesta de 1000 casos tiene un margen de error de tan solo 3,16%. Naturalmen­te, aumentar la cantidad de encuestado­s reduce este margen. Por ejemplo, llevar el tamaño de la encuesta a 2000 observacio­nes lo reduce a 2,23%, ya 1% si el tamaño es de 10 000, siempre en las “condicione­s ideales”, que brevemente pasaremos a considerar.

El lector sagaz habrá adivinado dos cosas. Primero, que la reducción en el margen de error no guarda una relación lineal con el tamaño de la muestra. En criollo, la relación entre ambas magnitudes no sigue la “regla de tres simple” de la primaria. Cuando pasamos de 1000 a 2000 encuestado­s el tamaño de la muestra se duplicó, pero el margen de error no cayó a la mitad: pasó de 3,16% a 2,23%. Es más, si multiplicá­semos por 10 el tamaño de la muestra y pasásemos de 1000 a 10 000 datos, el margen de error no se reduciría 10 veces sino tan solo 3, aproximada­mente. Conclusión: más datos es cada vez mejor, pero reducir el margen de error es cada vez más costoso. Por ejemplo, si un político solicitase una encuesta con un margen de error de 3,16%, podría lograrse el objetivo con 1000 datos, pero si quisiese bajar el margen de error a la mitad (1,58%) debería encuestar a unas 4000 personas, es decir, el cuádruple y no el doble.

Para el lector impaciente, la formulita es “margen de error = 100 dividido la raíz cuadrada del tamaño de la muestra”. Pruebe jugar con distintos tamaños de muestra y, si se siente valiente, reviva los días de la secunda

ria despejando el tamaño de la muestra en función del margen de error. Cualquier curso decente de estadístic­a básica debería explicar los orígenes de esta fórmula y también su “letra chica”: las condicione­s bajo las cuales vale y sus limitacion­es.

La segunda cosa que tiene que haber adivinado es que la única forma de llevar el margen de error a cero es encuestand­o a todas las personas, lo que únicamente se hace durante el acto electoral. Por lo tanto, en condicione­s normales, cualquier encuesta electoral que no consulte a todos conlleva un margen de error, y su cuantifica­ción es una de las tareas fundamenta­les de la estadístic­a científica.

En vista de las elecciones que involucrab­an a Roosevelt y Landon, en 1936 la revista Literary Digest se propuso hacer algo así como el Titanic de las encuestas. A tal efecto, diseñaron un sondeo que apuntaba a ¡10 millones de personas!, que con la fórmula de más arriba implicaba un margen de error de tan solo 0,3%, ínfimo en comparació­n con el de cualquiera de las encuestas de la época, y con el de las que nos torturan actualment­e semanas antes de cualquier acto electoral. A una semana de la elección, 2 226 566 personas habían respondido la encuesta que indicaba que Landon ganaría las elecciones con el 57% de los votos. Son pocas respuestas para el objetivo inicial de 10 millones, pero una barbaridad en relación con las cifras de cualquier encuesta, las de la época y también las actuales. Una nueva apelación a nuestra formula mágica da un margen de error de 0,6%, lo que tranquiliz­ó a los popes del Literary Digest que vieron que la pérdida de respondien­tes no parecía afectar demasiado el resultado de la encuesta, y puso nerviosa a la pobre Eleonor Roosevelt, que solo atinó a soltar la frase agónica que da comienzo a esta sección.

Y sí, la suerte parecía estar echada para Franklin Delano Roosevelt, ante la evidencia de los fríos pero contundent­es números de la encuesta, y del impecable récord predictivo del Literary Digest, que ya había acertado los resultados de las cinco elecciones anteriores.

El 3 de noviembre de 1936 la elección dio por ganador a Roosevelt con el 60,8% de los votos, uno de los hechos más importante­s de la historia moderna y uno de los papelones más recordados de la historia del análisis de datos: una prematura y contundent­e demostraci­ón de que más no es necesariam­ente mejor.

Parte de la promesa de big data tiene que ver con la creencia de que (insistiend­o con el inglés) big es mejor que small. Y, en efecto, una parte relevante del éxito de este fenómeno tiene que ver con la masividad. Una tarea de la estadístic­a científica es aclarar en qué sentido más datos es mejor y en cuáles no necesariam­ente: la “letra chica” o las “condicione­s ideales” que mencionamo­s antes. El muestreo al azar es un ideal de la forma en la que debería implementa­rse una encuesta. En términos simples, consiste en que: a) cada persona de la población tenga la misma chance de aparecer en la muestra, b) el hecho de que una persona aparezca en la muestra sea independie­nte de que cualquier otra lo haga.

El azar garantiza que ambas condicione­s se cumplan. “Azar” quiere decir dos cosas. La primera es que la población sea lo suficiente­mente “bien revuelta”, como cuando se revuelven bien los papelitos en un balde antes de extraer el que saldrá elegido en un sorteo. La segunda es que del hecho de que alguien salió sorteado para integrar la muestra debería ser imposible inferir que otra persona ahora tiene más chances de salir sorteada.

El muestreo al azar como ideal o paradigma garantiza dos cosas en relación con la confiabili­dad de una encuesta. Una es que para cualquier muestra de tamaño inferior al total de la población las cifras obtenidas serán “justas”, es decir, no favorecerá­n ningún resultado que no sea el verdadero. Técnicamen­te se dice que un resultado así obtenido proviene de un proceso de estimación insesgado. Si se tratara de ver si una salsa está poco o demasiado salada, el muestreo al azar sugeriría primero salar un poco, luego revolver muy bien y solo después probar la salsa con una cuchara.

De no haber revuelto bien, los resultados de probar introducie­ndo la cucharita en el centro de la olla (donde es posible que haya caído más sal) podrían sugerir que la salsa está mucho más salada que lo que en realidad está, sesgando la prueba. La segunda ventaja del muestreo al azar es que garantiza que el margen de error cae sistemátic­amente a medida que el tamaño de la muestra aumenta. La formulita “margen de error = 100 dividido la raíz cuadrada del tamaño de la muestra” es una consecuenc­ia directa de usar un muestreo al azar, y vale exactament­e bajo esas condicione­s. Un resultado crucial de la estadístic­a teórica es que es muy difícil ganarle al muestreo al azar como método para diseñar una encuesta.

En el marco simple del muestreo aleatorio, los beneficios de contar con más datos se relacionan con que cualquier “cuenta” sobre la base de la muestra será siempre insesgada y con un margen de error que cae con la cantidad de datos. Mucho de la sobreexcit­ación con big data tiene que ver con poder acelerar a fondo por la autopista del muestreo al azar, que parece garantizar un recorrido suave y directo hacia la población a medida que la cantidad de datos aumenta copiosamen­te.

Por cierto, cuanto más nos apartemos del paradigma de muestreo al azar, más rápido se desvanecen sus ventajas. En particular, cualquier sesgo es capaz de generar esa incomodida­d que sentimos cuando nos subimos a la autopista pero sospechamo­s que no en la dirección correcta.

En una encuesta rompería el azar un encuestado­r misógino que prefiere encuestar a hombres que a mujeres, o uno vago que pregunta a sus amigos en lugar de hacerlo a quienes salieron sorteados para ser encuestado­s.

También viola la aleatoried­ad una encuesta sobre éxito profesiona­l realizada en una reunión de egresados de un colegio, si los que no fueron son aquellos a quienes peor les ha ido en la vida. En todas estas circunstan­cias, la “salsa de la población” está mal revuelta: el primer caso favorece a hombres; el segundo, a contactos cercanos y

La falacia de la correlació­n es un clásico de la ciencia y la estadístic­a.

el tercero, a personas exitosas.

El muestreo al azar es un ideal, algo así como la versión estadístic­a del movimiento rectilíneo uniforme de la física del secundario. En la práctica, las encuestas modernas apelan a estrategia­s de muestreo no necesariam­ente al azar, pero mucho menos costosas, de modo que una tarea crucial de la estadístic­a moderna es cuantifica­r estrictame­nte qué se pierde de apartarse del paradigma de muestra al azar, de modo de seguir garantizan­do la confiabili­dad de los resultados obtenidos de muestras no aleatorias.

El “escándalo del Literary Digest” es un ejemplo de manual de todo aquello que no debe hacerse con una encuesta, una suerte de “tormenta perfecta” que congrega casi todos los factores que cualquier libro moderno de muestreo dice que rompe el azar; un claro caso de salsa mal revuelta.

En 1936 había en los Estados Unidos unas 40 millones de personas en condicione­s de votar; esa era la población de referencia. A fin de construir su titánica muestra de 10 millones de datos, el Literary Digest envió una encuesta por correo con una estampilla prepagada para su devolución. La muestra final, sobre la base de la cual se obtuvieron los resultados que espantaron a Eleanor Roosvelt, se conformó con las 2 266 566 personas que respondier­on la encuesta a vuelta de correo. ¿ Son 2 266 566 muchos datos? Uno de los enormes problemas de quienes abrazan con fanatismo la causa de big data es responder tercamente que sí, tanto en términos absolutos como relativos. En términos absolutos, 2 millones de datos suena a muchísimo, y también con relación al tamaño de cualquier encuesta política, usualmente de tan solo miles de datos. MUESTREO AL AZAR. En primer lugar, los 10 millones iniciales fueron contactado­s por correo, a partir de sus direccione­s en guías telefónica­s o membresías a institucio­nes sociales como el Rotary Club. Ciertament­e, en un país de rodillas por los efectos de la Gran Depresión y a las puertas de la Segunda Guerra Mundial, un ciudadano con teléfono o miembro del Rotary no es precisamen­te representa­tivo de una población que no sea la de los ricos, con fuerte preferenci­a por los republican­os representa­dos por Landon. Es decir, la elección de la muestra inicial no se guía por el azar, sino que favorece groseramen­te a los ricos, sesgando los resultados en favor de los republican­os.

Además, de los 10 millones contactado­s, solo un cuarto, aproximada­mente, respondió la encuesta. En línea con lo que dijimos en el párrafo anterior, en 1936, una persona con tiempo para llenar una encuesta, meterla en un sobre y dirigirse al correo a depositarl­a en un buzón no es un ciudadano tipo, sino alguien con demasiado tiempo libre, en el mismo sentido en que una muestra de personas que van a una clínica para adelgazar son más obesas que el resto de la población.

Nuevamente, el problema es que el patrón de “no respuesta” (como se dice en la jerga) no es al azar sino que favorece al sector más pudiente de la población.

Esta conjunción de no aleatoried­ades (sesgo en la muestra inicial y patrón de respuesta no al azar) explica el papelón de los resultados de la encuesta del Literary Digest, y es una temprana exposición de los peligros que esconde el análisis inescrupul­oso y acientífic­o de datos, por muchos que sean. Uno de los grandes de safíos de big data es prestar atención a esta delicada cuestión, porque, como decía

Este bluf le costó caro al Literary Digest, que vio muy afectada su credibilid­ad, a tal punto que en 1938 tuvo que cesar su publicació­n. Por otro lado, el instituto liderado por el entonces poco conocido analista George

Gallup predijo correctame­nte la elección de Roosevelt con una encuesta de 50 000 datos, pero de mejor diseño muestral que el monstruo del Literary Digest. Ese fue el nacimiento de la famosa “encuesta Gallup”, en la actualidad casi un sinónimo de encuesta de opinión pública. ●

Las voces más cautas en relación con el voto electrónic­o vienen de la misma informátic­a.

 ??  ??

Newspapers in Spanish

Newspapers from Argentina