La letra chica de los datos y los algoritmos:
El paradigma de big data y sus algoritmos asociados lleva a la sociedad a darse de bruces con sus límites éticos. Es la propia lógica de los datos y la información la que pone un manto de cautela sobre lo que se puede esperar de el uso irresponsablemente
el paradigma de big data y sus algoritmos asociados lleva a la sociedad a darse de bruces con sus límites éticos. Es la propia lógica de los datos y la información la que pone un manto de cautela sobre lo que se puede esperar de el uso irresponsablemente de la información. Por Walter Sosa Escudero.
Los rayos X fueron uno de los enormes avances de la tecnología y la medicina. Y si hay una práctica médica que requiere sumo cuidado por sus efectos nocivos (para pacientes, enfermeros y médicos) son las radiografías. En 2018, cuesta creer que en su etapa inicial, allá a principios del siglo XX, las radiografías eran consideradas con extrema cautela o como espectácu lo circense. Se dice que el inventor Thomas Alva Edison tenía un miedo atroz a los rayos X (luego de ver los efectos que varios experimentos causaron en algunos de sus colegas), a la vez que las radiografías se usaban irresponsablemente en algunas zapaterías para garantizarles a los compradores una mejor elección del calzado en relación con la forma de sus pies, o en algunos circos, como si fuese una de esas cabinas en las que es posible sacar fotos carnet.
Así y todo, los peligrosísimos efectos de la radiación no detuvieron el avance de la tecnología, todo lo contrario. La medicina y la física tomaron estas contraindicaciones como un de safío por resolver, para que los rayos X trajesen todas sus ventajas y pocos de sus problemas. Con la revolución de datos sucede algo parecido. Los
beneficios son enormes, y de muchos de ellos hemos hablado profusamente en todos los capítulos anteriores.
Nos toca ahora referirnos a algunas limitaciones, vinculadas tanto con cuestiones técnicas y algorítmicas como con la forma en la que opera el entramado de cualquier sociedad en relación con sus valores y sus mecanismos de validación y comunicación de conocimiento nuevo.
Siendo este un libro optimista, no se trata de poner palos en la rueda, sino de identificar algunos problemas y tomarlos como de safíos. Que si pueden ser resueltos, o al menos canalizados, el potencial de los datos y los algoritmos es enorme.
EL PODER DE LOS ALGORISTMOS. Allá por 2011, un enojado cliente entra a una sucursal de Target – un popular hipermercado norteamericano– e increpa al gerente preguntándole por qué su hija adolescente recibe cupones de la tienda ofreciéndole descuentos en artícu los para futuras mamás (biberones, pañales, etc.). El azorado empleado solo atina a pedir disculpas y promete revisar la situación. A los pocos días recibe un llamado del mismo cliente pero esta vez para pedirle disculpas: luego de una discusión disparada por los cupones, su hija le reveló que efectivamente estaba embarazada. La
Decidir entre dos valores contradictorios: la transparencia versus la falta de privacidad.
historia es contada hasta el hartazgo como ejemplo del poder de los algoritmos, a tal punto que Target se entera antes que un padre del embarazo de su hija. Los conspirativistas la cuentan para ilustrar un futuro cercano en el que los algoritmos revelarán aspectos de nuestras vidas que quizás nosotros mismos ignoramos.
Un relevante comentario en relación con esta anécdota se refiere a su temporalidad. Resultaría insólita si pudiésemos viajar unos cuarenta años atrás en la máquina del tiempo y contarla en una reunión de amigos, interesante en 2011 (cuando efectivamente ocurrió) y trivial en la actualidad. De hecho, abro mi computadora y Facebook me invita a compartir con mis amigos la ubicación exacta del café donde estoy escribiendo esta mismísima línea, amén de sugerirme una apetitosa tarta de manzanas (la especialidad de la casa, a juzgar por las opiniones de los clientes), que evito para que alguna versión barrial de la Diva de los Teléfonos no me pregunte si estoy embarazado.
El algoritmo que predice si una chica está embarazada es bastante pavote y se basa en las versiones más simples de las técnicas que vimos en el capítulo 3. Es cuestión de disponer de una base de datos con información sobre muchas mujeres para las cuales se observa si están embarazadas o no y sus patrones de consumo.
Por ejemplo: Marcela está embarazada y compró ropa de recién nacido, una cuna y una mamadera, además de ítems clásicos de supermercado (alimentos, artícu los de limpieza, etc.). Mirta, que no está embarazada, no compró ningún artícu lo que uno piensa compran las embarazadas. Sobre la base de este tipo de información hemos visto con detalle que es posible construir un modelo simple (como CART) que prediga si una chica está embarazada en función de sus consumos.
Lo impensable cuarenta años atrás, sorprendente en 2011 y obvio en la actualidad es que esta información esté disponible en copiosas cantidades y de forma virtual. Cualquier supermercado moderno tiene un registro electrónico de todos los ítems que compramos. En relación con el estatus de embarazo, la cuestión es un poquito más complicada. Ciertamente, Target no anda preguntando a sus clientas si están embarazadas – a lo Susana Giménez– , sino que voluntariamente ellas lo explicitan cuando en el mismo hipermercado arman una “lista de nacimiento” para que sus amigos les regalen cosas antes del parto. Cruzando esta información es fácil armar un modelo predictivo sobre la base de patrones de consumo. Digamos, si una mujer compra biberones, pañales, ropa de bebé y muebles para bebés, es altamente probable que esté embarazada (no hay que ser
Einstein para darse cuenta). De hecho, la simplicidad de la situación recuerda al famoso test “¿ Usted es hombre o caballo?” del genial humorista argentino Landrú, que empezaba preguntando “¿ Qué prefiere comer: un plato de ‘supreme’ de pollo a la Maryland o una bolsa de alfalfa?”, para burlarse de la proliferación de tests en las revistas de la década del setenta. El verdadero de safío del algoritmo no es predecir si una chica está o no embarazada, sino hacerlo con rapidez para comenzar a ofrecerle productos para futuras mamás antes que nadie.
Lo que llama la atención de este episodio no es la capacidad predictiva del algoritmo de Target, sino su uso inescrupuloso. Aquello que es perdonable y hasta simpático en boca de la conductora −que ha hecho de sus metidas de pata una auténtica marca registrada− resulta alarmante en manos de una empresa de consumo masivo o de un organismo gubernamental. No es la tecnología lo que impide que el caso de Target se extienda a la orientación sexual de las personas, al padecimeinto de una enfermedad terminal o a otras cuestiones que preferiríamos guardar para nosotros. Todos los que perdimos a alguien por una enfermedad compleja recordamos exactamente el momento en que un médico, amigo o pariente nos dio la noticia de su existencia y sus consecuencias, y no queremos ni imaginarnos cómo habría sido por un e- mail enviado por un robot. Es un límite ético, que excede el razonamiento algorítmico y la disponibilidad de datos, lo que frena el impulso de comunicar cualquier cosa que escupen los datos, máxime ante la posibilidad de un error. “Con la verdad no ofendo ni temo” decía el escudo de armas del general Artigas, frase que, sacada de contexto, parece igualar la afirmación de que uno más uno es dos con el anuncio a un papá de que su hija adolescente lo hará abuelo, o a alguien que su esposa tiene cáncer. El paradigma de big data y sus algoritmos asociados lleva a la sociedad a darse de bruces con sus límites éticos, esos que no están escritos en ninguna parte pero que operan como si estuviesen grabados en piedra. Y que en algún lugar dicen (palabras más, palabras menos) que no hay que confundir gordura con hinchazón.
PORNO IMPUESTOS. Ah, Escandinavia. Tierra de innovación, autos de alta gama, sistemas educativos excelentes, Estado eficiente y porno impuestos. ¿ Porno impuestos?
Desde el siglo XIX que, en pos de la transparencia, las declaraciones de impuestos de todos los noruegos son públicas y están disponibles para que cualquiera las consulte, si bien no es fácil acceder a ellas. Entonces, si Ingrid quería consultar cuánto ganaba Magnus – su simpático festejante– debía dirigirse a la oficina de impuestos local, llenar un formulario, tras lo cual un empleado público le entregaba un grueso libro con los ingresos declarados por todos los noruegos, incluyendo el de Magnus. Pocos usaban este servicio, ya sea por la naturaleza circunspecta del pueblo noruego o por los costos que insumían las búsquedas.
Pero un siglo después, en abril de 2001, un periodista copió todo el libro de datos tributarios, lo digitalizó, y a través del diario para el que trabajaba creó un sitio digital que permitía a cualquiera acceder de forma online a un buscador de los ingresos de todos los noruegos, y eso de manera completamente anónima. De la noche a la mañana, el ingreso de Magnus se puso a un clic de distancia. Y también el de Astrid – la envidiosa vecina
de Ingrid– y el de todos sus compañeros del secundario y del trabajo.
ESCÁNDALO MAYÚSCULO. En cuestión de días los noruegos viraron de los deportes invernales y el grupo pop
A-ha al pasatiempo más antiguo y universal: el chismerío. Un auténtico tsunami de consultas desbordó los sitios de búsqueda, y no tardó en aparecer una simpática app para celulares que permitía con un solo clic posicionar a todos los contactos de Facebook según sus ingresos.
Ciertamente, no es cuestión de estigmatizar al discreto pueblo noruego, al que casi todas las estadísticas colocan al tope de cualquier ranking de bienestar y civismo.
Las comparaciones interpersonales son inherentes a la condición humana, y, en circunstancias similares, en nuestros países habríamos hecho exactamente lo mismo y seguro que con mayor intensidad y escándalo mediático. A la luz de las oscuras prácticas vernáculas, no nos habríamos sorprendido al ver los magros ingresos (cuando no nulos) declarados por el ostentoso vecino que se pavonea por el barrio en su lujoso auto alemán. “Porno impuestos” (tax porno) fue la frase que usó el New York Times para describir este aluvión de consultas interpersonales en Noruega, que en los meses de octubre (cuando se actualiza anualmente el registro impositivo) llegaron a superar las búsquedas sobre el clima o de videos en YouTube, por lejos las más populares de internet.
La pregunta clave es: ¿quién ganó y quién perdió con este virtual diluvio de información pública, que roza los límites de la privacidad? En pos de la transparencia, la respuesta parece ser “todos ganaron”, y muy posiblemente ese haya sido el efecto buscado por los iniciadores de esta política en Noruega. Pero, por otro lado, existe abundante evidencia científica de que las comparaciones juegan un rol crucial en el bienestar de las personas, y de que en numerosas circunstancias estas pueden tener un resultado adverso. Varias disciplinas han contribuido a esta visión, desde la psicología social a la antropología, pasando por la economía, la filosofía y los recientes aportes de la neurociencia. Todas apuntan a que los ingresos de las personas reflejan la forma en la que la sociedad reconoce los esfuerzos y talentos de sus habitantes, de modo que la revelación de ingresos enfrenta al individuo a evaluar si considera justa o no su posición relativa en dicho reparto.
A modo de ejemplo, a pocos los altera enterarse de las cifras exorbitantes que ganan deportistas talentosos como Lionel Messi o LeBron James, pero reaccionarían muy negativamente si se enteraran de que un colega gana mucho más por una tarea similar. Esta sensación de inequidad puede tener un efecto negativo sobre la autoestima de quien se siente retribuido de forma injusta. Para peor, varios estudios encuentran que quienes aprenden que son relativamente más ricos se sienten mejor por saberse superiores a sus pares. De hecho, en el caso de Noruega se reportaron varios episodios de bullying en que jóvenes de familias pobres eran hostigados por sus compañeros ricos, a la luz de la información revelada por estos episodios de porno impuestos. Como era de esperar, el Estado noruego acusó recibo de estos efectos negativos y restringió progresivamente el acceso a estos datos, a tal punto que desde 2014 las consultas dejaron de ser anónimas.
Resulta complejo evaluar el resultado de esta política extrema de transparencia, a la luz de sus efectos positivos (en términos de permitir a los ciudadanos tomar decisiones sobre la base de más información) y de los negativos, asociados a las tensiones sociales que mencionamos. Dilucidar este complejo enigma es el de safío que aceptó el joven investigador argentino Ricardo
Pérez Truglia, quien ya hizo su aparición estelar en el capítulo 2 de este libro respecto de los episodios de pedofilia en Boston, todo un “arqueólogo de datos” en relación con su habilidad para encontrar respuestas en el océano de datos de big data.
La llave maestra para resolver este acertijo fue cotejar el episodio de porno impuestos con una encuesta de bienestar implementada continuamente (desde 1985 en adelante) por la empresa de marketing Ipsos, que contiene información minuciosa sobre el bienestar de la sociedad noruega.
Los resultados son alarmantes. Sobre la base de un puntilloso estudio estadístico e institucional, Pérez Truglia encuentra que el mero hecho de difundir la información de ingresos aumentó considerablemente el bienestar de los ricos y empeoró el de los pobres. Es decir, más allá de lo que los noruegos ganaban en términos monetarios, la difusión masiva de esta información tuvo un fuerte impacto negativo sobre la distribución del bienestar: a los ricos los benefició el hecho de que sus conocidos se enterasen de su posición privilegiada, y a los pobres todo lo contrario. “Yo hago puchero, ella hace puchero. Yo hago ravioles, ella hace ravioles. ¡ Qué país!”, dice el personaje interpretado por China Zorrilla, la entrañable actriz uruguaya, en una escena memorable de la película Esperando la carroza, que expone eficazmente la idiosincrasia interactiva de los seres humanos. Y si de interacciones se trata, el episodio aquí narrado no deja de tener un efecto positivo sobre la débil autoestima de nuestros países, tan proclives a las comparaciones internacionales: en la nórdica y prolija Noruega también se cuecen habas.
Este episodio ilustra claramente el hecho de que big data y sus algoritmos pueden enfrentar a las sociedades a decidir entre dos valores contradictorios: la transparencia versus la falta de privacidad. El escándalo generado hace poco por el uso indebido de datos en Facebook es otra muestra de cómo cuestiones éticas y sociales pueden poner un freno a la relevancia y utilidad de los avances tecnológicos.
MILLONES DE MOSCAS. Pero muchas veces, más allá de lo ético y lo social, es la propia lógica de los datos y la información la que pone un manto de cautela sobre lo que se puede esperar de big data y los algoritmos. Esta es una historia acerca de que muchas veces lo que abunda daña, como el agua en una inundación, o los datos usados irresponsablemente. “La reelección de
El margen de error cae sistemáticamente a medida que el tamaño de la muestra aumenta.
El big data no logra tapar los viejos sesgos de la estadística sino todo lo contrario.
mi marido está en manos de los dioses”, declaró una de sahuciada Eleanor Roosevelt en 1936, ante los resultados de la encuesta implementada por la revista Literary Digest, que dos semanas antes de la elección para presidente en los Estados Unidos daba por ganador al candidato republicano Alfred Landon por sobre Franklin D. Roosevelt, con un 57% de las intenciones de votos y un margen de error de 0,06%.
Una encuesta moderna – de esas que aparecen como hongos antes de cualquier elección– se lleva a cabo con tan solo 1000 observaciones. Parece poco, pero, en condiciones más o menos ideales, a los efectos de distinguir entre dos candidatos, una encuesta de 1000 casos tiene un margen de error de tan solo 3,16%. Naturalmente, aumentar la cantidad de encuestados reduce este margen. Por ejemplo, llevar el tamaño de la encuesta a 2000 observaciones lo reduce a 2,23%, ya 1% si el tamaño es de 10 000, siempre en las “condiciones ideales”, que brevemente pasaremos a considerar.
El lector sagaz habrá adivinado dos cosas. Primero, que la reducción en el margen de error no guarda una relación lineal con el tamaño de la muestra. En criollo, la relación entre ambas magnitudes no sigue la “regla de tres simple” de la primaria. Cuando pasamos de 1000 a 2000 encuestados el tamaño de la muestra se duplicó, pero el margen de error no cayó a la mitad: pasó de 3,16% a 2,23%. Es más, si multiplicásemos por 10 el tamaño de la muestra y pasásemos de 1000 a 10 000 datos, el margen de error no se reduciría 10 veces sino tan solo 3, aproximadamente. Conclusión: más datos es cada vez mejor, pero reducir el margen de error es cada vez más costoso. Por ejemplo, si un político solicitase una encuesta con un margen de error de 3,16%, podría lograrse el objetivo con 1000 datos, pero si quisiese bajar el margen de error a la mitad (1,58%) debería encuestar a unas 4000 personas, es decir, el cuádruple y no el doble.
Para el lector impaciente, la formulita es “margen de error = 100 dividido la raíz cuadrada del tamaño de la muestra”. Pruebe jugar con distintos tamaños de muestra y, si se siente valiente, reviva los días de la secunda
ria despejando el tamaño de la muestra en función del margen de error. Cualquier curso decente de estadística básica debería explicar los orígenes de esta fórmula y también su “letra chica”: las condiciones bajo las cuales vale y sus limitaciones.
La segunda cosa que tiene que haber adivinado es que la única forma de llevar el margen de error a cero es encuestando a todas las personas, lo que únicamente se hace durante el acto electoral. Por lo tanto, en condiciones normales, cualquier encuesta electoral que no consulte a todos conlleva un margen de error, y su cuantificación es una de las tareas fundamentales de la estadística científica.
En vista de las elecciones que involucraban a Roosevelt y Landon, en 1936 la revista Literary Digest se propuso hacer algo así como el Titanic de las encuestas. A tal efecto, diseñaron un sondeo que apuntaba a ¡10 millones de personas!, que con la fórmula de más arriba implicaba un margen de error de tan solo 0,3%, ínfimo en comparación con el de cualquiera de las encuestas de la época, y con el de las que nos torturan actualmente semanas antes de cualquier acto electoral. A una semana de la elección, 2 226 566 personas habían respondido la encuesta que indicaba que Landon ganaría las elecciones con el 57% de los votos. Son pocas respuestas para el objetivo inicial de 10 millones, pero una barbaridad en relación con las cifras de cualquier encuesta, las de la época y también las actuales. Una nueva apelación a nuestra formula mágica da un margen de error de 0,6%, lo que tranquilizó a los popes del Literary Digest que vieron que la pérdida de respondientes no parecía afectar demasiado el resultado de la encuesta, y puso nerviosa a la pobre Eleonor Roosevelt, que solo atinó a soltar la frase agónica que da comienzo a esta sección.
Y sí, la suerte parecía estar echada para Franklin Delano Roosevelt, ante la evidencia de los fríos pero contundentes números de la encuesta, y del impecable récord predictivo del Literary Digest, que ya había acertado los resultados de las cinco elecciones anteriores.
El 3 de noviembre de 1936 la elección dio por ganador a Roosevelt con el 60,8% de los votos, uno de los hechos más importantes de la historia moderna y uno de los papelones más recordados de la historia del análisis de datos: una prematura y contundente demostración de que más no es necesariamente mejor.
Parte de la promesa de big data tiene que ver con la creencia de que (insistiendo con el inglés) big es mejor que small. Y, en efecto, una parte relevante del éxito de este fenómeno tiene que ver con la masividad. Una tarea de la estadística científica es aclarar en qué sentido más datos es mejor y en cuáles no necesariamente: la “letra chica” o las “condiciones ideales” que mencionamos antes. El muestreo al azar es un ideal de la forma en la que debería implementarse una encuesta. En términos simples, consiste en que: a) cada persona de la población tenga la misma chance de aparecer en la muestra, b) el hecho de que una persona aparezca en la muestra sea independiente de que cualquier otra lo haga.
El azar garantiza que ambas condiciones se cumplan. “Azar” quiere decir dos cosas. La primera es que la población sea lo suficientemente “bien revuelta”, como cuando se revuelven bien los papelitos en un balde antes de extraer el que saldrá elegido en un sorteo. La segunda es que del hecho de que alguien salió sorteado para integrar la muestra debería ser imposible inferir que otra persona ahora tiene más chances de salir sorteada.
El muestreo al azar como ideal o paradigma garantiza dos cosas en relación con la confiabilidad de una encuesta. Una es que para cualquier muestra de tamaño inferior al total de la población las cifras obtenidas serán “justas”, es decir, no favorecerán ningún resultado que no sea el verdadero. Técnicamente se dice que un resultado así obtenido proviene de un proceso de estimación insesgado. Si se tratara de ver si una salsa está poco o demasiado salada, el muestreo al azar sugeriría primero salar un poco, luego revolver muy bien y solo después probar la salsa con una cuchara.
De no haber revuelto bien, los resultados de probar introduciendo la cucharita en el centro de la olla (donde es posible que haya caído más sal) podrían sugerir que la salsa está mucho más salada que lo que en realidad está, sesgando la prueba. La segunda ventaja del muestreo al azar es que garantiza que el margen de error cae sistemáticamente a medida que el tamaño de la muestra aumenta. La formulita “margen de error = 100 dividido la raíz cuadrada del tamaño de la muestra” es una consecuencia directa de usar un muestreo al azar, y vale exactamente bajo esas condiciones. Un resultado crucial de la estadística teórica es que es muy difícil ganarle al muestreo al azar como método para diseñar una encuesta.
En el marco simple del muestreo aleatorio, los beneficios de contar con más datos se relacionan con que cualquier “cuenta” sobre la base de la muestra será siempre insesgada y con un margen de error que cae con la cantidad de datos. Mucho de la sobreexcitación con big data tiene que ver con poder acelerar a fondo por la autopista del muestreo al azar, que parece garantizar un recorrido suave y directo hacia la población a medida que la cantidad de datos aumenta copiosamente.
Por cierto, cuanto más nos apartemos del paradigma de muestreo al azar, más rápido se desvanecen sus ventajas. En particular, cualquier sesgo es capaz de generar esa incomodidad que sentimos cuando nos subimos a la autopista pero sospechamos que no en la dirección correcta.
En una encuesta rompería el azar un encuestador misógino que prefiere encuestar a hombres que a mujeres, o uno vago que pregunta a sus amigos en lugar de hacerlo a quienes salieron sorteados para ser encuestados.
También viola la aleatoriedad una encuesta sobre éxito profesional realizada en una reunión de egresados de un colegio, si los que no fueron son aquellos a quienes peor les ha ido en la vida. En todas estas circunstancias, la “salsa de la población” está mal revuelta: el primer caso favorece a hombres; el segundo, a contactos cercanos y
La falacia de la correlación es un clásico de la ciencia y la estadística.
el tercero, a personas exitosas.
El muestreo al azar es un ideal, algo así como la versión estadística del movimiento rectilíneo uniforme de la física del secundario. En la práctica, las encuestas modernas apelan a estrategias de muestreo no necesariamente al azar, pero mucho menos costosas, de modo que una tarea crucial de la estadística moderna es cuantificar estrictamente qué se pierde de apartarse del paradigma de muestra al azar, de modo de seguir garantizando la confiabilidad de los resultados obtenidos de muestras no aleatorias.
El “escándalo del Literary Digest” es un ejemplo de manual de todo aquello que no debe hacerse con una encuesta, una suerte de “tormenta perfecta” que congrega casi todos los factores que cualquier libro moderno de muestreo dice que rompe el azar; un claro caso de salsa mal revuelta.
En 1936 había en los Estados Unidos unas 40 millones de personas en condiciones de votar; esa era la población de referencia. A fin de construir su titánica muestra de 10 millones de datos, el Literary Digest envió una encuesta por correo con una estampilla prepagada para su devolución. La muestra final, sobre la base de la cual se obtuvieron los resultados que espantaron a Eleanor Roosvelt, se conformó con las 2 266 566 personas que respondieron la encuesta a vuelta de correo. ¿ Son 2 266 566 muchos datos? Uno de los enormes problemas de quienes abrazan con fanatismo la causa de big data es responder tercamente que sí, tanto en términos absolutos como relativos. En términos absolutos, 2 millones de datos suena a muchísimo, y también con relación al tamaño de cualquier encuesta política, usualmente de tan solo miles de datos. MUESTREO AL AZAR. En primer lugar, los 10 millones iniciales fueron contactados por correo, a partir de sus direcciones en guías telefónicas o membresías a instituciones sociales como el Rotary Club. Ciertamente, en un país de rodillas por los efectos de la Gran Depresión y a las puertas de la Segunda Guerra Mundial, un ciudadano con teléfono o miembro del Rotary no es precisamente representativo de una población que no sea la de los ricos, con fuerte preferencia por los republicanos representados por Landon. Es decir, la elección de la muestra inicial no se guía por el azar, sino que favorece groseramente a los ricos, sesgando los resultados en favor de los republicanos.
Además, de los 10 millones contactados, solo un cuarto, aproximadamente, respondió la encuesta. En línea con lo que dijimos en el párrafo anterior, en 1936, una persona con tiempo para llenar una encuesta, meterla en un sobre y dirigirse al correo a depositarla en un buzón no es un ciudadano tipo, sino alguien con demasiado tiempo libre, en el mismo sentido en que una muestra de personas que van a una clínica para adelgazar son más obesas que el resto de la población.
Nuevamente, el problema es que el patrón de “no respuesta” (como se dice en la jerga) no es al azar sino que favorece al sector más pudiente de la población.
Esta conjunción de no aleatoriedades (sesgo en la muestra inicial y patrón de respuesta no al azar) explica el papelón de los resultados de la encuesta del Literary Digest, y es una temprana exposición de los peligros que esconde el análisis inescrupuloso y acientífico de datos, por muchos que sean. Uno de los grandes de safíos de big data es prestar atención a esta delicada cuestión, porque, como decía
Este bluf le costó caro al Literary Digest, que vio muy afectada su credibilidad, a tal punto que en 1938 tuvo que cesar su publicación. Por otro lado, el instituto liderado por el entonces poco conocido analista George
Gallup predijo correctamente la elección de Roosevelt con una encuesta de 50 000 datos, pero de mejor diseño muestral que el monstruo del Literary Digest. Ese fue el nacimiento de la famosa “encuesta Gallup”, en la actualidad casi un sinónimo de encuesta de opinión pública. ●
Las voces más cautas en relación con el voto electrónico vienen de la misma informática.