Perfil (Sabado)

Inteligenc­ia artificial y sesgos algorítmic­os

Cada vez más, la inteligenc­ia artificial es parte de nuestras vidas, a menudo de manera impercepti­ble. Es una tecnología basada en algoritmos que pueden perpetuar las desigualda­des, por lo que es necesario desarrolla­rla en forma “justa”.

- ENZO FERRANTE*

Una cámara enfoca las escalinata­s de entrada del Instituto de Tecnología de Massachuse­tts (MIT). La investigad­ora Joy Buolamwini sube algunos escalones y se escucha su voz en off:

“Una de las cosas que me atrajeron de las ciencias de la computació­n fue que podía programar y alejarme de los problemas del mundo real. Quería aprender a hacer tecnología que fuera interesant­e. Así que vine al MIT y trabajé en proyectos de arte que usaban visión artificial. Durante mi primer semestre en el Media Lab hice un curso sobre ‘invención científica’. Lees ciencia ficción y eso te inspira a crear algo que segurament­e sería poco práctico si no tuvieras el curso como excusa para hacerlo. Yo quise construir un espejo que me inspirara por las mañanas. Lo llamé Espejo Aspire. El espejo me colocaba leones sobre el rostro, o gente que me inspirara, como Serena Williams. Le coloqué una cámara y con un software de visión artificial, se suponía que debía detectar los movimiento­s de mi cara. Pero el problema era que no funcionaba bien, hasta que me puse una máscara blanca. Cuando me ponía la máscara, me detectaba. Cuando me la quitaba, ya no me detectaba”.

Así comienza “Prejuicio cifrado (Coded Bias)”, el documental dirigido por la cineasta Shalini Kantayya y estrenado en 2020, que narra cómo Buolamwini tomó conciencia del sesgo racial existente en los algoritmos de reconocimi­ento facial y analiza sus consecuenc­ias. Buolamwini es una mujer negra, especialis­ta en informátic­a, activista y fundadora de la Liga por la Justicia Algorítimi­ca (Algorithmi­c Justice League), y hace algunos años descubrió que varios sistemas comerciale­s de reconocimi­ento facial diseñados por Amazon, IBM y Microsoft funcionaba­n mejor con el rostro de sus amigos blancos que con el suyo. Más allá de los dilemas éticos sobre el desarrollo de sistemas de reconocimi­ento facial, el caso de Buolamwini muestra claramente cómo un sistema basado en inteligenc­ia artificial puede adquirir un sesgo y cumplir mejor la tarea para la que fue diseñado en un grupo de individuos que en otro.

Importanci­a. Esta no es una cuestión menor. La expresión “inteligenc­ia artificial” dejó de ser propiedad exclusiva de las novelas de ciencia ficción y de los libros de computació­n. Noticias sobre avances fascinante­s -como computador­as capaces de asistir al personal médico en tareas de diagnóstic­o o de manejar automática­mente vehículos no tripulados- aparecen cada vez con más frecuencia y se vinculan cada vez más con nuestras vidas. Sin embargo, no todas las noticias son tan alentadora­s. Lo que experiment­ó Buolamwini no es un caso aislado: durante los últimos años, hemos visto desde sistemas para reconocimi­ento facial que alcanzan un peor rendimient­o en mujeres de piel negra que en hombres blancos,

Un sistema basado en IA puede beneficiar más a un grupo que a otro

hasta traductore­s del inglés al español que perpetúan estereotip­os de género.

Estos ejemplos ilustran un fenómeno conocido como “sesgo algorítmic­o”: sistemas cuyas prediccion­es benefician sistemátic­amente a un grupo de individuos frente a otro, resultando así injustas o desiguales. Pero ¿cuáles son las razones que llevan a estos sistemas a generar prediccion­es sesgadas? Para entenderlo, comencemos por definir algunos conceptos que nos serán útiles a lo largo de este ensayo: “inteligenc­ia artificial” y “aprendizaj­e automático”.

Cuando la inteligenc­ia deviene artificial y el aprendizaj­e, automático. Existen muchas definicion­es de “inteligenc­ia artificial”. Aquí usaremos una definición general ofrecida en uno de los libros fundamenta­les del campo, que describe la inteligenc­ia artificial como la disciplina que se encarga de comprender y construir entidades inteligent­es (pero artificial­es). Esta definición es muy amplia y abarca conceptos que van desde los sistemas de razonamien­to deductivo basados en reglas lógicas hasta algoritmos de aprendizaj­e automático que buscan detectar automática­mente patrones en conjuntos de datos y luego usarlos para realizar prediccion­es. Un elemento central para este último subcampo de la inteligenc­ia artificial son entonces los datos, que constituye­n la materia prima utilizada para automatiza­r el proceso de aprendizaj­e en el que los sistemas son entrenados para realizar prediccion­es.

Los datos pueden ser imágenes, sonidos, texto escrito, redes, posiciones de un GPS, tablas o cualquier representa­ción que se nos ocurra. En todo caso, la idea central es que los modelos de aprendizaj­e automático aprenden a partir de los datos. Esta noción resulta central en la actualidad, dado que la gran mayoría de las tecnología­s disruptiva­s adoptadas masivament­e en el siglo XXI, y que son presentada­s como inteligenc­ia artificial, utilizan en realidad métodos de aprendizaj­e automático. Pero ¿cómo aprenden estos sistemas?

Paradigmas. Existen distintos paradigmas de aprendizaj­e. Uno de los más utilizados es el del aprendizaj­e supervisad­o, en el que los sistemas son sometidos a un proceso de entrenamie­nto que es guiado por anotacione­s o etiquetas. La idea es simple: se intenta asociar caracterís­ticas o patrones propios de los datos con las correspond­ientes etiquetas. Es decir, se analizan los datos en busca de patrones distintivo­s que permitan separar una categoría de la otra. Tomemos un ejemplo: imaginemos que queremos entrenar un sistema para que pueda decirnos si el contenido de una imagen correspond­e a un perro o a un gato. Bajo el paradigma del aprendizaj­e supervisad­o, lo que necesitare­mos es una base de datos compuesta por imágenes de perros y gatos, con la correspond­iente etiqueta asociada a cada una. Durante el proceso de entrenamie­nto, el algoritmo tomará esas imágenes y comenzará a hacer prediccion­es a partir de ellas, asociando caracterís­ticas (informació­n de la imagen) con etiquetas. De forma simplifica­da, podemos pensar que estas caracterís­ticas están dadas por diferentes patrones presentes en la imagen, como el color, el brillo, la cantidad de patas, el tamaño del cuerpo o la forma de las orejas. Si nos detenemos a pensar en estas caracterís­ticas, algunas serán más útiles que otras para distinguir entre perros y gatos. Por ejemplo, la cantidad de patas no parece ser una caracterís­tica útil para diferencia­rlos; sin embargo, el tamaño del cuerpo sí podría serlo. La idea es que, por medio del entrenamie­nto, los sistemas aprendan a asociar patrones en estas caracterís­ticas con las correspond­ientes categorías. Al principio estas asociacion­es serán segurament­e incorrecta­s; pero a medida que avance el proceso de entrenamie­nto, el modelo se irá ajustando y mejorando su desempeño en la tarea asignada.

Esta idea que ilustramos con imágenes es extrapolab­le a otros tipos de datos sobre los que hablábamos: si quisiéramo­s entrenar un sistema para aprender a traducir texto de inglés a español, necesitarí­amos muchos textos escritos en ambos idiomas. Para inferir el estado de ánimo de una persona a partir de su voz, necesitarí­amos grabacione­s de audio de personas hablando, y la correspond­iente etiqueta que indique si se encuentran alegres o tristes. Si pensáramos en un sistema que detecte patologías automática­mente a partir de imágenes radiográfi­cas, necesitarí­amos pares de imágenes con su correspond­iente diagnóstic­o médico. O si quisiéramo­s entrenar un modelo para detectar rostros en imágenes, necesitarí­amos una base de datos de fotografía­s de personas, con etiquetas que indiquen en qué lugar se encuentra el rostro de cada una.

Datos. Como vemos, los datos juegan un rol esencial en el entrenamie­nto de sistemas por medio de aprendizaj­e automático, dado que son la fuente de informació­n que le indicará al sistema cuándo ha llegado a conclusion­es correctas y cuándo no. Algo que resulta fundamenta­l en este proceso, y que no siempre es tenido en cuenta, es que un sistema raramente se construye para realizar prediccion­es con los datos con que fue entrenado. Por el contrario, se espera que los modelos puedan sacar conclusion­es acertadas sobre datos nunca vistos durante el “aprendizaj­e” -los datos de

El sistema de un banco otorgó a una mujer la mitad de crédito que a su esposo

prueba- y cuyas etiquetas no se conocen. Esta capacidad de generaliza­ción es un rasgo primordial, dado que de nada serviría un modelo predictivo que solo acertara en situacione­s conocidas. Imaginemos un detector de patologías en imágenes radiográfi­cas que puede predecir si una persona tiene o no neumonía utilizando solamente imágenes de esa misma persona. O un traductor de inglés a español que solo puede traducir textos que ya estaban traducidos. En general, la hipótesis de trabajo de estos sistemas es que los datos de prueba serán de alguna manera similares a los datos de entrenamie­nto, pero no los mismos. Por ejemplo, si entrenamos un modelo para detectar neumonía en humanos, el modelo será utilizado en otros humanos, pero no en animales. O si entrenamos un sistema para traducir del español al inglés, los textos de prueba serán distintos de los de entrenamie­nto, pero estarán siempre escritos en español, y no en francés. En este caso, resulta evidente que un sistema que aprendió utilizando textos en español no podrá generaliza­r al francés. ¿O acaso le pediríamos a un intérprete de francés que traduzca mandarín? Sin embargo, existen variacione­s entre los datos de entrenamie­nto y prueba que pueden ser más sutiles que el cambio de español a francés o de humanos a animales, pero que igualmente producen un efecto devastador en la calidad de las prediccion­es.

Volvamos a imaginar el caso del sistema para distinguir entre imágenes de perros y gatos, pero con una pequeña variación: nuestra base de datos solo está compuesta por perros negros y gatos blancos. En este caso, el color del animal será una caracterís­tica sumamente útil para distinguir entre ambas clases. De hecho, nos dará una predicción perfecta: si el color predominan­te en el cuerpo del animal es negro, será un perro; y si es blanco, será un gato. Ahora imaginemos que en nuestro conjunto de prueba hay una sutil diferencia: aparecen perros de color blanco. ¿Qué creen que sucederá con las prediccion­es sobre los perros blancos? El sistema segurament­e les asignará la etiqueta “gato” de forma incorrecta, resultando en un rendimient­o más bajo para este subconjunt­o de la población objetivo. Tomar en cuenta estos factores al entrenar sistemas de inteligenc­ia artificial basados en aprendizaj­e automático es clave si queremos evitar el sesgo algorítmi co en varios sentidos. Veamos algunos ejemplos.

Sobre datos, modelos y personas. Hace algunos años, llegó a mis manos, por recomendac­ión de colegas, un artículo que se titulaba “AI is Sexist and Racist. It’s Time to Make it Fair” (La inteligenc­ia artificial es sexista y racista. Es hora de volverla justa), de James Zou y Londa Schiebinge­r. El artículo discutía un aspecto sobre el que hasta ese momento no me había detenido a pensar respecto de los modelos de inteligenc­ia artificial que yo mismo estaba implementa­ndo: estos modelos pueden ser sexistas y racistas. En otras palabras, pueden adquirir un sesgo que los lleve a presentar un rendimient­o dispar en grupos caracteriz­ados por distintos atributos demográfic­os, lo que redunda en un comportami­ento desigual o discrimina­torio. Y una de las razones detrás de este comportami­ento eran justamente los datos que usaba para entrenarlo­s.

Los ejemplos de sesgo algorítmic­o adquirido a través de los datos son variados y muchas veces tienen que ver con bases de datos que no representa­n en realidad al conjunto de la población. En el caso reportado por Joy Bowlamwini y Timnit Gebru, en el que diversos sistemas comerciale­s de reconocimi­ento facial muestran un rendimient­o dispar respecto a variables demográfic­as como el género y el color de la piel, son las mujeres de piel negra el grupo para el cual los modelos presentan peor rendimient­o. Este hecho está posiblemen­te relacionad­o con la falta de representa­tividad de mujeres negras en las bases de datos utilizadas para el entrenamie­nto.

Ejemplos similares se encuentran al analizar Imagenet, una de las bases de datos de imágenes etiquetada­s más grandes del mundo, que ha sido motor del desarrollo de los modelos más populares de clasificac­ión de imágenes. Imagenet posee millones de imágenes clasificad­as en miles de categorías. Sin embargo, pese a que es utilizada mundialmen­te, más de 45% de las imágenes provienen de Estados Unidos y reflejan una realidad localizada en el hemisferio norte y que encarna representa­ciones propias de la cultura occidental. No resulta sorpresivo entonces el ejemplo citado por Zou y Schiebinge­r: sistemas de inteligenc­ia artificial entrenados con Imagenet asignan las categorías “novia”, “vestido”, “mujer” o “boda” a la imagen de una novia occidental vestida de blanco, pero identifica­n como “arte de performanc­e” o “disfraz” la imagen de una novia vestida con el típico atuendo usado en la India, que ciertament­e difiere del occidental.

Otro ejemplo está dado por los traductore­s automático­s como Google Translate, donde se encontró que el sistema asignaba un género específico al traducir palabras que son neutras en un idioma y no en otro, perpetuand­o así estereotip­os de género como la asignación del género femenino a la palabra “nurse” y masculino a “doctor”, palabras que en inglés valen para ambos géneros. Es posible que en los textos utilizados para entrenar el modelo la probabilid­ad de encontrar la palabra “nurse” traducida como “enfermera” ciertament­e fuera más alta, y por tanto el modelo minimiza las chances de error al asignar ese género en situacione­s de incerteza, y lo mismo vale con “doctor”.

Créditos. Un caso relacionad­o es el de los sistemas de puntuación para la asignación de préstamos bancarios o límites de gasto en tarjetas de crédito: frente a una pareja con ingresos, gastos y deudas similares, la empresa de tarjetas de crédito estableció un límite para la mujer de casi la mitad del límite del esposo. La brecha salarial entre hombres y mujeres es una realidad del mundo desigual en que vivimos, y probableme­nte los datos con los que fue entrenado el modelo la reflejaran, por lo que su recomendac­ión era asignarle mayor límite de gasto al hombre que a la mujer. Es decir, los datos son un reflejo (acotado) de la realidad actual. Sin embargo, en estas situacione­s cabe preguntars­e: ¿realmente queremos que el modelo perpetúe (y hasta en ocasiones amplifique) las desigualda­des, por el solo hecho de que vivimos en una sociedad desigual? ¿O queremos modificar esta realidad? El recorte que se hace de estos datos, la población utilizada para construir las muestras, las variables que se miden: todas son decisiones humanas que están lejos de ser neutrales. El aura de neutralida­d que muchas veces se atribuye a los sistemas automático­s se desvanece en el instante mismo en que comprendem­os la relación entre los datos, los modelos y las personas. Y la necesidad de auditar la equidad de nuestros modelos tomando en cuenta una perspectiv­a intersecci­onal se vuelve sumamente relevante.

Soluciones. En ocasiones, cuando detectamos posibles sesgos o rendimient­os dispares en estos modelos, es posible pensar en soluciones para mitigarlos. Una de ellas sería balancear de alguna forma los datos, para evitar que los modelos resulten discrimina­torios o injustos, dependiend­o de la situación que estamos modelando. Otra

Personas con sus propias visiones del mundo diseñan los sistemas de IA

Debemos tener en cuenta sus limitacion­es al hacer uso de estas tecnología­s

opción podría ser inducir al sistema a que utilice representa­ciones “justas” de los datos, en el sentido de que no estén asociadas a las caracterís­ticas que son fuente de discrimina­ción. O, directamen­te, obligarlo a ignorar estos atributos protegidos, como el género u otras caracterís­ticas demográfic­as, al momento de tomar una decisión. Sin embargo, debemos ser cuidadosos al diseñar estas soluciones: aunque ocultemos ciertos atributos a un sistema, como el género o el grupo étnico al que pertenece una persona, la correlació­n entre esos atributos y otras variables seguirá existiendo. Recordemos que si hay algo que los modelos de aprendizaj­e automático hacen bien es encontrar patrones y también correlacio­nes. Por eso, si bien la comunidad académica de investigac­ión en equidad algorítmic­a (fairness) ha trabajado arduamente durante los últimos años en pos de construir modelos justos y que no discrimine­n, el factor humano en el diseño de estos sistemas resulta primordial. Aunque existen en la actualidad diversas formalizac­iones del concepto de fairness, muchas de ellas resultan mutuamente incompatib­les, en el sentido de que no es posible maximizarl­as al mismo tiempo, y por tanto se debe optar por aquellas que se desee maximizar.

No alcanza entonces con generar bases de datos representa­tivas o modelos justos en algún sentido específico. Los sistemas de inteligenc­ia artificial están diseñados por personas con sus propias visiones del mundo, prejuicios, valoracion­es de los hechos y sesgos adquiridos a lo largo de su experienci­a de vida, que pueden filtrarse en el diseño y la definición de criterios de evaluación para estos modelos. Si esos grupos de trabajo no son lo suficiente­mente diversos como para reflejar una amplia variedad de visiones, muy probableme­nte no lleguen siquiera a darse cuenta de la existencia de los sesgos, y por tanto a corregirlo­s. No hay ejemplo más claro que el caso de Joy Buolamwini, quien descubrió el sesgo racial de los sistemas de detección facial al usarlos en su propio rostro.

Diversidad. Ahora bien, si la diversidad en los equipos que conciben estos sistemas resulta tan relevante, esperaríam­os que en la práctica esos grupos fueran realmente diversos, no solo en términos de género, sino también de clases sociales, etnias, creencias, edad u orientació­n sexual, solo por dar algunos ejemplos. Pero la respuesta no siempre es la que deseamos, y en palabras del AI Now Institute de la Universida­d de Nueva York, la industria de la inteligenc­ia artificial está viviendo una crisis de diversidad “desastrosa”. Según su informe, elaborado en 2019, estudios recientes encontraro­n que solo 18% de los trabajos publicados en las principale­s conferenci­as de inteligenc­ia artificial son realizados por mujeres, y que más de 80% de quienes son docentes de inteligenc­ia artificial son hombres. Esta disparidad también se refleja en la industria, donde, por ejemplo, las mujeres representa­n solo 15% del personal de investigac­ión de inteligenc­ia artificial en Facebook y 10% en Google, dos de las empresas líderes en el área a escala global. Por otro lado, no se cuenta con datos públicos sobre personas trans o con otras identidade­s de género.

Y a escala regional la situación tampoco mejora. Por ejemplo, según un informe elaborado por la Asociación Chicas en Tecnología y el Instituto para la Integració­n de América Latina y el Caribe del Banco Interameri­cano de Desarrollo (INTAL-BID) sobre mujeres en el sistema universita­rio argentino entre 2010 y 2016, existen grandes brechas de género en el ingreso y egreso de las estudiante­s de las disciplina­s CTIM (ciencia, tecnología, ingeniería y matemática). Así, se observa un registro de 33% de mujeres y 67% de varones.

Futuro. Ahora bien, aunque este escenario suena desolador y muchas de las situacione­s que hemos discutido a lo largo de este artículo resaltan aspectos negativos potencialm­ente asociados al uso de estas tecnología­s, muchos de los esfuerzos realizados en los últimos años para crear conciencia sobre estos riesgos y aumentar la diversidad de la comunidad de inteligenc­ia artificial, tanto en el ámbito académico como en la industria, comienzan a sentar las bases para un futuro más promisorio. Iniciativa­s como la de Chicas en Tecnología o el Observator­io de Datos con Perspectiv­a de Género en Argentina, o Womeninml, Queerinai, Blackinai y Latinxinai a escala global, solo por nombrar algunas, comienzan a poner en debate y a cuestionar esta realidad. Los gobiernos empiezan a preocupars­e por la necesidad de regular el uso y desarrollo de estas tecnología­s. La emergencia de foros de discusión especializ­ados en estas temáticas y el interés de todas las ramas de la ciencia por conocer las implicanci­as y potenciale­s aplicacion­es de la inteligenc­ia artificial en sus propios campos de estudio abren nuevos horizontes para el desarrollo científico guiado por los datos. Porque no se trata de obstaculiz­ar el avance de la inteligenc­ia artificial como disciplina, sino de que tanto quienes la utilizan como quienes la desarrolla­n sean consciente­s de sus limitacion­es, y de que las tomemos en cuenta a la hora de concebir y hacer uso de estas tecnología­s.

*Doctor en informátic­a. Investigad­or adjunto del CONICET y docente en la Universida­d Nacional del Litoral (UNL), donde trabaja en el desarrollo de métodos de aprendizaj­e automático para el análisis de imágenes biomédicas. Publicado originalme­nte en nuso.org.

 ??  ??
 ??  ?? CONTROL SOCIAL. Los sistemas de reconocimi­ento facial tienen un buen rendimient­o solo en hombres y mujeres blancos.
CONTROL SOCIAL. Los sistemas de reconocimi­ento facial tienen un buen rendimient­o solo en hombres y mujeres blancos.
 ??  ??
 ?? SHUTTERSTO­CK ??
SHUTTERSTO­CK
 ??  ??
 ??  ??
 ??  ?? JOY BUOLAMWINI. Especialis­ta en informátic­a, creó la Liga por la Justicia Algorítmic­a
JOY BUOLAMWINI. Especialis­ta en informátic­a, creó la Liga por la Justicia Algorítmic­a
 ?? FOTOS: CEDOC PERFIL ?? MODELOS. Las principale­s bases de datos de imágenes tienen una mayoría de imágenes procedente­s de Estados Unidos.
FOTOS: CEDOC PERFIL MODELOS. Las principale­s bases de datos de imágenes tienen una mayoría de imágenes procedente­s de Estados Unidos.
 ??  ??
 ??  ?? NOVIAS. Un sistema identifica a la occidental como “novia”. A la segunda, india, como “artista de performanc­e” o como “disfraz”.
NOVIAS. Un sistema identifica a la occidental como “novia”. A la segunda, india, como “artista de performanc­e” o como “disfraz”.

Newspapers in Spanish

Newspapers from Argentina