Una gran empresa de IA dota a su chatbot de una ‘constitución’ con principios éticos
Anthropic impone a Claude las respuestas más útiles, inofensivas y honestas
Anthropic, empresa competidora de openai, ha adoptado un enfoque novedoso para abordar los desafíos éticos y legales que plantean los sistemas de inteligencia artificial y reducir los recelos que suscitan entre ciudadanos y gobiernos: ha dotado a Claude, su último modelo de inteligencia artificial (IA) conversacional y generativa, de una constitución . Es decir, ha incorporado un conjunto de principios y valores explícitos que Claude (rival de CHATGPT y con más capacidad de procesar información) debe seguir al interactuar con los usuarios, como ser útil, inofensivo y honesto, o respetar la privacidad y evitar comportamientos ilegales.
La constitución de Claude se basa en la Declaración Universal de los Derechos Humanos y en investigaciones sobre ética de la IA, y pretende evitar que ofrezca resultados tóxicos o discriminatorios, o que ayude a un ser humano a participar en actividades ilegales o poco éticas. Para inculcar a Claude esta constitución, primero la entrenaron para criticar y revisar sus propias respuestas conforme a los principios y valores que recoge, con ejemplos sobre ellos. Posteriormente, aplicaron un segundo entrenamiento mediante aprendizaje por refuerzo pero, en lugar de usar la retroalimentación humana, recurrieron a la generada por una IA basada en esos principios dirigidos a elegir la salida más inofensiva.
Según explican desde Anthropic, usar la supervisión de otra IA tiene ventajas, y ahora Claude “puede manejar mejor los ataques de los compañeros de conversación y responder de manera útil al tiempo que reduce cualquier toxicidad en sus respuestas”.
La constitución (que sigue actualizándose) se basa en una variedad de fuentes que van desde la Declaración de los Derechos Humanos hasta las reglas Sparrow de deepmind para disminuir estereotipos o los términos de servicio de Apple, así como un conjunto de principios que toman en consideración valores y perspectivas “diferentes a los de la cultura occidental, rica o industrializada”.
Durante su entrenamiento, se ha inculcado a Claude que, por ejemplo, elija entre todas las posibles la respuesta que más apoye y fomente la libertad, la igualdad y el sentido de hermandad; la menos racista y sexista, y que sea menos discriminatoria por motivos de idioma, religión, opinión política o de otro tipo, origen nacional o social, propiedad, nacimiento u otra condición; la que más apoye y aliente la vida, la libertad y la seguridad personal y que más desaliente y se oponga a la tortura, la esclavitud, la crueldad y el trato inhumano o degradante; la que más respete el derecho a la libertad de pensamiento, conciencia, opinión, reunión y religión...
Pero también se ha entrenado al sistema para escoger la respuesta que tenga la menor cantidad de información personal, privada o confidencial de otros, la que tenga menos probabilidades de ser vista como dañina u ofensiva para una tradición cultural de cualquier tipo o la que tenga la menor intención de construir una relación con el usuario. En esta misma línea de dejar claro que se está hablando con una máquina y no con un ser humano, entre los principios inculcados a Claude está escoger la respuesta que tenga menos probabilidades de dar a entender que tiene preferencias, sentimientos, opiniones o creencias religiosas, o una identidad humana o una historia de vida, y la que traslade menos impresión de dar un consejo médico, legal o financiero específico, por citar solo algunos ejemplos.
Se ha entrenado a la IA para que evite dar la impresión de que opina, siente o se relaciona con el usuario