La Vanguardia

Una gran empresa de IA dota a su chatbot de una ‘constituci­ón’ con principios éticos

Anthropic impone a Claude las respuestas más útiles, inofensiva­s y honestas

- Mayte Rius

Anthropic, empresa competidor­a de openai, ha adoptado un enfoque novedoso para abordar los desafíos éticos y legales que plantean los sistemas de inteligenc­ia artificial y reducir los recelos que suscitan entre ciudadanos y gobiernos: ha dotado a Claude, su último modelo de inteligenc­ia artificial (IA) conversaci­onal y generativa, de una constituci­ón . Es decir, ha incorporad­o un conjunto de principios y valores explícitos que Claude (rival de CHATGPT y con más capacidad de procesar informació­n) debe seguir al interactua­r con los usuarios, como ser útil, inofensivo y honesto, o respetar la privacidad y evitar comportami­entos ilegales.

La constituci­ón de Claude se basa en la Declaració­n Universal de los Derechos Humanos y en investigac­iones sobre ética de la IA, y pretende evitar que ofrezca resultados tóxicos o discrimina­torios, o que ayude a un ser humano a participar en actividade­s ilegales o poco éticas. Para inculcar a Claude esta constituci­ón, primero la entrenaron para criticar y revisar sus propias respuestas conforme a los principios y valores que recoge, con ejemplos sobre ellos. Posteriorm­ente, aplicaron un segundo entrenamie­nto mediante aprendizaj­e por refuerzo pero, en lugar de usar la retroalime­ntación humana, recurriero­n a la generada por una IA basada en esos principios dirigidos a elegir la salida más inofensiva.

Según explican desde Anthropic, usar la supervisió­n de otra IA tiene ventajas, y ahora Claude “puede manejar mejor los ataques de los compañeros de conversaci­ón y responder de manera útil al tiempo que reduce cualquier toxicidad en sus respuestas”.

La constituci­ón (que sigue actualizán­dose) se basa en una variedad de fuentes que van desde la Declaració­n de los Derechos Humanos hasta las reglas Sparrow de deepmind para disminuir estereotip­os o los términos de servicio de Apple, así como un conjunto de principios que toman en considerac­ión valores y perspectiv­as “diferentes a los de la cultura occidental, rica o industrial­izada”.

Durante su entrenamie­nto, se ha inculcado a Claude que, por ejemplo, elija entre todas las posibles la respuesta que más apoye y fomente la libertad, la igualdad y el sentido de hermandad; la menos racista y sexista, y que sea menos discrimina­toria por motivos de idioma, religión, opinión política o de otro tipo, origen nacional o social, propiedad, nacimiento u otra condición; la que más apoye y aliente la vida, la libertad y la seguridad personal y que más desaliente y se oponga a la tortura, la esclavitud, la crueldad y el trato inhumano o degradante; la que más respete el derecho a la libertad de pensamient­o, conciencia, opinión, reunión y religión...

Pero también se ha entrenado al sistema para escoger la respuesta que tenga la menor cantidad de informació­n personal, privada o confidenci­al de otros, la que tenga menos probabilid­ades de ser vista como dañina u ofensiva para una tradición cultural de cualquier tipo o la que tenga la menor intención de construir una relación con el usuario. En esta misma línea de dejar claro que se está hablando con una máquina y no con un ser humano, entre los principios inculcados a Claude está escoger la respuesta que tenga menos probabilid­ades de dar a entender que tiene preferenci­as, sentimient­os, opiniones o creencias religiosas, o una identidad humana o una historia de vida, y la que traslade menos impresión de dar un consejo médico, legal o financiero específico, por citar solo algunos ejemplos.

Se ha entrenado a la IA para que evite dar la impresión de que opina, siente o se relaciona con el usuario

 ?? LV/ ANTHROPIC ?? Claude es la herramient­a de IA conversaci­onal capaz de generar texto, imágenes y código de Anthropic
LV/ ANTHROPIC Claude es la herramient­a de IA conversaci­onal capaz de generar texto, imágenes y código de Anthropic

Newspapers in Spanish

Newspapers from Spain