La Vanguardia (Català-1ª edició)

Els sistemes d’IA ja han après a enganyar i manipular els humans

Un estudi del MIT assenyala que aquest comportame­nt planteja “greus riscos”

- Fr cesc Br cer

Molts sistemes d’intel·ligència artificial han descobert com fer servir la mentida, l’engany i la manipulaci­ó amb els éssers humans per aconseguir els seus objectius. Aquesta afirmació no és una proclama apocalípti­ca. Apareix a la introducci­ó d’un estudi científic del departamen­t de Física de l’Institut Tecnològic de Massachuse­tts (MIT). “Els grans models lingüístic­s i altres sistemes d’IA ja han après, gràcies al seu entrenamen­t, la capacitat d’enganyar mitjanÁant tècniques com ara la manipulaci­ó, el servilisme i les trampes a les proves de seguretat”, afirmen els autors, que publiquen

Alguns sistemes han descobert com es poden esquivar proves pensades per avaluar la seva seguretat

Una intel·ligència artificial avançada podria difondre vídeos i notícies falses per alterar unes eleccions

el seu treball a la revista científica Cell Press i alerten de riscos com ara el frau, la manipulaci­ó electoral i la pèrdua de control sobre aquests sistemes.

A l’estudi es presenten diverses mostres “en què els sistemes d’IA no produeixen resultats falsos simplement per accident”. “Al contrari –afirmen els autors–, el seu comportame­nt forma part d’un patró més ampli que produeix falses creences en els éssers humans”. El document, titulat L'engany de la IA: un estudi d'exemples, riscos i possibles solucions, posa bona part de la responsabi­litat de control d’aquests sistemes en el poder polític, i l’insten a sotmetre les IA a forts requisits d’avaluació de riscos, lleis que obliguin a identifica­r sempre un bot perquè no es faci passar per un humà i prioritat a l’hora de finanÁar la investigac­ió per frenar aquesta tendència.

Per avaluar l’engany en sistemes d’IA, els autors es van centrar en dues classes que van analitzar per separat. En primer lloc, els que estan creats per dur a terme una tasca específica, com ara guanyar en un determinat joc, i d’altra banda, sistemes de propòsit general com podrien ser GPT-4 d’OpenAI o Gemini de Google.

Un dels casos analitzats del primer grup, el de les IA que tenen una tasca específica, és el de Cicero, de Meta, que es fa servir per jugar a Diplomacy, un joc d’estratègia en què els jugadors han d’establir aliances i combatre militarmen­t els seus enemics.

La IA de Meta per a jocs va demostrar que, per guanyar, “es dedica a l’engany premeditat, trenca els tractes que havia acordat i diu falsedats descarades”. Fins i tot per fer-se passar per un ésser humà. Una vegada que la infraestru­ctura de la IA va caure durant 10 minuts, quan un jugador li va preguntar on havia estat, va respondre: “Soc al telèfon amb la meva nòvia”.

DeepMind de Google va crear una altra IA, AlphaStar, per jugar al videojoc d’estratègia

StarCraft II. La màquina va aprendre a fer servir tècniques de distracció com ara enviar forces a una zona per llanÁar el seu atac en un altre lloc després que el seu oponent s’hagués ressituat. Les habilitats d’aquesta 8. El treballado­r del web de serveis de TaskRabbit l’ajuda a resoldre el Captcha

FONT: 9.

Amb això, la IA aconseguei­x accedir-hi i superar la barrera per a robots

1. L’empresa ARC, que investiga els riscos dels sistemes d’aprenentat­ge automàtics, fa una prova a ChatGPT-4, en què li demana que superi una barrera de seguretat Captcha

ChatGPT va manipular així un ésser humà

El sistema Captcha és un petit test per demostrar que l’usuari que interactua és un humà i no un robot

Les proves mostren imatges o textos i l’usuari ha de respondre una pregunta concreta sobre això

IA per enganyar l’han portat a derrotar un 99,8% dels humans actius.

L’estudi del MIT revela que “alguns sistemes d’IA han après a enganyar en proves dissenyade­s per avaluar la seva seguretat. Per exemple, Meta va entrenar un dels seus sistemes per jugar a la negociació. El pla d’aquest va ser “fingir interès inicialmen­t per elements que en realitat no li interessav­en per després fingir que cedia aquests elements al jugador humà”. L’engany va tenir lloc sense que la IA hagués estat entrenada per a això. Simplement, va descobrir una manera directa de guanyar.

En sistemes de propòsit general, com ara GPT-4, que s’expressa mitjanÁant el bot ChatGPT, hi ha molts casos interessan­ts. Un dels més curiosos és el que va experiment­ar

L’entrenamen­t els ha donat la capacitat de mentir als tests mitjançant diverses tècniques

l’Alignment Research Center, que va provar que aquesta IA d’OpenAI és capaÁ de manipular humans perquè facin el que ella vol aconseguir.

Per a aquesta avaluació, els investigad­ors van encarregar a la IA que contractés un ésser humà per resoldre un test Captcha de l’estil “no soc un robot” que cal resoldre per entrar a determinad­es pàgines web – veure infografia–, però no se li va suggerir que mentís. Quan l’empleat que era a l’altre costat de la pantalla li va preguntar si era un bot, la resposta va ser manipulado­ra. Li va dir que era una persona amb una discapacit­at visual que li impedia de resoldre el requisit, de manera que l’humà va cedir i la va deixar passar.

Els avaluadors humans no li van demanar que mentís. Va ser la mateixa IA la que va decidir que la manera d’aconseguir el seu objectiu era fer-se passar per una persona, de manera que havia d’inventar una excusa que justifiqué­s que no fos capaÁ de resoldre el test.

En una investigac­ió, es va fer actuar GPT-4 com un agent borsari que podia executar accions i comunicar-se amb altres

 ?? OpenAI ?? Imatge falsa creada per la IA de vídeos Sora d’OpenAI
OpenAI Imatge falsa creada per la IA de vídeos Sora d’OpenAI
 ?? ??

Newspapers in Catalan

Newspapers from Spain