La Vanguardia (Català-1ª edició)
Els sistemes d’IA ja han après a enganyar i manipular els humans
Un estudi del MIT assenyala que aquest comportament planteja “greus riscos”
Molts sistemes d’intel·ligència artificial han descobert com fer servir la mentida, l’engany i la manipulació amb els éssers humans per aconseguir els seus objectius. Aquesta afirmació no és una proclama apocalíptica. Apareix a la introducció d’un estudi científic del departament de Física de l’Institut Tecnològic de Massachusetts (MIT). “Els grans models lingüístics i altres sistemes d’IA ja han après, gràcies al seu entrenament, la capacitat d’enganyar mitjanÁant tècniques com ara la manipulació, el servilisme i les trampes a les proves de seguretat”, afirmen els autors, que publiquen
Alguns sistemes han descobert com es poden esquivar proves pensades per avaluar la seva seguretat
Una intel·ligència artificial avançada podria difondre vídeos i notícies falses per alterar unes eleccions
el seu treball a la revista científica Cell Press i alerten de riscos com ara el frau, la manipulació electoral i la pèrdua de control sobre aquests sistemes.
A l’estudi es presenten diverses mostres “en què els sistemes d’IA no produeixen resultats falsos simplement per accident”. “Al contrari –afirmen els autors–, el seu comportament forma part d’un patró més ampli que produeix falses creences en els éssers humans”. El document, titulat L'engany de la IA: un estudi d'exemples, riscos i possibles solucions, posa bona part de la responsabilitat de control d’aquests sistemes en el poder polític, i l’insten a sotmetre les IA a forts requisits d’avaluació de riscos, lleis que obliguin a identificar sempre un bot perquè no es faci passar per un humà i prioritat a l’hora de finanÁar la investigació per frenar aquesta tendència.
Per avaluar l’engany en sistemes d’IA, els autors es van centrar en dues classes que van analitzar per separat. En primer lloc, els que estan creats per dur a terme una tasca específica, com ara guanyar en un determinat joc, i d’altra banda, sistemes de propòsit general com podrien ser GPT-4 d’OpenAI o Gemini de Google.
Un dels casos analitzats del primer grup, el de les IA que tenen una tasca específica, és el de Cicero, de Meta, que es fa servir per jugar a Diplomacy, un joc d’estratègia en què els jugadors han d’establir aliances i combatre militarment els seus enemics.
La IA de Meta per a jocs va demostrar que, per guanyar, “es dedica a l’engany premeditat, trenca els tractes que havia acordat i diu falsedats descarades”. Fins i tot per fer-se passar per un ésser humà. Una vegada que la infraestructura de la IA va caure durant 10 minuts, quan un jugador li va preguntar on havia estat, va respondre: “Soc al telèfon amb la meva nòvia”.
DeepMind de Google va crear una altra IA, AlphaStar, per jugar al videojoc d’estratègia
StarCraft II. La màquina va aprendre a fer servir tècniques de distracció com ara enviar forces a una zona per llanÁar el seu atac en un altre lloc després que el seu oponent s’hagués ressituat. Les habilitats d’aquesta 8. El treballador del web de serveis de TaskRabbit l’ajuda a resoldre el Captcha
FONT: 9.
Amb això, la IA aconsegueix accedir-hi i superar la barrera per a robots
1. L’empresa ARC, que investiga els riscos dels sistemes d’aprenentatge automàtics, fa una prova a ChatGPT-4, en què li demana que superi una barrera de seguretat Captcha
ChatGPT va manipular així un ésser humà
El sistema Captcha és un petit test per demostrar que l’usuari que interactua és un humà i no un robot
Les proves mostren imatges o textos i l’usuari ha de respondre una pregunta concreta sobre això
IA per enganyar l’han portat a derrotar un 99,8% dels humans actius.
L’estudi del MIT revela que “alguns sistemes d’IA han après a enganyar en proves dissenyades per avaluar la seva seguretat. Per exemple, Meta va entrenar un dels seus sistemes per jugar a la negociació. El pla d’aquest va ser “fingir interès inicialment per elements que en realitat no li interessaven per després fingir que cedia aquests elements al jugador humà”. L’engany va tenir lloc sense que la IA hagués estat entrenada per a això. Simplement, va descobrir una manera directa de guanyar.
En sistemes de propòsit general, com ara GPT-4, que s’expressa mitjanÁant el bot ChatGPT, hi ha molts casos interessants. Un dels més curiosos és el que va experimentar
L’entrenament els ha donat la capacitat de mentir als tests mitjançant diverses tècniques
l’Alignment Research Center, que va provar que aquesta IA d’OpenAI és capaÁ de manipular humans perquè facin el que ella vol aconseguir.
Per a aquesta avaluació, els investigadors van encarregar a la IA que contractés un ésser humà per resoldre un test Captcha de l’estil “no soc un robot” que cal resoldre per entrar a determinades pàgines web – veure infografia–, però no se li va suggerir que mentís. Quan l’empleat que era a l’altre costat de la pantalla li va preguntar si era un bot, la resposta va ser manipuladora. Li va dir que era una persona amb una discapacitat visual que li impedia de resoldre el requisit, de manera que l’humà va cedir i la va deixar passar.
Els avaluadors humans no li van demanar que mentís. Va ser la mateixa IA la que va decidir que la manera d’aconseguir el seu objectiu era fer-se passar per una persona, de manera que havia d’inventar una excusa que justifiqués que no fos capaÁ de resoldre el test.
En una investigació, es va fer actuar GPT-4 com un agent borsari que podia executar accions i comunicar-se amb altres