Pidieron un paper científico a ChatGPT, pero la aplicación de IA falló
Expertos de Israel le ordenaron procesar datos de una investigación sobre salud. Pero la respuesta decepcionó.
“Pusieron en marcha el sistema y se fueron a almorzar”, resume una nota de la revista Nature la experiencia de dos científicos israelíes que pusieron a prueba la capacidad de Chat GPT para escribir un paper científico. Crearon un software que dosifica a esta inteligencia artificial (IA) información de base sobre un tema de salud. Aunque los resultados fueron generados con una velocidad inalcanzable para un ser humano (se procesó y analizó una base de datos de 250 mil personas consultadas sobre diabetes, su consumo de frutas y verduras y su nivel de actividad física) estuvieron lejos de ser brillantes.
Es un contexto de gran preocupación, no solo por el avance de la inteligencia artificial sino también por los riesgos de la desinformación y las fake news en todos los órdenes. La punta de ese iceberg son los papers retractados cada año por revistas científicas que los habían revisado y publicado. La pregunta es por las implicancias de que científicos hayan probado confeccionar un paper con ChatGPT y si podrían multiplicarse aquellos con información cuestionable o floja. El texto está online desde el 23 de junio, sin autoría, si bien la dupla impulsora fueron el biólogo y experto en Ciencia de Datos israelí Roy Kishony y su alumno Tal Ifargan, ambos del Instituto de Tecnología Technion, en Haifa, Israel.
Crearon un software que pudiera interactuar con ChatGPT. Luego de compartirle la base de datos de 250 mil encuestas telefónicas, el sistema creado por los humanos pidió a la IA que determinara un objetivo de estudio. ChatGPT obedeció.
Además se le ordenó generar una plan de análisis de datos y “código”, término clave en Informática, que podría definirse como un alfabeto con instrucciones, algoritmos o fórmulas con que se podrá -entre otros- extraer patrones de comportamiento. O sea, se pidió a ChatGPT la tarea de un ser humano programador, analista de datos, científico y encontrar algo nuevo. El resultado determinó que comer más frutas y verduras y hacer ejercicio está relacionado con un menor riesgo de desarrollar diabetes.
Nature describe el uso que los científicos dieron a ChatGPT como el de quien apela a un “copiloto”, concepto
Los resultados que emitió ChatGPT fueron generados a una velocidad récord.
también usual en este ambiente. Es, no obstante, un término discutible: un copiloto asiste, pero también debe estar en condiciones de tomar el mando. Nature apunta que “el artículo fue fluido, perspicaz y se presentó en la estructura esperada de un artículo científico”, pero admite, citando a los investigadores, que “hay muchos obstáculos que superar antes de que la herramienta pueda ser realmente útil”.
Para comprender la gran falla de este trabajo hay que explicar la “alucinación”, un problema común de la IA “generativa” (productiva por sí misma, como el cerebro humano).
Juan Corvalán, director y cofundador del Laboratorio de Innovación e Inteligencia Artificial de la UBA, explicó: “se dice que ‘alucina’ cuando, ante cierta solicitud, orden o prompt, la IA genera contenido falso o sin sentido. Esto ocurre porque el sistema no razona en términos humanos. No puede contestar ‘no sé’ porque fue creada para analizar el contexto de la solicitud humana y, en base a su aprendizaje, emitir una respuesta”.
“Antes, si un chatbot conversacional agotaba su fuente de conocimiento, liberaba una respuesta por defecto del estilo de ‘disculpa, no tengo información sobre lo que estás preguntando’, lo que no significaba que contara con la inteligencia humana como para identificar
aquello que no sabía. Era código de programación que determinaba una respuesta por defecto ante ciertos casos. Estos nuevos sistemas intentan, en todos los casos, brindar alguna respuesta”, señaló.
El paper anuncia que “este estudio aborda un vacío en la literatura, al proporcionar evidencia sobre los efectos protectores de consumo de frutas y verduras y actividad física en relación con el riesgo de diabetes”. Según Nature, el software de los investigadores abrió dos conversaciones de ChatGPT, para recrear un virtual sistema de revisión por pares (“arbitraje”, “referato” o “peer review”). Al chatbot se indicó actuar como científico, escribir el artículo, hacer las veces de “revisor” y compartir al “científico” comentarios constructivos. Pero el trabajo en tándem no ayudó. El científico informático de la Universidad Hebrea de Jerusalén Tom Hope (citado por Nature) advierte que los resultados no podrían sorprender a nadie y que el paper está lejos de ser novedoso.
Nada de esto sería tan problemático si no fuera porque (por información falsa, errónea, mal calculada o copiada) cada año, cientos de revistas científicas retractan el aval dado a papers revisados y publicados en sus propias páginas. Cabe preguntarse si esta herramienta informática representa una amenaza de mayor proliferación de papers retractados.
El tema preocupa, ya que casi 4 mil trabajos son “echados para atrás” cada año y la cifra crece porcentualmente sobre el total de publicaciones, informó a Clarín Ivan Oransky, uno de los creadores del observatorio Retraction Watch, con sede en Estados Unidos.w