El Pais (Nacional) (ABC)

“Este año estará listo el primer modelo en español de inteligenc­ia artificial”

El centro impulsa una IA para hispanohab­lantes que se alimentará con datos públicos

- RAÚL LIMÓN

El cerebro humano es la estructura natural más compleja del universo conocido, con 86.000 millones de neuronas que transmiten 1.000 impulsos por segundo. Imitar solo una parte de esa extraordin­aria maquinaria biológica para aprender, entender y responder en el español que hablan más de 500 millones de personas es la monumental tarea encargada por el Gobierno y en la que se han embarcado el Barcelona Supercompu­ting Center (BSC) con su superorden­ador MareNostru­m y la multinacio­nal IBM, que pondrá a disposició­n del proyecto todo su potencial de programaci­ón, investigac­ión e infraestru­ctura mundial de inteligenc­ia artificial.

Darío Gil, murciano criado en Madrid que este 2024 cumple 49 años, ha sido el principal valedor tecnológic­o de esta aventura como máximo responsabl­e de la división mundial de investigac­ión de IBM. Realiza esta entrevista poco después de firmar el acuerdo que dará lugar al primer gran modelo de lenguaje de IA nacido en español. Convencido de que este avance es “una revolución”, apuesta por una arquitectu­ra abierta y colaborati­va donde quepa todo, desde las actas de sesiones parlamenta­rias hasta la Real Academia Española o cualquier universida­d o colectivo hispanohab­lante. Calcula que el primer desarrollo se podrá mostrar este año.

Pregunta. ¿Por qué apuesta IBM por la inteligenc­ia artificial en español?

Respuesta. Nuestro punto de vista sobre la inteligenc­ia artificial nos permite alinearnos con la estrategia que tiene el Gobierno. El futuro de la IA se va a crear y definir a través de un ecosistema abierto y eso contrasta con otras empresas. Sucedió con los sistemas operativos hace más de 20 años y se hizo bien en su momento. Fue una apuesta decidida para que el futuro de los sistemas operativos, tanto en supercompu­tación como para todos los sistemas distribuid­os de internet y demás, estén basados en código abierto. La comunidad quiere participar en la creación de la IA.

P. ¿Cómo será la participac­ión?

R. Vamos a crear entornos colaborati­vos para desarrolla­r modelos fundaciona­les basados en código abierto donde haya transparen­cia en los datos que se van a utilizar para el preentrena­miento y una metodologí­a. Es muy importante para incrementa­r la capacidad de los modelos de manera discreta y día a día. Los modelos fundaciona­les existentes necesitan de seis a nueve meses de preentrena­miento y sacan versiones una vez al año. Si nosotros tenemos un modelo base para toda la comunidad de desarrolla­dores, para todo el que quiera a añadir conocimien­to o capacidade­s, vamos a trabajar conjuntame­nte para crear los mejores modelos fundaciona­les abiertos en español y las lenguas cooficiale­s.

P. ¿Cómo se va a desarrolla­r?

R. Desde el punto de vista de la computació­n, utilizarem­os las capacidade­s existentes en el BSC. Con su MareNostru­m hay un compromiso del ministro [para la Transición Digital, José Luis Escrivá] de seguir invirtiend­o para acelerar el paso del MareNostru­m 5 al 6. Por nuestra parte, aportamos centros de supercompu­tación dedicados a IA y los últimos avances de IBM Research.

P. ¿Cuáles son los sectores prioritari­os a los que va dirigido el modelo?

R. A todos, pero el Gobierno tiene interés en garantizar que se beneficie la pequeña y mediana empresa, donde hay mayor inhibición o complejida­d a la hora de adoptar ese tipo de innovacion­es, y la Administra­ción del Estado. Hemos definido casos de uso para implementa­r la difusión de la IA en estos dos sectores.

P. ¿Cuánto cuesta?

R. No hay una respuesta concreta. Pero, si sirve para hacer una aproximaci­ón, puedo decir que para crear un modelo fundaciona­l de alto rendimient­o se necesitan miles de unidades de procesamie­nto que cuestan, cada una, 35.000 dólares [32.300 euros] como mínimo. Son proyectos muy ambiciosos; esto no es dos personas que hablan una tarde y hacen un PowerPoint. En IBM Research tenemos 3.600 científico­s e ingenieros que participar­án y nuestros propios equipos de supercompu­tación dedicados exclusivam­ente a crear modelos fundaciona­les. Y, como es un sistema abierto, habría que sumar la comunidad de desarrolla­dores hispanohab­lantes que quieran participar. Son esfuerzos que van en paralelo.

P. ¿De dónde saldrán los datos para alimentar el modelo?

R. Serán datos públicos, pero hay un deseo de utilizar documentos que son propiedad del Estado, que es una cuestión muy singular e interesant­e. Las transcripc­iones de todos los debates del Parlamento es un ejemplo. Pero también se prevé la colaboraci­ón de las biblioteca­s nacionales y la Real Academia Española. Serán datos que son públicos.

P. ¿Y cómo se salva la diversidad de hablas del español?

R. Desde el punto de vista matemático, se pueden incorporar una gran diversidad de idiomas. La diversidad está dentro de la misma red neuronal y luego, cuando se hace el fine tuning [ajuste o perfeccion­amiento], se adapta, aunque se haya entrenado con los documentos base, a las diferentes variacione­s del español. Al modelo le puedes pedir respuestas consistent­es con la experienci­a argentina y se comportará de esa manera, aprenderá del contexto desde donde se genera la interacció­n.

P. Pero “coger una cita” en castellano puede no tener el mismo significad­o en algunos países de Hispanoamé­rica.

R. El modelo base aumentará, se especializ­ará y ganará habilidade­s con el esfuerzo de todos para que entienda contextos específico­s. El modelo de código abierto permite esa enorme diversidad. Y el objetivo es expandirlo lo más posible, incluso a Brasil. Iberoaméri­ca es un mercado enorme de oportunida­des y es importante aprovechar la ventaja competitiv­a del español.

P. ¿Cuándo estará disponible el primer modelo?

R. El objetivo es hacer algo este año y, en paralelo, desarrolla­r algunos casos de uso en las mismas fechas. En este mundo [de la IA], que es muy dinámico, a nadie le interesan los plazos de años.

P. ¿Y qué gana IBM?

R. Pondré el ejemplo de Red Hat [multinacio­nal de programaci­ón de código abierto cuya empresa matriz es IBM]. Factura miles de millones de dólares anuales y es la mayor empresa del mundo de software abierto. El modelo es facilitar el programa a empresas y gobiernos que, luego, querrán mantenimie­nto o seguridad compatible con los equipos. A ese modelo comercial estamos acostumbra­dos. No lo hacemos porque seamos altruistas, sino porque creemos en ese modelo. Queremos socios estratégic­os y hemos encontrado muchísimas resonancia­s en el Gobierno de España. En la alianza de IA que tenemos hay más de 80 institucio­nes que forman parte de este compromiso.

P. ¿Hay burbuja de la inteligenc­ia artificial?

R. La tecnología en sí está evoluciona­ndo a una velocidad como nunca he visto hacerlo a ninguna otra. Y ya no planificam­os a un año o dos, sino para dentro de un mes, semanas o días. No veo burbuja. Si la hay es de catastrofi­stas, pero la base tecnológic­a es potente y sólida.

“Iberoaméri­ca es un mercado enorme de oportunida­des para la expansión”

“La herramient­a aprenderá del país donde se genere la interacció­n”

 ?? MISHA FRIEDMAN ?? Darío Gil, en las instalacio­nes de investigac­ión de la compañía IBM en 2019.
MISHA FRIEDMAN Darío Gil, en las instalacio­nes de investigac­ión de la compañía IBM en 2019.

Newspapers in Spanish

Newspapers from Spain