La belleza de los modelos matemáticos

Las técnicas de aprendizaje automático y otros sistemas de inteligencia artificial multiplicarán las capacidades de los actuales superordenadores, lo que nos permitirá construir simulaciones extraordinariamente precisas y anticipar todo tipo de fenómenos,

2019-01-18 - Texto de MIGUEL ÁNGEL SABADELL

Eel informe de evaluación que los expertos del Panel Intergubernamental sobre el Cambio Climático (IPCC) presentaron en 2014 –el último que se ha realizado hasta la fecha–, se tuvieron en cuenta unos veinte modelos informáticos. Aunque todos coinciden en líneas generales, a la hora de cuantificar el fenómeno, “el asunto se vuelve muy molesto”, según confiesa Michael Pritchard, un investigador especializado en este tipo de herramientas de la Universidad de California, en Irvine. Por ejemplo, con el doble de dióxido de carbono (CO2) en la atmósfera, uno de los citados modelos puede arrojar un aumento estimado de la temperatura de 1,5 ºC; otro, de 4,5 ºC. Que difieran tanto es realmente deprimente para los climatólogos, ya que semejante margen de error viene a ser como jugar a la ruleta rusa con los millones de personas que viven en la costa o que practican una agricultura de subsistencia en tierras semiáridas y que pueden verse directamente afectadas por tales pronósticos.

EL PROBLEMA ES QUE COMPUTAR EL COMPORTAMIENTO DE LA ATMóSFERA ES MUCHO MÁS COMPLICADO DE LO QUE PODEMOS IMAGINAR.

Si bien es cierto que las ecuaciones que lo describen son bien conocidas, calcular cómo serán las cosas en el futuro es peor que los doce trabajos de Hércules juntos. En esencia, lo que se hace es introducir en una malla tridimensional imaginaria que envuelve el globo terráqueo las variables atmosféricas, como la velocidad del viento, la presión, la temperatura, el porcentaje de humedad y la concentración de dióxido de carbono. Cada nodo de la dicha malla, esto es, el lugar donde se cruzan los hilos, por así decirlo, de esa red, son los puntos de cálculo del programa en cuestión, donde se resuelven las ecua- ciones numéricamente mediante métodos de la matemática computacional. Después se sustituyen los datos iniciales por los que se han obtenido y se repite el proceso hasta que, poco a poco, tras una serie de iteraciones, los resultados parecen converger hacia una cifra. De este modo, cada vez se da una menor diferencia entre los números que se consiguen entre una iteración y la siguiente.

Este caso nos puede dar una idea de lo complejo del cálculo: para hacer el seguimiento de la evolución de siete factores atn

mosféricos –temperatura, presión, vapor de agua, cobertura nubosa y la velocidad del viento en tres direcciones–, en una malla hecha con cubos de doscientos kilómetros de arista y diez capas superpuestas en altura, hay que seguirles la pista a un millón de variables; se necesitan unas quinientas operaciones aritméticas por cada cálculo, lo que representa que hay que hacer quinientos millones de operaciones por unidad de tiempo. Podríamos pensar que una forma de mejorar las predicciones está en tejer una red más fina, como de veinte kilómetros de lado. En este caso, el número total de operaciones se multiplicaría por diez mil, hasta los cinco billones. Y ello, por supuesto, conlleva más tiempo de computación. La regla general, según explica Chris Bretherton, científico atmosférico de la Universidad de Washington (EE. UU.), es que si reducimos las dimensiones de la cuadrícula a la mitad, el tiempo de cálculo se multiplica por diez. “No es fácil hacer un modelo mucho más detallado —indica Pritchard. Y añade—: Tal vez estaríamos esperando los resultados durante años”.

Y ESO QUE LOS SUPERORDENADORES ACTUALES LLEVAN A CABO DECENAS DE MILES DE BILLONES DE OPERACIONES

por segundo. Aun así, la retícula de este tipo más fina que podemos manejar por el momento es un mapa digital del mundo con píxeles que representan poco más de ochenta kilómetros de lado. En la práctica, esto hace que Salamanca y Zamora se encuentren en un mismo recuadro y no distingamos, por ejemplo, los campos de cultivo o las zonas libres de vegetación en los bosques. Todo esto significa que, desde el punto de vista de la climatología, tenemos una visión borrosa del futuro. Por eso, Pritchard y otros investigadores están tratando de mejorar los modelos con inteligencia artificial (IA): el pro- totipo de Pritchard recibe el nombre de The Cloud Brain y se dedica a estudiar la evolución de las nubes. La idea es conseguir insertar el código del aprendizaje automático en el que se basan muchos sistemas de IA en el corazón de los modelos climáticos y conseguir que estos sean cientos de veces más precisos que los provenientes de la programación tradicional.

GRACIAS A ESTOS ALGORITMOS, LOS ORDENADORES BUSCAN PATRONES

y aprenden a hacer predicciones a partir de los datos que se les proporcionan. Una de las técnicas que más se emplean en este sentido, denominada aprendizaje profundo, pretende imitar el funcionamiento de nuestras neuronas. La idea fue planteada en 1959 por el pionero de la IA Arthur Samuel, pero no pudo llevarse a la práctica hasta que se alcanzó una cierta velocidad de cálculo y se aseguró el acceso a un gran número de datos, suficientes como para que las máquinas puedan aprender por sí mismas siguiendo un programa definido.

Por este motivo, algunas compañías tecnológicas capaces de manejar ingentes cantidades de información, como Microsoft y Google, se lanzaron de cabeza a desarrollar programas de aprendizaje profundo, que han estado usando en servicios de traducción online, la búsqueda de fotografías en internet o potenciar el reconocimiento de voz de los teléfonos móviles.

Ni siquiera los mejores superordenadores pueden manejar todos los datos necesarios para predecir el clima con total precisión

La biomedicina es una de las disciplinas que antes se beneficiará de estos avances. Entre otras muchas cosas, los científicos aprovecharán las mejoradas capacidades de cálculo para obtener modelos de nuevas moléculas con las que se fabricarán medicamentos más eficaces. Esto será posible no solo gracias al desarrollo de los superordenadores, sino al incremento exponencial en la cantidad de datos experimentales relevantes que se ha dado en las últimas décadas. Ahí tenemos, por ejemplo, todos los que originan las interacciones entre las moléculas de estructura química conocida y las líneas celulares, los modelos de ratones u otras dianas no moleculares. No obstante, en este mismo campo, una de las aplicaciones más importantes la encontramos en el mundo de las proteínas.

LA MAYOR PARTE DE LAS QUE ESTÁN PRESENTES EN LOS SERES VIVOS FUNCIONAN COMO CATALIZADORES. Se trata de las enzimas, unas moléculas que hacen posible que tengan lugar las numerosísimas reacciones que ocurren en el organismo y que poseen muchas ventajas comparadas con otros catalizadores artificiales. Como en la naturaleza hay muchísimas –la bacteria más simple posee más de tres mil catalizadores enzimáticos diferentes–, se puede elegir la más adecuada para la función que se necesite. Además, cumplen con su cometido a temperatura ambiente, presión atmosférica y pH neutro, a diferencia de las sustancias de laboratorio ideadas con fines similares y que, en general, deben encontrarse en condiciones muy especiales para que funcionen bien, algo que no es precisamente barato.

Por eso, resulta fácil imaginar la importancia que tiene la investigación en esta área, ya sea en aquellos procesos en los que es necesario que una determinada reacción funcione con una eficiencia muy alta o en los que se requiere que sea muy específica. Este podría ser el caso de la reacción de inversión de la glucosa en fructosa que se utiliza en la obtención de muy distintos compuestos, como los jarabes edulcorantes que se fabrican a partir del maíz.

Los nuevos modelos facilitarán el desarrollo de catalizadores con los que podremos obtener cualquier tipo de reacción

Las proteínas también se antojan muy útiles en el desarrollo de biosensores, capaces de detectar la presencia de un compuesto en un medio. Con ellos podemos saber si lo que estamos buscando se encuentra en él aunque sea en cantidades ínfimas. Ahora bien, el problema fundamental en este asunto es el mismo que en el caso de los biofármacos: hay que encontrar la proteína o la molécula adecuada para hacer la tarea. Pues bien, para eso está el aprendizaje automático aplicado a los sistemas de modelado computacional.

DANIEL FRANKE Y SUS COLEGAS DEL LABORATORIO EUROPEO DE BIOLOGíA MOLECULAR, CON SEDE EN HEIDELBERG (ALEMANIA),

presentaron el pasado junio un método basado en esta tecnología con el que es posible clasificar las biomoléculas utilizando los datos existentes del sistema SAXS –dispersión de rayos X de ángulo reducido–, una de las técnicas biofísicas usadas para determinar sus características estructurales.

Al mismo tiempo, otros grupos han estado construyendo programas diseñados ex profeso para predecir las propiedades de una molécula a partir de su estructura. Esta es la idea que se encuentra detrás de Chemception, una iniciativa impulsada por Garrett Goh, experto en sistemas avanzados de computación del Laboratorio Nacional del Pacífico Noroeste (EE. UU). La idea es que Chemception aproveche todo lo que pueda aprender sobre las relaciones existentes entre la estructura y las propiedades de una molécula, de modo que logre anticipar cómo se comportará. Esta misma estrategia resulta muy interesante en la obtención de nuevos materiales, el campo en el que se ha especializado Paul Kent, director del Centro para la Simulación Predictiva de Materiales Funcionales, en el Laboratorio Nacional Oak Ridge (EE. UU.). Aquel presentó en febrero de 2018 QMCPACK, un programa que calcula la estructura electrónica de sólidos metálicos, moléculas o átomos partiendo de los principios de la teoría cuántica.

Pero el aprendizaje automático también permite construir modelos con los que es posible recorrer el camino contrario, lo que se llama ingeniería inversa. Esto es lo que persiguen los químicos Benjamin Sanchez-Lengeling y Alán Aspuru-Guzik, de las universidades de Harvard y Toronto, respectivamente. Su intención es conseguir un sistema de IA que pueda generar nuevas moléculas, hechas a la medida de lo que se desea que hagan. Para explicarlo, Aspuru-Guzik recurre a una película clásica de la ciencia ficción, Blade Runner (Ridley Scott, 1982).

“EN ELLA, DECKARD, EL PROTAGONISTA, DEBE IDENTIFICAR HUMANOS SINTÉTICOS;

sus objetivos pueden serlo, efectivamente, pero también pueden ser humanos –no es fácil distinguirlos–”, señala Aspuru-Guzik a propósito de este asunto en Chemistry World. “Es el mismo principio que subyace —continúa— tras los modelos discriminativos que, en esencia, también se dan en la química y que vienen a plantear que dada una X, entonces se puede predecir una Y. Es una estrategia que seguimos para identificar moléculas. Pero, en este ejemplo, los citados androides serían modelos generativos, ya que deben forjar un comportamiento humano y hacerse pasar por uno”. Así que, junto con su equipo, Aspuru-Guzik ha creado un modelo que, a la vez, explora el espacio químico y crea moléculas con propiedades ideales.

Eso sí, conseguir que las máquinas hagan todo el trabajo tiene un precio. Este tipo de aprendizaje intuitivo no nos va a ayudar a comprender mejor las leyes de la naturaleza. Para muchos científicos, como Philip Rasch, responsable de Climatología en el PNNL, que no haya forma de saber por qué un ordenador hace lo que hace –como si todo se limitara a meter números en una caja y esperar que de ella salieran otros– es difícil de digerir. Otros expertos, como el mencionado Pritchard, no ven en esto un inconveniente, sino una virtud.

Para este investigador, el aprendizaje profundo es la solución a los procesos en los que no entendemos la física subyacente. Es más, ni siquiera se necesitan más datos experimentales que los necesarios para instruir al programa, tal como destaca Kent: “Nuestra investigación se centra en predecir y explicar las propiedades de los materiales utilizando la simulación por ordenador. Este método utiliza poca o ninguna información experimental”.

Lo mismo está sucediendo en otros campos de estudio. Al final, la computadora es la única que lo sabe todo. Estamos ante una nueva forma de hacer ciencia: introducimos en ella un enorme número de datos y ella descubre patrones y nos comunica los resultados sin decirnos cómo ha llegado a ellos. Cuando no hay un libro de reglas, dice Pritchard, la IA pude convertirse en el camino más prometedor para avanzar. “Si humildemente admites que algo está más allá de la física conocida, el aprendizaje profundo gana atractivo por momentos”, sentencia Pritchard. Ahora bien, si no sabemos qué lleva a una máquina a mostrarnos ciertas cosas, ¿cómo podemos estar seguros de que predice algo que nadie ha observado?

EN CAMPOS COMO LA BIOMEDICINA O NUEVOS MATERIALES SE PUEDE COMPROBAR

experimentalmente. Pero ¿qué pasa cuando el objeto de estudio es el clima? ¿Acaso se trata todo de un acto de fe? Por este motivo, Tapio Schneider, profesor de Ciencias Ambientales e Ingeniería del Instituto de Tecnología de California, ha adoptado un enfoque diferente: usa modelos basados en la física y usa una variante menos potente del aprendizaje automático para afinar los resultados. De momento, ha llamado a su modelo The Earth Machine.

Sea como fuere, el aprendizaje automático ha llegado a la ciencia para quedarse y cada día se buscan nuevas aplicaciones: hace poco menos de un año, tres estudiantes de la Universidad de Glasgow presentaron en Physical Review Letters un programa de IA que permite buscar ondas gravitacionales. La cuestión de fondo es que dar con la solución a muchos de los problemas a los que se enfrenta la ciencia del siglo XXI excede nuestras capacidades, así que hemos echado mano de la inteligencia artificial. Hoy, el aprendizaje profundo es un becario brillante, pero quizá llegue el día en que se convierta en el catedrático.