Una nuova biologia
L’intelligenza artificiale sta catapultando le scienze della vita in una dimensione inedita. Grazie alla struttura 3D delle proteine, presto potremo comprendere l’evoluzione degli organismi, creare modelli predittivi e riprodurre virtualmente l’uomo per testare i farmaci
Per oltre mezzo secolo gli scienziati di tutto il mondo hanno studiato un modo per prevedere la struttura tridimensionale delle proteine, senza successo. Sapere qual è la loro forma 3D a partire dalla sequenza di amminoacidi che le compongono è fondamentale per capire in che modo funzionano, legandosi, a incastro, ad altre molecole come l’ossigeno, agli antigeni di batteri e virus, ad altre proteine e non solo. È il modo in cui si attorcigliano nello spazio (chiamato ripiegamento o folding) a determinare il loro ruolo: difensivo contro agenti patogeni, regolatore degli ormoni, catalizzatore come gli enzimi, contrattile nei muscoli, di trasporto come l’emoglobina o strutturale per dare elasticità e resistenza a organi e tessuti. Molte malattie sono dovute proprio all’alterazione di una struttura proteica, e conoscerla a fondo è utile per capire la natura della patologia e progettare di conseguenza i farmaci. Ora ci siamo: il risultato del ripiegamento proteico non è più un segreto, grazie all’intelligenza artificiale.
Lo scorso 30 novembre, infatti, è stato annunciato che il sistema Alphafold della società londinese Deepmind (che fa parte della galassia Google), un’ia basata su una rete neurale nutrita con decenni di dati di tutte le sequenze e le strutture 3D studiate, è capace di determinare con estrema precisione il folding di una proteina conoscendo solo la sequenza di amminoacidi che la compone. E basta la potenza di calcolo di un centinaio di comuni schede grafiche al lavoro per qualche settimana per raggiungere uno score medio di accuratezza di 92,4 su 100, oltre due punti superiore a quel 90 garantito dalle tecniche sperimentali più all’avanguardia. La soluzione del problema del folding non è però la fine del percorso, ma l’inaugurazione di un filone di ricerca che dominerà i futuri progressi della microbiologia, con applicazioni che vanno dalla farmacologia alle filiere dell’economia circolare, passando naturalmente per lo studio del coronavirus e delle sue varianti. Ne abbiamo parlato con una veterana del settore: Janet Thornton, direttrice emerita dell’istituto europeo di bioinformatica (Ebi), parte del Laboratorio europeo di biologia molecolare (Embl) che ha guidato per 15 anni.
Dopo la notizia di Alphafold, a caldo lei ha dichiarato che era stato fatto un balzo in avanti eccezionale. Che cosa intendeva?
« Fin dal 1994, esiste una conferenza biennale – Casp, Critical assessment of protein structure prediction – in cui si fa il punto a livello mondiale sugli esperimenti predittivi per le strutture proteiche. Negli ultimi anni si sono visti chiaramente diversi progressi, in uno sforzo internazionale corale; poi Deepmind, nell’ultima conferenza Casp14, ha annunciato un po’ a sorpresa di essere già arrivata alla soluzione. La considero una svolta: partendo dalle lunghe sequenze polimeriche composte da combinazioni di 20 amminoacidi diversi, stabilire una struttura 3D prodotta da interazioni chimico-fisiche è un risultato straordinario. La forma delle proteine ne determina poi il ruolo, spaziando dagli enzimi agli anticorpi, dai capelli all’attività cerebrale. Del resto, questo è il problema pluridecennale che dalla fisica mi ha portato ad appassionarmi alla biologia: concettualmente è molto semplice, perché anche un bambino lo capisce, ma è difficilissimo da risolvere. E soprattutto ha un grande valore simbolico».
La soluzione del ripiegamento proteico è merito del deep learning, ma come ci si è arrivati?
« La base di tutto sono le banche dati. L’istituto dove lavoro custodisce il database europeo, che poi confluisce in quello globale con cui è stato addestrato Alphafold. Già quattro anni fa erano in corso, in ambiente accademico e non, alcuni
tentativi interessanti di insegnare a un’intelligenza artificiale a ripiegare le proteine, ma è evidente che il know how del mondo Google ha fatto la differenza. Va detto, però, che Alphafold non prevede passo dopo passo il modo in cui una proteina si ripiega, ma direttamente la sua struttura finale, bypassando tutto il processo di interazioni su scala atomica che la determina ».
Dunque, siamo in uno di quei casi in cui una rete neurale trova soluzioni attraverso percorsi non convenzionali, rompendo gli schemi classici. Ignorare il processo di
folding è un limite dal punto di vista scientifico?
« Da scienziata preferirei ovviamente conoscere tutti i passaggi, ma sappiamo già che ci sono più modi in cui può avvenire il ripiegamento della catena, nonostante la struttura finale 3D sia sempre una sola. Proprio come per un puzzle, ci sono più strategie per arrivare a incastrare tutti i pezzi. Vent’anni fa ero convinta che non si potesse prevedere la struttura complessiva senza conoscere il processo nei dettagli, ma avevo torto. Trovo interessante di per sé che si sia trovata la soluzione aggirando i passaggi intermedi, però conoscerne la dinamica sarebbe comunque utile: basti pensare che molte malattie sono legate proprio al modo in cui le proteine si ripiegano, e non solo alla loro forma conclusiva. Insieme al folding è importante anche il processo di unfolding, il dispiegamento, decisivo in condizioni come l’alzheimer e il Parkinson ».
Medicina e farmacologia sono proprio i primi campi ai quali si vogliono applicare le previsioni 3D delle strutture proteiche. Che cosa sta per cambiare? « Il design dei farmaci è l’esempio più ovvio. Il medicinale deve agganciarsi bene, interagendo con una o con pochissime proteine di superficie. È un sistema chiave-serratura, in cui la molecola farmacologica inibisce o modula l’azione di una proteina, per prevenire o contrastare una malattia. Conoscendo com’è fatta la serratura si può creare la chiave, mentre senza conoscerla è quasi impossibile azzeccare la forma giusta. Finora gran parte del lavoro si è basato su tecniche sperimentali come la cristallografia a raggi X tramite luce di sincrotrone (si usa un acceleratore di particelle per bombardare le proteine con un fascio di luce ad altissima intensità, ndr) o la microscopia elettronica. Al momento, però, delle 20mila proteine note solo 5mila sono intercettabili con un medicinale. Molte altre potrebbero essere target utili, e conoscere la loro struttura 3D significherebbe poterle raggiungere tutte. È vero che parecchie delle più promettenti sono già state studiate a fondo, ma c’è un intero universo di molecole che non abbiamo ancora esplorato a sufficienza, e prevederne la forma 3D è un grande aiuto».
Quindi l’intelligenza artificiale renderà obsoleti o inutili i grandi strumenti di ricerca come i sincrotroni?
«Non credo. Avremo sempre bisogno di verificare la bontà delle previsioni e delle simulazioni. In parallelo, le tecniche sperimentali stanno diventando sempre più potenti: con la microscopia elettronica, per esempio, si possono osservare anche la mobilità e la dinamica di una molecola mentre cambia nel tempo. Al momento, la risoluzione è al livello dei complessi macromolecolari come i ribosomi, ma presto arriveremo alla scala delle singole grandi molecole, come le proteine. Entro cinque anni ci aspettiamo un’evoluzione ulteriore della tecnica, tanto computazionale quanto sperimentale. La biologia diventerà sempre più teorica nel descrivere il modo in cui un organismo evolve, o come un virus invade un corpo. Partendo dallo studio al livello molecolare arriveremo fino a modellare gli ecosistemi».
Biologia e informatica saranno sempre più legate?
« Più accumuliamo dati e più ciascun campo della biologia diventa un terreno dove l’informatica può fare la differenza. Possiamo comprendere l’evoluzione degli organismi e capire come la vita è progredita, scendendo fino al livello nanometrico e trovando collegamenti tra esseri viventi sulla base del loro genoma. Poi ci sono le tecniche per l’analisi delle immagini: nuovi modi di guardare alla biologia su differenti scale, dal molecolare al cellulare, dagli organoidi fino a un organismo completo o a un intero ambiente. L’obiettivo ambizioso di mettere insieme i diversi livelli avrà impatti su più aree, dalla tutela della biodiversità alla lotta al cambiamento climatico, per arrivare alla comprensione di come il clima influisce sugli esseri viventi, dalle singole proteine fino agli ecosistemi nel loro insieme. Di mezzo c’è anche l’analisi dei processi di crescita e sviluppo di tutti gli organismi, esseri umani inclusi. Con i nuovi metodi di imaging possiamo osservare come si sdoppiano i cromosomi o come uno spermatozoo entra in una cellula uovo, ma usare questi dati per creare un modello predittivo significa che, quando qualcosa va storto, potremo capire il perché. E infine c’è la parte medica: si è sempre detto che conoscere la struttura delle proteine è fondamentale per sconfiggere le malattie. Ebbene, ora stiamo andando oltre: potremo guardare al corpo nel suo complesso, riprodurre virtualmente un essere umano e prevedere come risponderà a un farmaco».
Quali sono i prossimi traguardi a cui si sta lavorando?
«Oggi quasi tutti i gruppi di ricerca, soprattutto negli Stati Uniti, utilizzano forme di intelligenza artificiale. E molto si sta facendo per costruire database sempre più ampi: da Seattle, con il celebre team di David Baker, fino a Cambridge nel Regno Unito, dove ha sede l’istituto europeo di bioinformatica. Non c’è dubbio che il prossimo passaggio sia studiare la relazione tra struttura 3D e funzione biologica, di cui mi occupo da tempo. Capire come la sequenza di amminoacidi di un enzima ne determini la forma, e poi come questa impatti sulla funzione, significa comprendere disfunzioni ereditarie, o quantificare la probabilità di sviluppare certe malattie. Il problema del determinare le strutture 3D, comunque, a oggi è tutt’altro che chiuso. Alphafold ha dimostrato le proprie potenzialità con un gruppo di una ventina di molecole: è solo la punta dell’iceberg, perché va appurato se lo stesso approccio funzioni con le altre migliaia e migliaia di proteine presenti nel corpo umano, e dovremo testare la robustezza del sistema così come il metodo scientifico ci impone di fare. Peraltro ci sono aspetti ancora non incorporati nel modello di Deepmind, fra cui il più importante è il concetto di interazione. Non è sufficiente conoscere la struttura di ogni singola proteina, ma occorre capire come interagirà con le altre, con molecole di genere differente e con i farmaci. Nonostante sia in qualche modo implicito in quello che si sta facendo, non è affatto banale. Basti pensare alle interazioni delle proteine con il microbiota o con i patogeni: le possibili combinazioni sono molte di più delle possibili proteine, e immergersi in questa complessità è la sfida attuale. Non c’è motivo per credere che sia irrealizzabile, ma oggi siamo appena alle fasi iniziali: la percezione di trovarci sulla strada giusta è uno stimolo a fare meglio per tutta la comunità, iniziando dal riprodurre i risultati di Alphafold ».
Ritiene plausibile che un premio Nobel venga assegnato a un algoritmo?
« Non lo so, ma sono convinta che ci saranno Nobel su questo filone di ricerca. C’è il premio per la Chimica e quello per la Medicina, ma non c’è quello per la Biologia. Quindi anzitutto si dovrà stabilire a quale disciplina fare riferimento. E poi, come identificare chi va premiato? È difficile trovare tre sole persone, e non invidio chi dovrà scegliere. Nello specifico, la struttura 3D delle proteine è un grande risultato, però non la definirei una scoperta vera e propria. Piuttosto, è lo sviluppo di una tecnologia ».
In che modo la bioinformatica ci aiuta (e ci aiuterà in futuro) ad affrontare le minacce pandemiche?
«Oggi possiamo già conoscere le strutture di certe proteine, come accade con il Sars-cov-2, e abbiamo strumenti che permettono di farlo nell’arco di una notte. Possiamo capire come il virus infetta il corpo e quali sono le parti da proteggere. Abbiamo un aiuto importante nello sviluppo dei vaccini, sia per la versione iniziale del virus sia per quelle mutate. E, dal punto di vista epidemiologico, la possibilità di prevedere la diffusione delle varianti è legata al sequenziamento del patogeno, un classico esempio di bioinformatica. Il passaggio, in futuro, sarà diventare capaci di prevedere il modo in cui i virus evolvono: potremmo essere in vantaggio anticipandone le varianti e disegnando i farmaci più opportuni con la consapevolezza degli effetti che avranno sul corpo umano. In tutte queste aree la computazione avrà un ruolo chiave, e anche se sembrano aspetti molto diversi tra loro non lo sono affatto».