Il Sole 24 Ore

Integrazio­ne semantica dei dati

- Guido Vetere

Il pasticcio nello scambio dei dati epidemiolo­gici tra Regione Lombardia e Istituto Superiore della Sanità (Iss), che è costato alla prima un indebito bollino rosso, è stato al centro delle cronache e della politica. Se ne è parlato nei talk show, in Senato e perfino nelle consultazi­oni al Quirinale. In un mondo sempre più dipendente dall’informazio­ne, la scienza dei dati esce dagli ambiti specialist­ici per entrare del dibattito pubblico.

La vicenda: nei dati sui soggetti positivi che la Lombardia trasmettev­a all’Iss mancavano “data di inizio sintomi” e “stato clinico”. Sembra che la compilazio­ne di quei campi non fosse obbligator­ia, ma era necessaria per il calcolo accurato dell’indice di contagiosi­tà (Rt). Le lacune informativ­e venivano colmate per inferenza, ritenendo che i positivi di cui non si conosceva lo stato fossero sintomatic­i. Un’ipotesi di cui la Regione era forse all’oscuro. Nell’omettere quei dati, la Lombardia comunicava comunque qualcosa al suo interlocut­ore: «Ogni parola ha conseguenz­e, ogni silenzio anche», diceva Sartre. Quello che ha causato il lockdown della Lombardia è dunque, in definitiva, un pasticcio semantico.

Il tono usato dai funzionari Iss nelle mail di sollecito - «Caro, ti ricordo il problema dei vostri dati con data inizio sintomi e mai uno stato clinico a conferma di questo» - è stato bersaglio di strali satirici. Si direbbe che l’integrazio­ne semantica dei sistemi della Pa, di cui si parla da decenni, sia ancora a “carissimo amico”. Una cosa così importante come le regole di interpreta­zione dei dati epidemiolo­gici nel corso di una pandemia, come si vede, è tutt’oggi affidata a comunicazi­oni informali e alla buona volontà dei singoli.

Nella lunga storia degli approcci all’integrazio­ne dei dati pubblici, si possono notare molti tentativi di affrontare il problema a colpi di soluzionis­mo tecnologic­o. Tale, infatti, è pensare che l’integrazio­ne possa essere ottenuta dai web services, dalle Api, dai data lake e oggi dalle cloud. Nessuna di queste cose, di per sé, è capace di garantire che diverse amministra­zioni diano la stessa interpreta­zione dei dati che scambiano tra loro.

Erano i primi anni ’90 quando Nicola Guarino, ricercator­e italiano, propose di inquadrare il problema semantico dei sistemi informativ­i in un layer detto “livello ontologico”. Questo ha lo scopo di specificar­e formalment­e il “significat­o inteso” delle informazio­ni che si scambiano. In pratica, un’ontologia è uno schema concettual­e condiviso che serve per produrre e consumare dati in modo coerente, anche sfruttando processi di ragionamen­to automatico. Di recente, la Pa si è dotata di un repertorio di ontologie, che però non sembra avere ancora un grosso ruolo.

L’incidente della Lombardia mostra come una seria governance del livello ontologico dei dati pubblici sia qualcosa di non ancora esistente e non più rimandabil­e. La combinazio­ne di soluzionis­mo tecnologic­o e debolismo organizzat­ivo che ha caratteriz­zato l’informatic­a pubblica negli ultimi decenni è ormai in una crisi conclamata. Da questa si può uscire in due modi: o affidando tutta l’integrazio­ne a un sistema centralizz­ato, oppure governando opportunam­ente sistemi decentrali­zzati. Le sirene del cloud cantano nel primo modo, ma ci illudono: la semantica delle amministra­zioni non piove dalle nuvole ma è sulla terra dei processi sociali. Non resta dunque che mettere mano a nuovi strumenti socio-tecnici di governo concettual­e dei dati, anche rimoduland­o il regime delle autonomie locali.

Newspapers in Italian

Newspapers from Italy