Integrazione semantica dei dati
Il pasticcio nello scambio dei dati epidemiologici tra Regione Lombardia e Istituto Superiore della Sanità (Iss), che è costato alla prima un indebito bollino rosso, è stato al centro delle cronache e della politica. Se ne è parlato nei talk show, in Senato e perfino nelle consultazioni al Quirinale. In un mondo sempre più dipendente dall’informazione, la scienza dei dati esce dagli ambiti specialistici per entrare del dibattito pubblico.
La vicenda: nei dati sui soggetti positivi che la Lombardia trasmetteva all’Iss mancavano “data di inizio sintomi” e “stato clinico”. Sembra che la compilazione di quei campi non fosse obbligatoria, ma era necessaria per il calcolo accurato dell’indice di contagiosità (Rt). Le lacune informative venivano colmate per inferenza, ritenendo che i positivi di cui non si conosceva lo stato fossero sintomatici. Un’ipotesi di cui la Regione era forse all’oscuro. Nell’omettere quei dati, la Lombardia comunicava comunque qualcosa al suo interlocutore: «Ogni parola ha conseguenze, ogni silenzio anche», diceva Sartre. Quello che ha causato il lockdown della Lombardia è dunque, in definitiva, un pasticcio semantico.
Il tono usato dai funzionari Iss nelle mail di sollecito - «Caro, ti ricordo il problema dei vostri dati con data inizio sintomi e mai uno stato clinico a conferma di questo» - è stato bersaglio di strali satirici. Si direbbe che l’integrazione semantica dei sistemi della Pa, di cui si parla da decenni, sia ancora a “carissimo amico”. Una cosa così importante come le regole di interpretazione dei dati epidemiologici nel corso di una pandemia, come si vede, è tutt’oggi affidata a comunicazioni informali e alla buona volontà dei singoli.
Nella lunga storia degli approcci all’integrazione dei dati pubblici, si possono notare molti tentativi di affrontare il problema a colpi di soluzionismo tecnologico. Tale, infatti, è pensare che l’integrazione possa essere ottenuta dai web services, dalle Api, dai data lake e oggi dalle cloud. Nessuna di queste cose, di per sé, è capace di garantire che diverse amministrazioni diano la stessa interpretazione dei dati che scambiano tra loro.
Erano i primi anni ’90 quando Nicola Guarino, ricercatore italiano, propose di inquadrare il problema semantico dei sistemi informativi in un layer detto “livello ontologico”. Questo ha lo scopo di specificare formalmente il “significato inteso” delle informazioni che si scambiano. In pratica, un’ontologia è uno schema concettuale condiviso che serve per produrre e consumare dati in modo coerente, anche sfruttando processi di ragionamento automatico. Di recente, la Pa si è dotata di un repertorio di ontologie, che però non sembra avere ancora un grosso ruolo.
L’incidente della Lombardia mostra come una seria governance del livello ontologico dei dati pubblici sia qualcosa di non ancora esistente e non più rimandabile. La combinazione di soluzionismo tecnologico e debolismo organizzativo che ha caratterizzato l’informatica pubblica negli ultimi decenni è ormai in una crisi conclamata. Da questa si può uscire in due modi: o affidando tutta l’integrazione a un sistema centralizzato, oppure governando opportunamente sistemi decentralizzati. Le sirene del cloud cantano nel primo modo, ma ci illudono: la semantica delle amministrazioni non piove dalle nuvole ma è sulla terra dei processi sociali. Non resta dunque che mettere mano a nuovi strumenti socio-tecnici di governo concettuale dei dati, anche rimodulando il regime delle autonomie locali.