Corriere del Mezzogiorno (Campania)
Infodemia da Covid 19
Parla Carlo Lauro, esperto di dati: noi, travolti dalle notizie
Un diluvio di dati e di informazioni, spesso non accurati, si è diffuso parallelamente al Covid-19. Se c’è qualcuno, a Napoli, che di dati se ne intende, per aiutarci a leggere meglio il fenomeno, quello è Carlo Lauro, presidente dell’Associazione dei professori emeriti della Federico Il, già presidente dell’International Association for Statistical Computing.
Professore Lauro, sono serviti i numeri e la statistica contro il Covid 19?
«Benjamin Disraeli affermava: ”Ci sono tre modi di mentire le bugie, le menzogne e le statistiche”. Questa affermazione torna oggi di grande attualità poiché tutti dai giornalisti ai matematici, dagli informatici ai data enginneer, ma anche gli statistici si sentono autorizzati a manipolare i dati del Covid-19 senza avere alcuna competenza propria del dominio dell’epidemiologia. Né tanto meno gli stessi epidemiologi hanno strumenti adeguati per affrontare un fenomeno come l’attuale pandemia caratterizzata da alta contagiosità e rapidità di diffusione ma soprattutto da dati di bassa qualità. Si tratta a ben vedere di un fenomeno che per essere trattato adeguatamente richiede un approccio “interdisciplinare” come quello del cosiddetto “scienziato dei dati”, identificato per la professione più sexy e meglio retribuita degli ultimi anni.
I dati non sono semplicemente numeri anonimi. La scienza dei dati sviluppa e/o adotta metodologie appropriate ai fini della traduzione dei dati in informazione utile alla estrazione della conoscenza fondamentale per finalità previsionali e di supporto nei processi decisionali».
Giustamente lei dice che ci siamo sentiti tutti in diritto di leggere i dati durante questi ultimi mesi. Quali gli errori più frequenti?
«La celebre frase di George Fuechsel “Garbage in, garbage out” sintetizza in modo efficace i rischi che derivano dall’uso di dati e informazioni di cattiva qualità non solo nella comunicazione dei risultati delle analisi ma anche nelle conseguenti decisioni. Non saranno elaborazioni smart o sofisticati modelli a restituire qualità a dati e informazioni che ne sono privi.
Al fine di parlare di qualità dei dati e dell’informazione vale la pena sottolineare la differenza tra questi due concetti spesso utilizzati come sinonimi nel linguaggio comune e nei media. I dati sono rappresentazioni originarie, cioè non interpretate, di un fenomeno, evento, o fatto, effettuate attraverso numeri, categorie, simboli, testi, immagini o loro combinazioni legate a un qualsiasi supporto. L’informazione deriva da un dato, o più verosimilmente da un insieme di dati, che sono stati sottoposti a un processo di elaborazione o interpretazione che li ha resi significativi per il destinatario. Un dato acquista valore di informazione solo se posto in relazione ad un contesto. La qualità dei dati e dell’informazione statistica è ormai un obiettivo primario per le agenzie nazionali di statistica, non altrettanto oggi si può dire per i dati amministrativi, tra cui vanno inquadrati quelli del Covid-19, sia i cosiddetti big data derivabili da app e sensori, e per gli open data per il cui utilizzo si insiste molto anche in tale contesto.
I dati del Covid-19, la cui raccolta è demandata ai soggetti più disparati che vanno dai medici di base a quelli ospedalieri, dalle istituzioni territoriali, alla protezione civile, all’Istituto superiore di Sanità. Soggetti che spesso senza definizioni o procedure condivise. Di questo processo di raccolta e aggregazione dei dati non fa parte l’Istat. Le problematiche che si sono manifestate in questi dati derivano dalla mancanza di una definizione precisa dei fenomeni di interesse (esempio: morti da o per coronavirus; i morti registrati dipendono solo da quelli positivi al tampone e non si ha traccia degli asintomatici; il dato dei guariti include impropriamente quello dei dimessi non necessariamente guariti; i record dei data base non contengono riferimenti alla data dell’accertamento della positività ma a quella del risultato del tampone per cui manca il criterio della pertinenza; i dati territoriali dipendono dalla diffusione dei tamponi non necessariamente da una diversa incidenza dell’epidemia etc).
La qualità dei dati del Covid-19 dovrebbe riguardare oltre l’aderenza a definizioni condivise, anche la valutazione delle seguenti caratteristiche: completezza, accuratezza, tempestività, comprensibilità, oggettività. Simili dimensioni dovrebbero valere anche per la qualità delle informazioni cui va aggiunta il requisito del soddisfacimento delle finalità operative degli utilizzatori e degli amministratori. Di fatto i dati sul Covid- 19, pur con le loro carenze possono assolvere al compito richiesto dall’Oms di descrivere e controllare l’andamento generale dell’ epidemia non di certo per scopi di ricerca scientifica e di supporto alle decisioni, che si basano sulla costruzione di accurati modelli esplicativi e previsivi . Si pensi allo sterile dibattito sulla misura dell’indice Rt e sulla data di raggiungimento del picco».
La discussione che precede ha riguardato i processi di produzione dei dati e dell’informazione statistica mentre rimangono aperti i problemi della loro comunicazione e migliore fruizione. Cosa suggerisce in proposito?
«Sicuramente la capacità di comunicazione dati e informazioni in modo chiaro e rigoroso costituisce un grosso limite dei media del nostro Paese. Scuole del cosiddetto Data Journalism, oggi fruibili anche online, potrebbero di fatto essere di grande aiuto a ridurre questo gap. Allo stesso tempo un Osservatorio sulla Comunicazione di dati e informazioni statistiche, una sorta di Garante della Comunicazione quantitativa, potrebbe assumere questo compito riducendo il rischio di comunicazioni inadeguate, se non ingannevoli. Non meno problematica infine è la capacità dei lettori a comprendere anche semplici tabelle e grafici per le note carenze e avversioni verso il mondo di numeri. Le Società scientifiche di Statistica potrebbero dedicarsi alla produzione di brevi video o testi introduttivi a concetti di base della statistica da diffondere su YouTube o attraverso la stampa con lo scopo di accrescere l’alfabetizzazione statistica dei nostri cittadini».
In relazione alla fase 2 dell’epidemia da Covid-19 in Italia si sono approntati due nuovi strumenti per la raccolta dei dati: l’Indagine dell’Istat in collaborazione con la Croce rossa su un campione rappresentativo di 150.0.00 italiani e l’App Immuni. Saranno sufficienti questi strumenti per affrontare una eventuale seconda ondata del Covid-19?
«Sicuramente sì, ne avevo già parlato a febbraio e marzo in miei post su Linkedin. La prima risponde all’acquisizione di dati fondamentali per la ricerca scientifica relativi ad una effettiva diffusione dei contagi e ad una stima degli asintomatici. Quanto alla seconda, sebbene riguardi una adesione di un numero elevato di cittadini (60%) per essere significativa sul piano nazionale, essa si può rivelare di grande aiuto per contrastare gli effetti dell’insorgenza di eventuali nuovi focolai sul piano locale.
Si tratta a ben vedere di due interventi un pò tardivi, la cui disponibilità nella prima fase dell’epidemia, si sarebbe rilevata più utile come è avvenuto, specie per il secondo, in Cina e Corea del Sud.
Come si dice a Napoli: “dopo che hanno rubato a Santa Chiara misero le porte di ferro”».
Tutti si sono sentiti liberi di manipolare i numeri, anche senza averne le dirette competenze
” Come si dice a Napoli: dopo che hanno rubato a Santa Chiara misero le porte di ferro