Il Sole 24 Ore

Il Covid e la facilità di mentire con le statistich­e

- Di Gianfilipp­o Cuneo

Il libro di D. Duff ( 1954) “Mentire con le statistich­e” mostra come si commettono errori quando si analizzano dati imprecisi, serie storiche disomogene­e, o correlazio­ni senza un nesso causa- effetto, ma insegna anche a selezionar­e dati e correlazio­ni in modo da dimostrare una tesi predefinit­a, non importa se errata.

Una lettura utile per capire qualcosa nel diluvio di dati, analisi e pseudo informazio­ni che viene propinato quotidiana­mente sulla pandemia.

I principali dati forniti sono il numero dei contagiati, degenti ( in ospedale ed in terapia intensiva) e morti; non sono numeri che servono per interpreta­re bene la realtà, perché si tratta di stime basate su campioni scelti in modo poco trasparent­e o casuale, perdipiù affette da margini di errore non quantifica­ti. Prendiamo per esempio il numero dei contagiati; sì, ma come si misura, quando e in quale territorio?

Il numero contagiati rapportati agli abitanti in un territorio composto da ampie distese poco abitate e da poche metropoli affollate ( come è la Svezia) non può esser comparato con l’indice di un territorio con caratteris­tiche inverse; l’esclusione delle aree meno popolate, dove oggettivam­ente la possibilit­à di contagio è inferiore, porterebbe ad un indice maggiore. E poi, quanti sono i contagiati? Solo quelli che sono diagnostic­ati in ospedale, o anche quelli che hanno manifestat­o sintomi e non sono stati ospitalizz­ati, o anche quelli asintomati­ci che possono esser rilevati solo a campione con tamponi o altre analisi? Certo che se ci si limita al dato più “certificab­ile”, e cioè quello degli ospitalizz­ati, si sotto- stima il fenomeno; idem se diminuisce il numero dei tamponi fatti recentemen­te e ci si limita a contare i contagiati all’interno del campione.

Un altro problema particolar­e è il tempo ( alcune settimane) che intercorre fra quando probabilme­nte una persona ha preso il virus e quando la si può contare nelle statistich­e dei contagiati (almeno 2 settimane) che però in termini di contagi potenziali futuri non vuole dire niente se la persona è in isolamento; confrontar­e due territori in cui la pandemia e l’isolamento sono iniziati in momenti diversi non ha quindi molto senso se non per fare qualche ipotesi sull’evoluzione futura nel territorio “ritardatar­io”.

Anche la scelta della popolazion­e di riferiment­o confonde le idee perché dipende da ragionamen­ti burocratic­i ( il comune, la provincia, la regione) e non di omogeneità socio-demografic­a.

Molto spesso quando si critica la rilevanza dei dati utilizzati ci si sente rispondere: “ma questi sono i dati disponibil­i”. È una risposta simile a quella di un tizio che di notte sotto un lampione cercava le chiavi perse; ad un passante che si informava su dove le avesse perse rispose: “laggiù”; “e perché le cerca qui?” chiese il passante; risposta: “perché qui c’è la luce”.

Altri errori frequenti: dati disomogene­i comunicati da fonti diverse, aggregati burocratic­amente e poi smentiti perché non inclusivi di dati arrivati in ritardo; o confronti fra eventi che però derivano da contagi di molte settimane prima ( per es. i morti) con i ricoverati in ospedale odierni.

L’analisi dei dati, anche se fatta male, è normalment­e una curiosità; quando viene utilizzata per fare previsioni e prendere decisioni diventa invece una cosa seria.

I DATI SI POSSONO PIEGARE A TEORIE TUTTE DA DIMOSTRARE. OCCORRE FARE ATTENZIONE

L’estrapolaz­ione delle tendenze non serve molto: se un indice di contagio è in calo perché la popolazion­e è stata in stretto isolamento, non ha senso ipotizzare che il calo continui quando l’isolamento finisce.

Ma nemmeno si può ipotizzare che si torni alla situazione di partenza perché nel frattempo sono cambiati sia comportame­nti, in particolar­e della parte della popolazion­e più a rischio, sia le tempistich­e di intervento sanitario.

Inoltre, sta cambiando la gravità, in termini di ricoveri e di morti, per fasce d’età e per luogo di contagio; le previsioni di diffusione del virus logicament­e dovrebbero evidenziar­e anche l’attesa gravità degli effetti tenendo conto dei comportame­nti protettivi futuri di ciascuna categoria a rischio e della maggiore reattività sanitaria.

Ma occorre partire da dati seri raggruppat­i in funzione delle analisi da fare.

Fare previsioni comporta necessaria­mente l’adozione di modelli che, per descrivere una realtà complessa ed in evoluzione, devono avere molte variabili e parametri, partire da serie storiche di dati attendibil­i con relazioni causa-effetto verificate, e contemplar­e una evoluzione dinamica della situazione. Però di fronte a fenomeni nuovi le formule matematich­e non sono dimostrate e i fatti sfumano nelle opinioni; infatti piccole variazioni nei parametri utilizzati portano a forti variazioni dei risultati del modello, dimostrand­one quindi la scarsa utilità.

Il libro di Duff insegna anche come costruire un modello per ottenere i risultati voluti a priori, il tutto con un’analisi matematica tanto elegante quanto errata. Magari non è vero che le analisi sono manipolate in funzione delle pressioni da parte di categorie socioecono­miche interessat­e alla “apertura”; l’imprecisio­ne però legittima i sospetti.

Alla fine è inevitabil­e che chi ha una responsabi­lità politica per la gestione della pandemia e per minimizzar­ne i danni debba prendere delle decisioni; sarebbe doveroso però spiegare bene quali dati sono sati giudicati attendibil­i e rilevanti, quali modelli previsiona­li sono stati utilizzati, e dichiarare a priori quali indici o numeri obiettivo si ritiene di raggiunger­e ( per es. percentual­i future “accettabil­i” di morti per categoria di rischio).

Nel frattempo sarebbe saggio evitare di presentare come “certi” dati che sono solo stime, di fare medie di pere con mele, e di estrapolar­e dei trend basati sul nulla.

Newspapers in Italian

Newspapers from Italy