I dati ufficiali della pandemia COVID-19 dal Dipartimento della Protezione Civile alla gente, per dare una rappresentazione efficace degli andamenti nel tempo delle diverse grandezze a livello nazionale e regionale in Italia. L’autore è Franco Mossotto che ha sviluppato il sito accessibile senza bisogno di iscrizioni o password all’indirizzo http://bit.ly/covid19it in quanto il suo scopo è unicamente informativo.
Franco Mossotto, Ingegnere, Sr. Software Architect in HCL Technologies, responsabile dello sviluppo dei prodotti IBM/HCL Workload Automation spiega a Media Duemila cosa lo ha spinto a creare questo sito e perché lo ha fatto.
Franco Mossotto per 18 anni ha lavorato su prodotti di automazione e provisioning nel laboratorio IBM di sviluppo software di Roma, in particolare allo sviluppo, supporto, disegno e all’architettura delle offerte SaaS.
In seguito alla partnership tra IBM ed HCL nel 2016, Franco Mossotto oggi lavora nel nuovo laboratorio software di HCL Technologies a Roma, dove ricopre il ruolo di Lead Architect della famiglia di prodotti di Workload Automation, e tra le altre cose Franco Mossotto si occupa dell’adozione di tecnologie di machine learning per incrementare le potenzialità del prodotto.
http://bit.ly/covid19it: nascita ed evoluzione Covid-19
Lei ha sviluppato il sito (http://bit.ly/covid19it) in cui raccoglie e tratta con logica Big Data tutti i numeri giornalieri con cui l’Italia racconta l’epidemia. Quale è il motivo principale per cui l’ha fatto?
Personalmente penso che l’analisi dei dati sia essenziale per riuscire a capire i fenomeni che ci circondano.
Quando c’è stato il paziente #1 di Codogno ho iniziato a raccogliere giornalmente i dati e a visualizzarli per farmi un’idea di come la situazione stesse evolvendo e discuterne con i colleghi. È quindi iniziata come un’esigenza personale.
Non appena la Protezione Civile ha iniziato a pubblicare i dati su GitHub come open data è stato possibile fare il passo successivo, automatizzando la raccolta dei dati stessi e rendendone la lettura fruibile da tutti.
Grazie al supporto della mia azienda, HCL Technologies, ho avuto la possibilità di usare il software che sviluppo, HCL Workload Automation, ed alcune risorse aziendali per automatizzare il processo di elaborazione e caricamento, in modo da rendere disponibili i dati sulla dashboard pochi minuti dopo la loro pubblicazione. Qui abbiamo spiegato come: http://bit.ly/covid19it-blog
In questo modo, anche chi non aveva le capacità tecniche poteva farsi una sua idea, andando un po’ oltre quello che viene quotidianamente comunicato nella conferenza stampa di Borrelli. Chiaramente nel limite delle nostre capacità: non siamo epidemiologi e dobbiamo continuare a fidarci degli esperti, ma da quei dati cerchiamo di capire anche perché le misure adottate siano importanti e se stiano funzionando.
La mia collega Emanuela Zaccone ne ha visto subito il valore e mi è stata molto utile a diffondere la mia dashboard sui social network ed altri canali. Abbiamo raggiunto picchi di oltre 17.000 visite al giorno, con punte di oltre 3000 persone che dopo le 18 tornano quotidianamente a vedere gli aggiornamenti.
Più persone quindi riusciamo a raggiungere, più il nostro lavoro è stato utile, e magari aiutiamo anche qualcuno ad immunizzarsi dalle fake News.
Non solo, sono numerosi i contatti anche dall’estero: con il diffondersi della pandemia c’è molta preoccupazione negli altri paesi e l’Italia è un esempio concreto degli effetti dell’adozione di certe misure.
#Coronavirus e #BigData
L’emergenza #Coronavirus ha portato una grande attenzione ai numeri, e tutti scrutano i bollettini quotidiani alla ricerca di segnali di speranza. Da un punto di vista di un esperto di Big Data, quali sono le tecniche più indicate per poter estrarre informazioni reali e utili dalla marea dei dati che ogni giorno ci travolge?
Non mi definirei esattamente un esperto, la mia professione è quella di disegnare e sviluppare prodotti software nel ruolo di Sr. Software Architect, con un po’ di conoscenze sparse in altri domini come BigData, Data Science e Machine Learning.
L’elemento principale che sta caratterizzando queste settimane è soprattutto la disponibilità di dati di qualità.
Sulla disponibilità il nostro paese si sta comportando molto bene, la Protezione Civile ha deciso di fornire giornalmente molti dati, inclusi il numero di test e le persone ospedalizzate o in terapia intensiva.
Abbiamo ricevuto parecchie richieste sia da colleghi che attraverso i social, di estendere la dashboard ad altre nazioni, ma la raccolta dei dati è molto più complessa e stiamo cercando collaborazioni che la rendano possibile.
Inoltre, la Protezione Civile ha deciso di pubblicare tutte le informazioni come open data, un approccio molto innovativo e da quello che vedo unico al mondo. La pubblicazione è curata da Umberto Rosini della Protezione Civile che la sta gestendo molto bene, lo ringrazio.
Questo è stato essenziale per riuscire a fornire informazioni attendibili e tempestive.
Una volta che si hanno i dati bisogna iniziare a capirli, usarli e ad elaborarli, incrociarli con altri dataset, come ad esempio i dati demografici, utilizzando strumenti dei data scientist ed infine tool di data warehousing per permettere grafici interattivi dove ogni utente può approfondire e navigare i dati che ritiene più interessanti.
Essendo un progetto nato nel tempo libero ho scelto strumenti disponibili gratuitamente, quindi python (e pandas) per studiare, elaborare e incrociare i dati, e Google Data Studio per la visualizzazione per l’utente finale.
Infine, l’automazione del processo è fondamentale per potersi concentrare sul valore dei dati e non sui task manuali e allo stesso tempo garantire tempestività. A partire dalle 18 ci sono ogni giorno circa 600 persone ad aspettare contemporaneamente che i dati siano aggiornati.
Informazione ai tempi del Covid-19
Perché i giornalisti possano fare bene il loro mestiere di informatori corretti e imparziali anche affrontando temi “data intensive” come questo, quali sono le capacità tecnico-scientifiche richieste? E’ necessario o utile introdurre nuove figure nella filiera dell’informazione quando si affrontano temi partendo da grandi quantità di dati?
Apprezzo molto le testate giornalistiche che si sforzano di comprendere e spiegare la realtà che ci circonda, e non si limitano a riportare commenti. L’analisi dei dati è sicuramente uno strumento essenziale in molti contesti, non solo in quello che stiamo vivendo adesso.
Ci sono testate che già lo fanno e che apprezzo, come Il Post, YouTrend e il Sole 24 ore, che anche in questa fase difficile stanno facendo un ottimo lavoro per rappresentare i dati, porsi domande e spiegare cosa succede.
Di solito si parte da dati già aggregati, quindi i volumi sono facilmente gestibili, per cui il profilo più utile è quello del Data Scientist che unendo conoscenze matematiche, statistiche ed informatiche può estrarre nuove informazioni dai dati.
In generale sarebbe utile una maggiore cultura scientifica all’interno dei giornali, perché al di là delle informazioni che si possono dedurre dai dati, queste informazioni vanno interpretate e filtrate in modo critico, altrimenti, come diceva Gregg Easterbrook, “Se torturi i numeri abbastanza a lungo, confesseranno qualsiasi cosa”.
Capisco che una certa familiarità con i Big Data sia importante per analizzare e interpretare i dati sull’epidemia. Proprio partendo dal suo sito, può farci qualche esempio di informazioni che emergono grazie a questo approccio, che in sua assenza sarebbero rimaste “affogate” nelle tabelle dei dati quotidiani?
Come ben evidenziato anche in alcuni articoli su Il Post, c’è un problema di fondo nei dati che ci affrettiamo a verificare tutti i giorni alle 18, misurano solo quello che conosciamo.
Il grosso della comunicazione è incentrato sul numero di persone infette, di casi attivi, decessi di persone positive al coronavirus, tutti dati influenzati dalla capacità di eseguire sufficienti test.
Fermo restando che il problema urgente è il numero di persone ricoverate in terapia intensiva o sub-intensiva, se vogliamo capire se il lockdown sta funzionando e quando l’epidemia sarà arginata è fondamentale capire se il numero dei casi è attendibile o meno, e in sua assenza cosa possiamo monitorare.
Le regioni seguono tutte le stesse linee guida, ma poiché le risorse sono limitate, i test non sono eseguiti esattamente con gli stessi criteri in tutte le regioni, e ancor meno da nazione a nazione, rendendo molto difficile confrontare i dati.
Ci sono regioni come il Veneto che hanno fatto molti test ed hanno una percentuale relativamente bassa di test positivi, e regioni come la Lombardia che in proporzione fanno meno test ed hanno percentuali molto più alte di positività.
D’altra parte, il tasso di letalità in Italia è del 10% contro il 4% della Cina o lo 0,6% della Germania.
https://twitter.com/abledoc/status/1241427163657539584?s=20
Dopo uno scambio su Twitter, partendo da questa osservazione e dai miei dati sulle regioni italiane, il prof Dr Able Lawrence, infettivologo indiano, ha mostrato come ci sia una correlazione diretta tra tasso di letalità e percentuale di test positivi, ad indicare che la causa per la diversa letalità vada ricercata non tanto nella popolazione più anziana o altre condizioni nazionali, quanto un gran numero di casi poco gravi che ci sta sfuggendo e che non contiamo nelle statistiche. E come sappiamo dalle cronache di Bergamo, molto probabilmente non riusciamo a contare neanche i decessi legati al Coronavirus.
La situazione è quindi molto più complessa di quanto vorremmo, e non basta vedere gli indicatori principali dei casi, ma bisogna analizzare le singole regioni individualmente e tenere sotto controllo il tasso di positività dei test. Fintanto che quest’ultimo resta alto, il numero di casi è poco indicativo ed il focolaio non è arginato; quando tornerà a scendere potremo tornare a concentrarci sul numero di casi.