Facilmente riproducibile e trasparente: il Data Journalism di Correct!v

Foto: Bartolomeo Eugenio Rossi
Foto: Valeria De Rose

Due anni fa Brian Keegan, research associate presso la Harvard Business School, affermava la necessità per il Data Journalism di cambiare il proprio approccio all’analisi dei dati. Lo studioso americano aveva replicato un esperimento, partendo dai dati utilizzati da Walt Hickey in un articolo su FiveThirtyEight, secondo cui i film che passavano il test di Bechdel facevano guadagnare più soldi ai propri produttori. Secondo Keegan la storia partiva da “buone domande, modelli statistici ambigui, inferenze sbagliate e eccitanti opportunità di andare avanti nella ricerca”. Nel giornalismo che si occupa di analisi scientifica, Keegan affermava l’importanza di un approccio open source per evitare i tranelli che offre la ricerca statistica così come era utilizzata all’epoca.

Un atteggiamento simile è quello di Stefan Wehrmeyer, data journalist del gruppo tedesco Correct!v e ospite della decima edizione del Festival Internazionale del Giornalismo. Wehrmeyer non ha una formazione giornalistica in senso stretto: nasce come sviluppatore di software, si occupa di open data dal 2009 (tra le altre cose ha fondato un sito per chiedere conto all’amministrazione statale del proprio operato) prima di iniziare ad aiutare l’associazione tedesca di giornalismo non-profit a raccontare storie grazie all’analisi dei dati. Il modo in cui l’analisi viene svolta è ciò che interessa di più al tedesco, che spiega come lo stesso data set possa essere utilizzato per raccontare due storie totalmente diverse: è sufficiente che chi lo utilizzi impieghi due metodologie differenti per arrivare conseguentemente a risultati non compatibili.

“I dati sono visti come verità” spiega Wehrmeyer “ma la verità numerica viene presa come incontestabile da chi legge. Che quindi si limita ad accettarla senza metterla in discussione o comprenderla”. Il procedimento può creare problemi: credere ai dati non vuol dire né capirli né realizzare gli effetti del processo di manipolazione svolto per arrivare a quei risultati numerici. Secondo l’ospite, la vera comprensione di un risultato statistico si ha solo quando chi lo legge ne capisce il significato. Per questo i principi del Data Journalism devono essere trasparenza e riproducibilità.

La trasparenza è fondamentale perché permette a tutti di verificare la solidità di una storia. Spesso i database sono immensi: è impossibile controllare ogni singolo dato in ogni singola fila di un foglio Excel. Allora se il giornalista mette a disposizione dei colleghi quanto sta facendo può ottenere nuovi pareri e può, eventualmente, migliorare la ricerca. Renderla disponibile a tutti è il modo migliore per dimostrare la propria buona fede.

Oltre alla trasparenza il Data Journalism deve avere un’altra caratteristica: essere riproducibile. Secondo la filosofia che muove Correct!v, al lettore devono essere offerti i dati e gli strumenti per capire quale manipolazione si farà su di essi. Wehrmeyer paragona il processo a insegnare a qualcuno a fare il giocoliere: gli verranno dati i birilli e indicato come farli roteare in aria. Tuttavia anche in questo caso la riproducibilità porta a rischi: essere molto aperti significa che qualcuno potrebbe rubare il proprio lavoro. Allora bisogna risolvere il problema mettendo a disposizione quello che si sta facendo sin dall’inizio, in maniera da creare un lavoro collettivo.

Wehrmeyer indica i fondamenti dell’applicazione di questi due principi: descrivere i propri risultati e la metodologia utilizzata, offrire i dati e una metodologia “machine readable” (che il computer può comprendere) e infine offrire un procedimento pronto al computer che permetta ai lettori di svolgere a sua volta le manipolazioni dei dati. Obiettivo questo di lungo termine a cui Correct!v sta lavorando per i membri a pagamento della propria comunità.

Dopo le spiegazioni teoriche il giornalista, che è anche membro del direttivo di Open Knowledge Germania, ha proceduto a mostrare alcuni strumenti pratici per applicare la filosofia spiegata in precedenza. Il primo strumento è Google Refine, utile per fare operazioni semplici come lavorare sui file, fare e rifare piccoli procedimenti sui dati oppure estrarre l’intero data set. Qualora si voglia uno strumento più avanzato, si possono provare i Jupiter Notebooks: un’applicazione web, largamente utilizzata dalla comunità scientifica, che permette “di creare e condividere documenti che contengono codice ‘vivo’, equazioni, grafici e spiegazioni”. Questo strumento, di cui Wehrmeyer mostra le potenzialità, permette di tenere traccia delle manipolazioni svolte sui dati creando un “quaderno” – un notebook, appunto – aggiornabile e modificabile. In questo modo non bisogna svolgere ogni volta tutto il procedimento ma si può diversificare e cambiare ogni singolo aspetto del processo di analisi.

“Quello che preferisco (di questo tipo di giornalismo ndr) non sono solo i benefici che si possono ottenere” sostiene l’ospite “ma che si può imparare dagli altri”. I dati possono già essere a disposizione di tutti ma possono essere manipolati sempre di più e sempre più persone ci possono lavorare e ottenere nuovi risultati e nuove inchieste giornalistiche. Il relatore conclude spiegando che l’ambiente del Data Journalism è ancora in crescita. La competizione è relativa e, quindi, quello che conta non è battere la concorrenza: “al primo posto ci sono le storie”.