1. Introduzione

Conosci esattamente quanta parte delle tue tasse è destinata all’illuminazione stradale o alla ricerca contro il cancro? Qual’è l’itinerario più breve, sicuro e panoramico per raggiungere in bici il tuo ufficio da casa? E cosa c’è nell’aria che respiri durante il tragitto? Dove troverai le migliori opportunità di lavoro nella tua regione, e dove il maggior numero di alberi da frutta pro-capite? Quand’è che puoi influenzare attivamente le decisioni sui temi che ti stanno più a cuore e con chi dovresti parlarne?

Le nuove tecnologie permettono di creare servizi per rispondere automaticamente a queste domande. Molti dei dati necessari a rispondere a queste questioni sono in effetti prodotti da organismi pubblici. Tuttavia spesso tali dati non sono disponibili in formati che li rendano facili da manipolare. Questo manuale vuole proporre una via per estrarre il potenziale dei dati ufficiali e di altre informazioni e rendere così possibili nuovi servizi, migliorare la vita dei cittadini e far funzionare più efficientemente governi e società.

La nozione di dati aperti – open data, e più specificatamente dati aperti del settore pubblico – open government data, intesa come informazione, pubblica o no, accessibile e riutilizzabile da chiunque e per qualunque fine, è utilizzata da diversi anni. L’uso comune del concetto inizia nel 2009, quando diversi governi (come gli Stati Uniti d’America, il Regno Unito, il Canada e la Nuova Zelanda) hanno annunciato nuove iniziative per l’apertura della loro informazione pubblica.

Il presente manuale intende spiegare i concetti di base degli ‘open data’, specialmente in relazione ai governi. Si propone di illustrare come i dati aperti possono creare valore e avere un impatto positivo in molte aree. Oltre alle informazioni di base, il manuale fornisce istruzioni pratiche su come produrre dati aperti.

2. Perché dati aperti (open data)?

Gli Open data, e in particolare gli open government data, sono una immensa risorsa ancora in gran parte inutilizzata. Molte persone e molte organizzazioni raccolgono, per svolgere i loro compiti, una vasta gamma di dati diversi. Quello che fa il Governo è particolarmente importante in questo senso, non solo per la quantità e centralità dei dati raccolti, ma anche perché la maggior parte dei dati governativi sono pubblici per legge, e quindi dovrebbero essere resi aperti e disponibili all’uso per chiunque. Perché questo ci interessa?

Ci sono molte circostanze in cui possiamo attenderci che i dati aperti abbiano un valore rilevante e molti esempi in cui questo già accade. Ci sono anche numerose categorie di soggetti e organizzazioni che possono trarre beneficio dalla disponibilità di dati aperti, inclusa la pubblica amministrazione. Allo stesso tempo non è possibile predire come e dove sarà creato valore. La caratteristica dell’innovazione e delle novità è di arrivare da luoghi inaspettati.

È già possibile indicare un vasto numero di aree dove i dati pubblici aperti stanno creando valore. Tra di esse:

Trasparenza e controllo democratico;
Partecipazione;
accrescimento della propria influenza nella discussione pubblica;
miglioramento o creazione di prodotti e servizi privati;
Innovazione;
Miglioramento dell’efficienza dei servizi pubblici;
Miglioramento dell’efficacia dei servizi pubblici;
Misurazione dell’impatto delle politiche pubbliche;
Estrazione di nuova conoscenza dalla combinazione di diverse fonti di dati e dall’identificazione di regolarità che emergono dall’analisi di grandi masse di dati

Esistono già esempi per la maggior parte di queste aree.

Nell’ambito della trasparenza, progetti come il Finlandese ‘tax tree’ (l’albero delle tasse) e il Britannico ‘where does my money go’ (dove vanno i miei soldi) permettono di identificare come i soldi delle tasse dei cittadini sono impiegati dal governo. In Canada i dati aperti hanno fatto risparmiare 3.2 miliardi di dollari in un caso di frode fiscale legato alla beneficenza. Molti siti, tra cui il Danese Folketsting.dk e l’italiano Openparlamento.it, tracciano le attività dei parlamenti e il processo di formazione delle leggi, in modo da mostrare cosa succede esattamente e quali parlamentari sono coinvolti nelle varie attività.

I dati aperti governativi possono inoltre aiutare a prendere decisioni migliori nella nostra vita privata, o renderci più attivi nell’ambito della società civile. In Danimarca, una sviluppatrice ha creato Findtoilet.dk che permette di accedere alla lista di tutti i bagni pubblici del paese, così anche chi soffre di problemi di incontinenza ora si sente più rassicurato dovendo uscire di casa. In Olanda il servizio Vervuilingsalarm.nl ti avvisa quando la qualità dell’aria del tuo quartiere raggiunge una soglia critica da te definita. A New York puoi facilmente capire dove puoi portare a spasso il tuo cane, così come trovare altre persone che usano il tuo stesso parco. Servizi come ‘Mapumental’ nel Regno Unito e ‘Mapnificent’ in Germania ci fanno capire dove possiamo andare ad abitare impostando i tempi massimi di percorrenza casa/ufficio, i prezzi delle case e la bellezza del quartiere. Tutti questi esempi utilizzano dati aperti rilasciati dai governi.

Anche dal punto di vista economico i dati aperti hanno un’enorme importanza. Svariati studi hanno stimato il valore economico dei dati aperti in diverse decine di miliardi di euro ogni anno, nella sola Europa. Nuovi prodotti e nuove aziende stanno ri-usando dati aperti. Il sito danese Husetsweb.dk aiuta a trovare i modi migliori di risparmiare energia elettrica in casa, inclusa la pianificazione finanziaria e la possibilità di contattare gli artigiani che potranno eseguire il lavoro. Funziona grazie al riutilizzo di dati catastali, a informazioni sugli incentivi governativi e al registro delle imprese locali. Google Translate usa l’enorme volume di documenti dell’Unione Europea, disponibili in tutte le lingue d’Europa, per allenare gli algoritmi di traduzione automatica, aumentando la precisione del servizio offerto.

Anche per il governo stesso i dati aperti hanno un grande valore. Per esempio, possono aumentare l’efficienza. Il Ministero olandese dell’Istruzione ha pubblicato on-line tutti i dati relativi al sistema educativo consentendone il ri-uso. Da allora il numero di domande ricevute è sceso, riducendo il carico di lavoro e i costi, e anche per i dipendenti pubblici è ora più facile rispondere alle domande residue, perché ora è chiaro dove possono essere trovati i dati che servono per rispondere. I dati aperti rendono anche il governo più efficace, il che in ultima analisi riduce anche i costi. Il dipartimento olandese per il patrimonio culturale sta attivamente rilasciando i propri dati e sta collaborando con le società amatoriali di storici e con gruppi come la Wikimedia Foundation per eseguire i propri compiti in modo più efficace. Ciò si traduce non solo in un miglioramento della qualità dei dati, ma anche in una riduzione delle dimensioni del dipartimento.

Mentre ci sono numerosi esempi in cui i dati aperti stanno già creando vantaggi economici e sociali, ancora non sappiamo quali nuovi utilizzi saranno possibili in futuro. Nuove combinazioni di dati possono creare nuova conoscenza e nuove intuizioni, che possono portare a campi di applicazione inimmaginabili. Abbiamo visto nel passato, ad esempio, quando il dottor Snow scoprì la correlazione tra l’inquinamento dell’acqua potabile e il colera nella Londra dell’800, combinando i dati sui morti per colera con quelli sull’ubicazione dei pozzi. Il fatto portò alla costruzione del sistema fognario a Londra, migliorando di molto le condizioni generali di salute della popolazione. Probabilmente vedremo di nuovo nascere intuizioni simili dalla combinazione di insiemi diversi di dati aperti.

Questo potenziale non sfruttato può essere utilizzato se facciamo diventare dati aperti i dati delle amministrazioni pubbliche. Questo accade solo, tuttavia, se l’apertura è completa, cioè se non ci sono limitazioni (giuridiche, finanziarie o tecnologiche) al riutilizzo da parte di altri. Ogni restrizione impedirà a qualcuno di ri-utilizzare i dati pubblici, e renderà più difficile il trovare altri modi preziosi di farlo. Perché il potenziale si realizzi, i dati pubblici devono essere aperti.

3. Cosa sono i dati aperti (open data)?

Ma cosa sono questi open data di cui si occupa questo manuale? In particolare, cos’è che rende aperti i dati e di quale tipo di dati stiamo parlando?

Il presente manuale si occupa dei dati aperti, ma cosa sono esattamente i dati aperti? Per i nostri fini i dati aperti sono quelli che rientrano nella Open Definition:

I dati aperti sono dati che possono essere liberamente utilizzati, riutilizzati e ridistribuiti da chiunque, soggetti eventualmente alla necessità di citarne la fonte e di condividerli con lo stesso tipo di licenza con cui sono stati originariamente rilasciati.

La full Open Definition spiega nei dettagli cosa questo significhi. Gli aspetti più importanti sono:

Disponibilità e accesso: i dati devono essere disponibili nel loro complesso, per un prezzo non superiore ad un ragionevole costo di riproduzione, preferibilmente mediante scaricamento da Internet. I dati devono essere disponibili in un formato utile e modificabile.
Riutilizzo e ridistribuzione: i dati devono essere forniti a condizioni tali da permetterne il riutilizzo e la ridistribuzione. Ciò comprende la possibilità di combinarli con altre basi di dati.
Partecipazione universale: tutti devono essere in grado di usare, riutilizzare e ridistribuire i dati. Non ci devono essere discriminazioni né di ambito di iniziativa né contro soggetti o gruppi. Ad esempio, la clausola ‘non commerciale’, che vieta l’uso a fini commerciali o restringe l’utilizzo solo per determinati scopi (es. quello educativo) non è ammessa.

La ragione fondamentale per cui è importante chiarire il significato di “aperto” e del perché utilizzare proprio questa definizione, può essere identificata in un termine: interoperabilità.

L’interoperabilità è la capacità di diversi sistemi e organizzazioni di lavorare insieme (Inter-operare). In questo caso, è la capacità di combinare una base di dati con altre.

L’interoperabilità è importante perché permette a componenti diverse di lavorare insieme. L’abilità di rendere ciascun dato un componente e di combinare insieme vari componenti è essenziale per la costruzione di sistemi sofisticati. In assenza di interoperabilità ciò diventa quasi impossibile – come nel mito della Torre di Babele, in cui l’impossibilità di comunicare (e quindi di Inter-operare) dà luogo a un fallimento sistemico della costruzione della torre.

Nel caso dei dati ci troviamo in una situazione simile. Il punto cruciale di un bacino di dati (o linee di codice) accessibili e utilizzabili in modo condiviso è il fatto che potenzialmente possono essere liberamente “mescolati” con dati provenienti da fonti anch’esse aperte. L’interoperabilità è la chiave per realizzare il principale vantaggio pratico dell’apertura: aumenta in modo esponenziale la possibilità di combinare diverse basi di dati, e quindi sviluppare nuovi e migliori prodotti e servizi (questo tipo di vantaggi sono esaminati in dettaglio nella sezione sul ‘perché’ fare open data)

Fornire una chiara definizione di apertura assicura che sia possibile combinare dataset aperti provenienti da fonti diverse, evitando una nostra “Torre di Babele”: molti dataset, ma senza la possibilità di combinarli insieme in sistemi più ampi, dove si trova il vero valore dell’operazione.

Abbiamo già visto esempi di dati che sono stati o che possono diventare aperti, e altri ne incontreremo in seguito. È comunque utile delineare per sommi capi quali tipi di dati sono aperti, o potrebbero diventarlo e, cosa altrettanto importante, quali non sono adatti per essere aperti.

La questione centrale è che nel momento si decida di rilasciare dati in formato aperto, ci si concentri su dati non personali, quelli cioè che non contengono informazioni su singoli individui.

Allo stesso modo altre categorie di dati pubblici non possono essere aperte per ragioni di sicurezza nazionale.

4. Come aprire i dati

Questa sezione costituisce il nucleo centrale del manuale: fornisce consigli concreti e dettagliati ai detentori di dati che intendano aprirli. Sono esaminate le questioni fondamentali e i principali rischi. Saranno infine discusse anche le problematiche più complesse che si possono presentare.

Ci sono tre regole fondamentali che si consiglia di seguire nell’apertura dei dati:

Scegliere la semplicità. Cominciare con un progetto piccolo, semplice e veloce. Non è necessario aprire tutti i dati in una sola volta. Inizialmente va bene aprire anche un solo dataset, o anche una sua parte – naturalmente, più dati si aprono, meglio è.
Da ricordare che è innovazione. Muoversi il più in fretta possibile è bene, perché significa prendere slancio e imparare dall’esperienza – innovare comporta successi ed errori, e non tutte le banche dati saranno utili.
Coinvolgere gli utenti fin dall’inizio e coinvolgerli spesso. Cercare presto e spesso il confronto con i potenziali utilizzatori dei dati fra cittadini, imprese o sviluppatori Ciò aumenterà la rilevanza dell’iniziativa durante tutto il suo percorso.

È essenziale tenere presente che gran parte dei dati non raggiungeranno gli utenti finali direttamente, ma tramite ‘info-intermediari’. Queste sono le persone che prendono i dati e li trasformano o li remixano per la presentazione. Ad esempio, la maggior parte di noi non vuole o non ha bisogno di un grande database di coordinate GPS, preferiamo decisamente una mappa. Così coinvolgete da subito gli info-intermediari, in modo che essi possano riutilizzare e riadattare i vostri dati.

Affrontare i timori e le incomprensioni diffuse. Questo è importante soprattutto se lavori in o con grandi organizzazioni come le istituzioni governative. Nell’aprire i dati sorgeranno molte domande e timori. È importante (a) identificare le più rilevanti, e (b) darvi una risposta il più presto possibile.

Ci sono quattro passi principali per rendere i dati aperti, saranno tutte affrontate in dettaglio di seguito. Le abbiamo elencate in un ordine molto approssimativo – molti passi possono essere fatti contemporaneamente.

Scegliere i dataset. Scegliere ciò che si intende rendere aperto, ricordando che si può (ovvero potrebbe essere necessario), rivedere questo passaggio se si incontrano problemi nelle fasi successive.
Utilizzare una licenza open. Determinare quali sono i diritti di proprietà intellettuale che insistono sui dati e applicare una adeguata licenza ‘open’ che copra tutti i diritti identificati, compatibile con la definizione di apertura discussa nella precedente sezione ‘Cosa è Open Data’. Nota: se ciò non è possibile, si ritorni al punto 1 e riprovare con una banca dati diversa.
Rendere i dati disponibili, in gran quantità e in un formato utile. Si possono prendere in considerazione anche metodi alternativi come la distribuzione attraverso API.
Pubblicare il tutto sul web e possibilmente organizzare un catalogo centrale dove elencare l’insieme dei dati aperti.

4.1. Scegliere le banche dati

La scelta dei dati che si prevede di rendere aperti è il primo passo da compiere – anche se è bene ricordare che l’intero processo di apertura dei dati è iterativo e pertanto rimane possibile tornare indietro qualora si presentino problemi.

Se si ha già esattamente un’idea di quali dati si prevede di aprire si può passare direttamente alla sezione successiva. In molti casi, tuttavia, soprattutto nel caso delle grandi istituzioni, stabilire con quale insieme di dati cominciare è sempre una sfida. Come si dovrebbe procedere in questo caso?

Creare una lista potrebbe aiutare a velocizzare il processo di identificazione dei dati con cui cominciare il processo di apertura. In un momento successivo sarà possibile poi verificare nel dettaglio se tutte le banche dati sono adatte allo scopo.

Non vi è alcun obbligo di creare un elenco completo dei dataset. Il punto principale da considerare è se sia possibile pubblicare questi dati o meno (qualsiasi sia l’approccio scelto, aperto o meno) – si veda la sezione.

Consultare la comunità

E’ consigliabile in primo luogo consultare la comunità. I soggetti che accederanno ed utilizzeranno i dati sono infatti nella migliore posizione per identificare quali dati siano di particolare valore.

Si può preparare un breve elenco di dataset potenziali su cui si desidera avere un feedback. Non è indispensabile che questa lista coincida con le vostre aspettative, l’intento principale è quello di avere una prima idea delle esigenze. L’elenco potrebbe ad esempio ispirarsi a cataloghi di open data di altri paesi.

Creare una richiesta per ottenere commenti

Pubblicizzare la richiesta di commenti in una pagina web e assicurarsi che sia possibile accedere alla richiesta attraverso l’URL indicato. In questo modo, in caso di condivisione attraverso social media, la richiesta risulterà facilmente reperibile.

Le risposte devono poter essere inviate attraverso una procedura semplice. É da evitare la richiesta di commenti previa registrazione perché ciò riduce il numero di risposte.

Utilizzare mailing list, forum e soggetti rilevanti per far condividere la richiesta attraverso un link diretto alla pagina web.

Si può organizzare uno speciale evento di consultazione. É importante riuscire a trovare un orario conveniente per chi lavora in ufficio, nell’area commerciale e per gli sviluppatori.

Chiedi a un politico di parlare per conto della tua agenzia. Gli open data sono spesso parte di più ampie politiche dirette ad aumentare l’accesso all’informazione governativa.

Costi base

Quanti soldi spendono le agenzie per la raccolta e manutenzione dei dati in loro possesso? Se passano molto tempo su un particolare insieme di dati, allora è molto probabile che altri utenti vorrebbero accedervi.

Questo discorso potrebbe certo suscitare timori di freeriding. La domanda cui bisogna rispondere è: “Perché consentire ad altri di ottenere nere gratuita ente informa tanto costose?”. La risposta è che questo costo viene già sopportato dal settore pubblico, nello svolgimento di una funzione particolare. E il costo di trasmettere i dati a terzi, dopo averli raccolti, è all’incirca nullo. Perciò, non si dovrebbe esigere nulla.

Facilità di rilascio

A volte, piuttosto che decidere quali dati sarebbero di maggior valore, potrebbe essere utile controllare quali dati siano più semplici da presentare al pubblico. Semplici rilasci di dati in piccole quantità possono più facilmente cambiare i comportamenti all’interno delle organizzazioni.

É comunque necessario usare cautela nell’applicare questo approccio. Questi piccoli e veloci rilasci di dati potrebbero essere di così scarso interesse che non permettano di costruire nulla di utile. Se succede, il destino dell’intero progetto potrebbe essere segnato.

Osserva i tuoi pari

Open data è un movimento in crescita. Probabilmente nella vostra zona molte persone sanno cosa si sta facendo in altri settori. Fate una lista sulla base di ciò che stanno facendo questi gruppi.

4.2. Applicare una licenza aperta (apertura giuridica)

Nella maggior parte delle legislazioni nazionali ci sono diritti di proprietà intellettuale che incidono sui dati e che quindi impediscono a terzi l’uso, il riutilizzo e la ridistribuzione dei dati senza un’autorizzazione esplicita. Anche nei casi in cui l’esistenza di diritti è incerta, è importante applicare una licenza per motivi di chiarezza. Così, se stai progettando di rendere i tuoi dati disponibili, è opportuno preoccuparsi di applicarvi una licenza d’uso; e se volete che i vostri dati siano “aperti”, questo è ancora più importante.

Sull’aspetto del licensing si rimanda ad apposito capitolo di questo libro e all’appendice.

4.3. Rendere i dati disponibili (Aspetti Tecnici)

Gli Open data devono essere aperti, sia dal punto di vista tecnico che da quello legale. In particolare i dati devono essere disponibili in grande quantità in un formato machine-readable.

Available

I dati dovrebbero essere disponibili ad una tariffa non superiore al ragionevole costo per la loro riproduzione, e preferibilmente come download gratuito da Internet. Questo modello di tariffa è raggiunto qualora l’ente non sostenga alcun costo aggiuntivo nel fornire dati da utilizzare.

In bulk

I dati dovrebbero essere disponibili come insieme completo. Se ad esempio si dispone di un registro mantenuto per obblighi di legge, allora l’intero registro dovrebbe essere disponibile per il download. Una API web o un servizio simile possono essere molto utili, ma non possono sostituire l’accesso diretto ai dati.

In un formato aperto e machine-readable

Il ri-uso dei dati in possesso del settore pubblico non dovrebbe essere soggetto a restrizioni di brevetto. E, ancora più importante, fornire i dati in formato “machine-readable” consente un loro maggior riutilizzo. Per chiarire ciò, si consideri il caso di statistiche pubblicate come documenti PDF, spesso utilizzati per la stampa di alta qualità. Anche se queste statistiche possono essere lette da esseri umani, è molto difficile renderle utilizzabili dai computer e questo limita pesantemente la capacità da parte di altri di riutilizzare quei dati.

Di seguito una serie di politiche che possono essere di grande beneficio:

scegliere la semplicità,
rilasciare velocemente ed
essere concreti.

In particolare, è meglio rilasciare dati grezzi subito piuttosto che dati perfetti dopo sei mesi.

Ci sono molti modi per rendere i dati disponibili per gli altri. Il più naturale nell’era di Internet è la pubblicazione online. Ci sono molte varianti a questo modello. Nella sua forma elementare, gli enti pubblici rendono disponibili i loro dati attraverso i loro siti web e un catalogo centrale convoglia i visitatori verso la fonte appropriata. Tuttavia, esistono diverse alternative.

Quando la connettività è limitata o la dimensione dei dati è enorme, può essere opportuno distribuire i dati in altri modi. Questa sezione illustra le varie alternative disponibili, tenendo conto della necessità di mantenere molto bassi i prezzi.

Attraverso un sito web esistente

Il sistema più familiare per chi si occupa dei contenuti web di siti istituzionali pre-esistenti, è fornire file da scaricare dalle pagine web. Tali siti possono ospitare senza problemi i file di dati, visto che già forniscono accesso a documenti di discussione.

Una problematicità di questa scelta consiste nella difficoltà per un soggetto esterno al sito di reperire le informazioni aggiornate. Questa opzione pone quindi un peso rilevante sulle spalle di quanti sviluppino strumenti con i dati offerti.

Attraverso siti di terze parti

Molti repository (archivi online) sono diventati luoghi di raccolta di dati relativi a particolari settori. Per esempio, pachube.com è progettato per connettere soggetti interessati ai dati generati tramite dispositivi e applicazioni dotati di sensori in ambienti interattivi. Siti come Infochimps.com e Talis.com consentono agli enti del settore pubblico di immagazzinare gratuitamente una enorme quantità di dati .

I siti di terze parti possono risultare molto utili. Ciò per la principale ragione che già sono contemporaneamente un riferimento per una comunità di soggetti interessati e un punto di raccolta per altri insiemi di dati. Qualora i dati del sito istituzionale entrassero a far parte di tali piattaforme, si crea un tipo di integrazione positiva.

Piattaforme per l’offerta in massa di dati già costituiscono un’infrastruttura in grado di supportare la potenziale domanda. Spesso forniscono strumenti di analisi e informazioni sul tipo di uso. Per gli enti del settore pubblico, inoltre, sono generalmente gratuite.

Tali piattaforme possono avere due costi. Il primo è l’indipendenza. L’ente deve essere in grado di cedere il controllo ad altri attori. Questo è spesso politicamente, legalmente o operativamente difficile. Il secondo tipo di costo riguarda l’apertura. Bisogna assicurarsi che la piattaforma scelta per depositare i dati sia neutrale rispetto a chi può accedervi. Gli sviluppatori di software e i ricercatori usano diversi sistemi operativi, dagli smartphone ai supercomputer. Tutti dovrebbero essere in grado di accedere ai dati.

Attraverso server FTP

Un metodo meno alla moda per fornire accesso ai file avviene tramite il File Transfer Protocol (FTP). Tale approccio può essere adatto se il pubblico è tecnico, come nel caso di sviluppatori di software e ricercatori. Il sistema FTP funziona in sostituzione del protocollo HTTP, ed è specificamente progettato per supportare il trasferimento di file.

FTP è caduto in disuso. Non è visualizzabile come un sito web, ma l’accesso ad un server FTP è molto simile alla navigazione delle risorse e cartelle su un computer. Pertanto, anche se idoneo allo scopo, non offre molte possibilità per sviluppare visualizzazioni personalizzate per l’accesso ai dati.

Come file torrent

BitTorrent è un sistema divenuto familiare ai politici a causa della sua associazione con il concetto di violazione del diritto d’autore. BitTorrent utilizza dei file chiamati torrent, e funziona ripartendo la distribuzione di un file tra tutte le persone che lo stanno scaricando al momento. Invece di sovraccaricare i server, all’aumentare della domanda cresce anche l’offerta. Questa è la ragione del successo di questo sistema per la condivisione di film. Si tratta infatti di una soluzione meravigliosamente efficiente per distribuire grandi volumi di dati.

Attraverso una API

I dati possono essere pubblicati attraverso una API (Application Programming Interface). Queste interfacce sono diventate molto popolari. Permettono ai programmatori di selezionare specifiche porzioni di dati, piuttosto che fornire tutti i dati in massa sotto forma di grandi file. Le API sono tipicamente collegate ad un database aggiornato in tempo reale. Ciò significa che rendere le informazioni disponibili tramite una API permette di garantire l’accesso a dati sempre aggiornati.

Pubblicare dati grezzi in massa dovrebbe essere l’interesse principale di tutte le iniziative open data. Ci sono una serie di costi nel fornire una API:

Il prezzo. Le API richiedono più sforzo di sviluppo e manutenzione rispetto all’offerta di semplici file.

Le aspettative. Al fine di promuovere una comunità di utenti nell’ambito del sistema, è importante garantirne la sicurezza. Nel caso di problemi, si dovranno sostenere i costi per risolverli.

L’accesso in massa ai dati assicura i seguenti aspetti:

– nessuna dipendenza dal fornitore originale dei dati, vale a dire che i dati rimangono disponibili, anche in presenza di ristrutturazioni o tagli di bilancio;

– chiunque può ottenere una copia e ridistribuirli. Ciò riduce e sposta i costi di distribuzione dall’ente di provenienza sorgenti e implica che non si crei un punto unico di fallimento;

– altri soggetti possono sviluppare i propri servizi utilizzando i dati, perché hanno la certezza che i dati non saranno loro tolti.

L’offerta in massa di dati permette ad altri soggetti di utilizzare i dati al di là del loro scopo originale. Ad esempio, possono essere convertiti in un nuovo formato, o collegati con altre risorse oppure offerti in versioni diverse o archiviati in più luoghi. Mentre la versione corrente dei dati sarà resa disponibile attraverso API, i dati grezzi dovrebbero essere resi disponibili in massa a intervalli regolari.

Ad esempio, il servizio statistico Eurostat ha un servizio che permette di scaricare oltre 4000 file di dati. È aggiornato due volte al giorno, offre dati in formato valori separati da tabulatore (TSV), e include documentazione sulle modalità di download e sui dati.

Un altro esempio è il `Catalogo dati del distretto di Columbia`, che consente di scaricare i dati in formato CSV ed XLS in aggiunta ad un feed in tempo reale dei dati.

4.4. Rendere i dati individuabili

Open data senza utenti è nulla. Si deve garantire che il pubblico possa rinvenire il materiale. Questa sezione vuole offrire diversi approcci in tal senso.

La cosa più importante è fornire uno spazio neutrale in grado di superare sia le diverse politiche dei vari enti sia i futuri cicli di bilancio. Conflitti di competenza, sia settoriali che geografici, possono rendere difficile la cooperazione. Tuttavia, ci sono vantaggi significativi nell’unire le forze. Se sarà più facile per gli esterni scoprire i dati, più velocemente saranno costruiti nuovi strumenti utili.

Strumenti esistenti

Esistono una serie di strumenti già presenti sul web che sono specificamente progettati per rendere i dati facilmente trovabili.

Uno di quelli di maggior successo è DataHub ed è un catalogo e deposito di dati di dataset provenienti da ogni parte del mondo. Il sito rende facile, per singole persone ed organizzazioni il modo di pubblicare il materiale e agli utenti di trovare i dati che a loro servono.

In aggiunta, ci sono decine di cataloghi specializzati per settori e luoghi differenti. Molte comunità scientifiche hanno creato un sistema di catalogo per i loro campi, visto che spesso è obbligatorio pubblicare i dati delle loro ricerche.

Per le istituzioni di governo

È diventata comune la pratica di avere un’ente capofila che crei un catalogo dei dati pubblici. Durante la creazione di questo catalogo, è opportuno creare una qualche struttura che consenta ai vari Dipartimenti di mantenere aggiornate le loro informazioni.

Resistete alla tentazione di costruire il software per supportare il catalogo da zero. Ci sono soluzioni di software libero open source (come ad esempio CKAN) che sono state scelte da molti governi. Per tale motivo, investire in un’altra piattaforma potrebbe essere non necessario.

Ci sono molte cose che mancano nella maggior parte dei cataloghi open data. La piattaforma da implementare dovrebbe considerare quanto segue:

Offrire la possibilità ai privati o comunità di aggiungere i propri dati. Può essere utile pensare al catalogo come il catalogo della regione, piuttosto che del Governo della Regione.
Facilitando il miglioramento dei dati permettendo derivati dei dataset da catalogare. Per esempio, qualcuno potrebbe geocodificare gli indirizzi e probabilmente voler condividere questo risultati con altri. Se si permettono versioni singoli di dataset, questi miglioramenti rimarranno nascosti.
Essere tolleranti se i dati appaiono altrove. Questo vuol dire che il contenuto probabilmente si troverà duplicato nelle comunità di interesse. Se si dispone di dati sul monitoraggio dei livelli de fiume, è probabile che i dati appariranno in un catalogo per idrologi.
Garantire un accesso equo. Evitare di creare un livello privilegiato di accesso per funzionari pubblici o ricercatori di ruolo questo potrebbe mettere in difficoltà la partecipazione e la crescita della comunità.

Per la società civile

Bisogna considerare l’opportunità di creare un catalogo supplementare con dati non-ufficiali. È molto raro che i governi si associno a fonti non ufficiali o non autorevoli. I funzionari sostengono spesso spese considerevoli per essere sicuri di evitare l’imbarazzo politico o altri danni causati da un uso improprio o sovrastimato dei dati.

Inoltre, è improbabile che i governi siano disposti a sostenere attività che mescolano le proprie informazioni con quelle provenienti da ambiti commerciali. I governi sono giustamente scettici sui moventi legati al profitto. Pertanto, un catalogo indipendente per i gruppi relativi a comunità, imprese e altri soggetti potrebbe essere giustificato.

A cura di Simone Aliprandi

1 Open data: un’introduzione