L’archiviazione di contenuti scientifici in repositories costituisce la seconda via (quella verde) per ottenere un accesso aperto al sapere scientifico e completa la pubblicazione in riviste ad accesso aperto descritte nel capitolo precedente. In questo capitolo definiremo il concetto di repository, presentando le sue tipologie e caratteristiche, commentando la situazione internazionale e spagnola e, infine, daremo una risposta ai dubbi esistenti sulla qualità e visibilità dei suoi contenuti.

Cosa sono?

Un repository è un sito web che raccoglie, preserva e diffonde la produzione accademica di un’istituzione (o di una disciplina scientifica), permettendo l’accesso agli oggetti digitali che contiene e ai suoi metadati.

I contenuti fondamentali sono le pubblicazioni derivate dalla ricerca (articoli di riviste, relazioni sulla ricerca, congressi, tesi di dottorato, ecc.), anche se in molti repositories si possono trovare informazioni accademiche di portata più ampia (materiale didattico, attività istituzionali, ecc.).

In generale i repositories contengono i testi completi di questi documenti sebbene in alcuni casi, si possano trovare solo i riferimenti perché i documenti sono ancora sotto diritti. La disponibilità del testo completo è una elemento basilare per permettere il raggiungimento degli obiettivi dell’accesso aperto.
Infine essi autorizzano l’accesso ai metadati (interoperabilità), vale a dire che permettono che i riferimenti bibliografici di ogni documento siano raccolti da macchinari esterni (aggregatori o raccoglitori) che li utilizzano per altri propositi, di cui parleremo in seguito.

Gli obiettivi dei repositories sono quelli di favorire la diffusione di contenuti accademici dell’istituzione o della tematica cui si riferiscono, dare vivibilità alla ricerca realizzata dall’istituzione e dai suoi membri e facilitare la conservazione e la protezione dei documenti prodotti da un’istituzione. Così, un repository istituzionale è molto più che un deposito dove immagazzinare schede, visto che si può convertire in “un’immagine” della produzione scientifica e accademica della propria istituzione. In generale, un deposito svolge il ruolo tradizionale di qualsiasi biblioteca, ossia, conservare, organizzare e dare accesso al patrimonio di documenti dell’organizzazione.

I contenuti vengono inseriti nei repositories principalmente attraverso l’auto-archivio (caricamento diretto), cioè, sono inseriti direttamente dagli autori stessi e i metadati sono revisionati in seguito dai bibliotecari. Inoltre esiste quello che si chiama caricamento mediato, che viene effettuato dai gestori del deposito, e il caricamento di massa, che si realizza attraverso la raccolta di contenuti provenienti da riviste o da altri repositories. In tutti i casi, è importante collegare i documenti depositati con la fonte originale dove sono stati pubblicati.

Tipologia

Il criterio più utilizzato per distinguere i repositories prende in considerazione l’obiettivo principale per cui sono stati creati. Si distinguono da una parte, i depositi istituzionali, che sono stati sviluppati da un’istituzione accademica o di ricerca per raccogliere e diffondere la propria produzione scientifica e, d’altra parte, i depositi tematici che hanno come obiettivo fondamentale quello di diffondere la produzione scientifica in aree specifiche di conoscenza.

1) Istituzionali

Contengono la produzione di membri di un’istituzione, sia essa una università o un centro di ricerca. Hanno carattere multidisciplinare. A volte racchiudono esclusivamente contenuti scientifici (articoli di rivista, tesi, congressi, ecc.), ma esistono anche esempi di inserimento di materiali didattici, documenti amministrativi, collezioni di beni, ecc.).

In questo periodo, la maggior parte dei depositi sono di questo tipo (circa 1950), ovvero l’82% del totale (secondo l’OperDOAR).

Come esempi si possono citareDSpace-ISS (http://dspace.iss.it/), l’archivio istituzionale dell’Istituto Superiore di Sanità, o AperTO (http://aperto.unito.it/), l’archivio istituzionale dell’Università di Torino.

2) Tematici

I loro contenuti sono specializzati in un determinato ambito specifico. I creatori possono essere istituzioni accademiche, enti pubblici o organizzazioni senza scopo di lucro. Furono i primi ad essere creati.

Ad oggi esistono circa 250 depositi di questo tipo, ossia l’11% del totale (secondo OpenDOAR). Si tratta di una tipologia che fu molto rilevante agli inizi del movimento ma che è andata diminuendo con l’avanzare dei depositi istituzionali.

Gli esempi più conosciuti sono arXiv.org (Fisica), PubMed Central (Scienze Biomediche), Cogprints (Psicologia), o RePEc (Economia). Va ricordato anche il deposito internazionale E-LIS, con sede en Italia, che dal 2003 raccoglie la produzione scientifica nell’ambito dell’Informazione e della Ricerca.

Figura 7. E-LIS, un esempio di repository tematico

Quali contenuti hanno?

La maggior parte dei repositories contiene articoli di riviste, tesi o conferenze. Comunque, esistono anche alcuni che si sono specializzati o che contengono altri tipi di materiali (dati, materiale didattico e libri, principalmente).

1) Dati

Qualsiasi tipo di ricerca -sia essa sperimentale o no, quantitativa o qualitativa- dispone di ingenti quantità di dati (indagini, operazioni di laboratorio, tabelle, ecc.) che servono a confermare le ipotesi sollevate. Le pubblicazioni derivanti da ricerche includono solo i risultati finali mentre i dati delle stesse ricerche di solito non vanno oltre l’equipe responsabile della sua creazione.

In questo periodo è stato mostrato un notevole interesse per la conservazione e il riutilizzo di tali dati. I motivi? L’importanza che si dà ai dati per la promozione dell’innovazione scientifica e tecnologica da un lato, e dall’altro, il risparmio che rappresenterebbe il poter usufruire di dati già esistenti per progetti di ricerca futuri (riutilizzo). In alcuni ambiti scientifici, specialmente in biomedicina, gli autori devono inviare i dati, (sequenze di DNA, ecc.) a questo tipo di depositi prima di pubblicare i risultati.

Uno dei primi esempi di deposito di dati lo troviamo nella Gen Bank, la banca di sequenze genetiche, che fu stabilita a partire dall’accordo del 1996 dei principi o accordi di Bermuda, che volevano offrire un servizio affinché i ricercatori condividessero liberamente i dati pre-pubblicati di sequenze genetiche. L’obiettivo era quello di facilitare il libero accesso alle sequenze (rendendole di dominio pubblico) per massimizzare i benefici alla società nell’ambito della I+D.

Possiamo trovare archivi di dati in 89 depositi (il 4% del totale), secondo OpenDOAR, una quantità ancora molto bassa.

2) Risorse didattiche

Il materiale didattico, tecnicamente chiamato materiale educativo aperto (da Open Educational Resources, OER) è un altro tipo di documento che sta ottenendo presenze nei repositories e che sta aumentando negli ultimi anni. Si tratta di materiali digitali che possono essere utilizzati e riutilizzati per insegnare e apprendere. Questa possibilità di riutilizzo è una caratteristica che li rende simili al tipo precedente. Come esempio si può citare ARMIDA@UniMi (http://armida.unimi.it/), l’archivio sperimentale dei materiali didattici dell’Università di Milano.

Secondo i dati forniti dal ROAR si conta un totale di soli 49 depositi specificamente dedicati a materiali didattici, ma questo tipo di contenuto si può trovare nel 15% del totale dei depositi (secondo la OpenDOAR).

Gema Bueno e Tony Hernández (2011) hanno descritto il panorama dei repositories di materiali didattici e hanno analizzato i principali ostacoli per il loro sviluppo.

3) Libri

Sebbene non ci siano dubbi sul fatto che gli articoli di rivista siano il tipo di documento più utilizzato per la ricerca scientifica, è pur vero che nell’ambito delle scienze umane e sociali le monografie hanno un loro ruolo.

Secondo i dati forniti da OpenDOAR si possono trovare libri nel 36% del totale dei depositi, sebbene siano pochi i casi di depositi dedicati specificatamente a questo tipo di documenti.

Il caso esemplare è OAPEN (Open Access Publishing in European Networks), un’iniziativa per sviluppare e implementare un modello sostenibile di pubblicazione aperta di libri accademici di Umanistica e Scienze Sociali. Il suo deposito, chiamato Biblioteca OAPEN, ha come obiettivo quello di migliorare la visibilità e la facilità di utilizzo della ricerca accademica di alta qualità aggregando pubblicazioni revisionate in open access da colleghi di tutta Europa.

Aspetti tecnici

Ad oggi, gli utenti hanno a loro disposizione, in forma libera e gratuita, una gran quantità di contenuti scientifici. Tuttavia, il ricorso ai depositi sarà di poco aiuto se per ogni informazione sarà necessario realizzare consultazioni separate. I depositi isolati difficilmente potranno soddisfare il proposito di fornire un nuovo modello di comunicazione scientifica capace di migliorare la visibilità e l’accesso alla scienza. E’ importante che i depositi possano scambiare dati e processi tra loro e con altri sistemi in modo da offrire prestazioni superiori, come lo può essere solo una consultazione congiunta. Questa si chiama interoperabilità.

Il principale stimolo per l’interoperabilità fu dato dalla Open Access Initiative (OAI) con la creazione del protocollo OAI-PMH, pietra miliare per permettere l’interconnessione tra repositories e la realizzazione di ricerche congiunte dei contenuti situati in diversi depositi. Questa idea di coordinare i depositi nacque alla fine degli anni ’90 e i suoi ideatori furono Stevan Harnad e Herbert Van de Sompel, quest’ultimo lo sviluppatore principale dell’OAI-PMH.

OAI-PMH è un protocollo per la definizione e l’intercambio di metadati. Permette che i metadati di un deposito possano essere raccolti da un sistema esterno (un altro deposito o un raccoglitore) per poter offrire un servizio nuovo (per esempio, una ricerca più vasta, l’analisi delle citazioni, ecc.): A partire da questo sviluppo si possono associare diversi archivi, intercambiare registri o analizzare ricerche in discipline relazionate tra di loro allo stesso tempo, così come implementare nuovi servizi. Attualmente la maggior parte dei depositi utilizza questo protocollo dato che è il modo per assicurare una totale apertura e l’integrazione con servizi esterni.

Successivamente, sono stati sviluppati altri protocolli come l’OAI-ORE (Open Archives Initiative Object Reuse and Exchange), che definisce gli standard per la descrizione e l’intercambio dell’aggiunta di materiali, o SWORD (Simple Web-service Offering Repository Deposit), che permette ai depositi di accettare contenuti da diverse fonti (p.e. dal profilo di Facebook o di OJS) e in diversi formati. Va fatta menzione anche delle linee guida DRIVER, che non costituiscono uno standard ma sono utili per normalizzare i formati dei contenuti dei metadati.

Servizi di harvesting

L’interoperabilità offre la possibilità di creare servizi di aggregazione di depositi o raccoglitori (harvesters) di metadati. Si tratta di sistemi esterni per la raccolta dei metadati contenuti nei repositories che soddisfano il protocollo OAI-PHM per integrarli in un servizio di consultazione più vasto.

Si stabilisce quindi una duplice relazione tra fornitori di dati e fornitori di servizi. Ogni deposito funziona come fornitore di dati: offre libero accesso ai documenti in esso immagazzinati e fornisce anche i suoi metadati (in Dublin Core o in altri sistemi). Dal canto loro, i fornitori di servizi, responsabili di raccogliere questa informazione, possono raccogliere metadati di diverse collezioni attraverso lo stesso protocollo, offrire servizi di valore aggiunto (consultazione di raccolte affini, normalizzazione delle citazioni bibliografiche, ecc.) e presentare l’informazione agli utenti finali.

Gli harvesters pertanto, hanno solo bisogno di mantenere l’indice comune creato nell’attività di raccolta, visto che i registri e i documenti restano nelle raccolte originali. L’harvester si aggiorna periodicamente, ampliando il suo database in maniera continua.

Gli harvester possono avere portata internazionale o statale, essere specializzati per tematica o per tipo di documento (tesi, materiale didattico, ecc.). Alcuni esempi illustrativi di fornitori di servizi che utilizzano il protocollo OAI-PMH sono i seguenti:

– BASE (http://www.base-search.net/)
Creato dalla biblioteca dell’Università di Bielefeld, contiene più di 50 milioni di documenti, provienienti da più di 2.600 repositories di tutto il mondo.

– OAIster (http://oaister.worldcat.org/)

Fu uno dei primi harvester. Dal 2009 è un prodotto gestito dalla OCLC come sottoraccolta all’interno di WOrldCat. Ha più di 25 milioni di registri.

– Recolecta (http://recolecta.net)

Facilita l’accesso ai contenuti accademici dei depositi spagnoli. Venne lanciato nel 2008 da REbiun con l’appoggio di Fecyt.

– PLEIADI: Portale per la Letteratura scientifica Elettronica Italiana su Archivi Aperti e Depositi Istituzionali (http://www.openarchives.it/pleiadi)

E’ il service provider nazionale per l’accesso integrato alla letteratura scientifica prodotta in Italia. E’ stato sviluppato nel 2003 grazie alla collaborazione tra i due consorzi interuniversitari italiani CASPUR e CILEA.

Attualmente i programmi più utilizzati per creare depositi (Dspace o E-Prints) supportano il protocollo OAI-PMH e questo fa sì che alcune volte essi stessi possano funzionare da harvesters. E’ il caso questo di TDR (Tesis Doctorales en Red), creato dal CBUC, o di DART (tesi europee), che inseriscono parte dei loro contenuti per mezzo dell’harvesting.

Infine, grazie all’interoperabilità è possibile che Google Scholar, uno dei motori di ricerca più utilizzati dai ricercatori, possa anche raccogliere metadati dai repositories offrendo una grande visibilità ai suoi contenuti. Questo è un grande incentivo per gli autori che sono così sicuri che le proprie pubblicazioni, per il solo fatto di essere in un repository, siano indicizzate da Google Scholar.

Situazione internazionale

Le origini dei repositories si trovano in arXiv.org, creato nel 1991 dalla comunità dei fisici per condividere pre-prints, ossia, versioni previe di articoli che dovevano essere pubblicati. Pochi anni dopo nacquero CogPrints (1997), per la Psicologia, o RePEc (1999), per l’Economia, che pure hanno raggiunto un vasto riconoscimento dalle comunità scientifiche cui si rivolgono.

Come abbiamo visto, all’inizio del 2000, si è dato un forte impulso all’OA dal punto di vista tecnologico (il protocollo OAI-PMH è del 1999) e anche teorico (con le dichiarazioni di Budapest, Bethesda e Berlino). Questo si traduce in impulso anche per la creazione di repositories.

Quando fu firmata la dichiarazione di Budapest, nel 2002, la maggior parte dei ricercatori non avevano idee di dove depositare i propri lavori se avessero provato a seguire quelle linee guida. L’unica opzione era quella di depositare i documenti in un server – personale o di dipartimento la maggior parte delle volte- una via che non garantiva la permanenza, né la stabilità, né ancora meno, l’interoperabiltà.

La creazione di repositories ebbe un rapido successo, facilitato dallo sviluppo di software specializzati per questa funzione (ex. Dspace, sviluppato dal MIT e dalla Hewlett-Packard, o Eprints, dell’Università di Southampton).

Per conoscere gli aspetti generali della situazione dei repositories, le fonti principali sono i registri internazionali Registry of Open Access Repositories (ROAR) e le Directory of Open Access Repositories (OpenDOAR), che consentono consultazioni per paesi, per materia, per lingua, per tipo di contenuto, ecc. Come vedremo, questi repositories registrano dati leggermente discordanti, il che si deve in parte all’adozione di criteri diversi nella raccolta dei dati, in parte alla diversa frequenza di aggiornamento dei repertori.

I primi repositories contenuti in ROAR risalgono ai primi anni ’90 e da allora il loro numero non ha smesso di aumentare fino ai 3.475 che includeinclusi in questo momento (2.359 secondo l’OpenDOAR).

Questa crescita è diventata evidente dal 2006, anno in cui il numero di depositi si è quadruplicato (dai 180 di gennaio ai quasi 800 dicembre, secondo l’OpenDOAR). A partire da questo grande salto, negli anni successivi si è prodotta una crescita sostenuta, come si può notare nella seguente figura.

Figura 8. Crescita del numero di repositories nella directory OpenDOAR

Attualmente, secondo il ROAR, più di un centinaio di paesi hanno repositories, con in testa Stati Uniti (16% del totale), Regno Unito (7%), Germania (5,5%), Giappone (5%), e Spagna (4,5%).

Per quanto riguarda il tipo di contenuto, prevalgono gli articoli di riviste, che si trovano in quasi tre depositi su quattro, seguiti dalle tesi (nel 54% dei depositi), i working papers, i libri e le conferenze. Le tipologie meno frequenti sono i programmi informatici, i brevetti, i dati e gli strumenti per l’apprendimento.

Per quel che riguarda il software dei repositories, Dspace domina in modo notevole, con un 41% del totale, seguito a una certa distanza da ePrints (15%) e poi da un vasto numero di programmi poco installati.

Esiste anche un Ranking Web dei Repositories del Mondo creato dal Laboratorio di Cibermetria (CSIC) che partendo da determinati indicatori misurano la visibilità e l’impatto dei repositories. Nelle tre prime posizioni ci sono repositories tematici: arXiv.org (EUA), Research Papers in Economics (UN) e Europe PubMed Central (UK). Il primo rappresentante spagnolo è il Dipòsit Digital de Documents (Universitat Autònoma de Barcelona), che si trova in 15a posizione, seguito dal UPCommons (16) e il Digital.CSIC (19). Per quanto riguarda i repositories italiani, i primi sono il Cadmus European University (151), l’ Università di Milano (163) e l’Università di Pisa (170), abastanza lontani dalle prime posizioni.

Riguardo lo sviluppo delle infrastrutture e la standardizzazione, è degna di nota l’azione del progetto DRIVER, prima citato, e il portale della Commissione Europea, OpenAire. Stanno crescendo molto anche i livelli di cooperazione e coordinazione, come dimostrato dalla creazione nel 2009 della COAR (Confederation of Open Access Repositories), un’associazione internazionale di depositi per far aumentare la cooperazione.

Situazione in Italia

Lo scenario degli archivi italiani ad accesso aperto è assai complesso. In assenza di una ricognizione generale di carattere ufficiale, occorre far riferimento ai repertori internazionali disponibili. Ad agosto 2013 la Directory of Open Access Repositories indicizza complessivamente 72 repositories italiani (il 94,4 % dei quali pienamente operativo), mostrando sul piano diacronico la graduale e continua crescita delle installazioni (figura 9).

Figura 9. Crescita del numero di repositories italiani nella directory OpenDOAR

Dal punto di vista della tipologia, prevalgono nettamente gli archivi di carattere istituzionale e in particolare i depositi appartenenti a università e centri di ricerca (figura 10). Peraltro alcuni atenei (tra i quali Bologna, Milano statale, Padova, Pisa, Trento) hanno scelto di creare e mantenere più di un archivio, operando una distinzione a seconda della tipologia di materiale in esso depositato. Alcuni repositories infatti sono dedicati esclusivamente alle tesi di laurea e/o dottorato (ad es. AMS Tesi di Laurea e AMS Tesi di Dottorato dell’università di Bologna) o ai learning objects (ad es. ARMIDA dell’Università di Milano).

Figura 10. Tipologia dei repositories italiani

Sul versante tecnologico, al momento il software più diffuso in Italia risulta essere DSpace (44,4 % delle installazioni) seguito da E-Prints (38,9 % delle installazioni).

Quanto al contenuto degli archivi sono presenti diverse tipologie di documenti tra i quali prevalgono tesi di laurea e dottorato, articoli pubblicati su riviste, contributi presentati a convegni (figura 11).

Figura 11. Tipo di contenuti dei repositories italiani

Anche dal punto di vista della consistenza si nota una grande eterogeneità: si passa da archivi ricchi per varietà e numero di documenti, ad archivi che ne mettono a disposizione solo certe tipologie (tipicamente le tesi di dottorato) ed in alcuni casi in numero esiguo. Nello specifico sono soprattutto gli archivi istituzionali che stentano a decollare, diversamente dall’esperienza degli archivi disciplinari, per via della difficoltà di riuscire ad attrarre una massa critica di documentazione scientificamente rilevante.

Al fine di facilitare l’accesso ai contenuti scientifici presenti nei diversi archivi aperti e di aumentare la visibilità e l’impatto degli archivi italiani nella comunità accademica nazionale e internazionale è stato sviluppato PLEIADI il Portale per la Letteratura scientifica Elettronica Italiana su Archivi aperti e Depositi Istituzionali. Nata nel 2003 dalla collaborazione tra i due consorzi interuniversitari italiani CILEA e CASPUR, la piattaforma nel 2011 si è evoluta in una nuova versione. PLEIADI consente la ricerca federata su tutti gli archivi aperti italiani compatibili con il protocollo OAI-PMH e offre inoltre una serie di servizi aggiuntivi (risorse web selezionate, news aggiornate dal mondo OA, feed RSS) e personalizzati (creazione di profili utente, alerting, salvataggio delle ricerche, esportazione delle citazioni bibliografiche, possibilità di condivisione dei documenti su piattaforme di social networking).

Situazione in Spagna

Il primo repository spagnolo, TDX (Tesis Doctorals en Xarxa), fu creato nel 2001 dal CBUC mentre il repository del Sistema Sanitario Pubblico dell’Andalusia, è stato l’ultimo della lista fino ad oggi. Durante questi anni sono stati avviati un totale di 100 repositories, come risulta dalla directory BuscaRepositorios, che dispone di dati più aggiornati e precisi rispetto all’OpenDOAR e al ROAR, già menzonati.

Le università e i centri di ricerca sono le istituzioni dominanti (63, che sarebbe il 63% del totale) fatto logico visto che sono i principali fulcri per la generazione dell’informazione scientifica. Si deve fare menzione particolare del ruolo svolto dal CBUC (6 repositories, vale a dire, il 6% del totale), l’unico consorzio spagnolo che ha realizzato repositories.

Per quanto riguarda l’anno di inizio, si precisa che la gran parte di questi sono di recente creazione: più della metà sono stati avviati negli ultimi tre anni.

In quanto alla tipologia di documenti contenuti, gli articoli di riviste e le tesi, come logico, sono i tipi più rappresentati nei repositories. Anche gli strumenti per l’apprendimento cominciano, tuttavia, ad essere presenti.

Riguardo la piattaforma tecnologica utilizzata, c’è un evidente predominio del programma Dspace, che gode del 62% delle installazioni, con moltissimo distacco dal resto delle applicazioni adottate.

Nel caso spagnolo, il principale problema sta nello scarso numero di oggetti depositati. Una buona parte dei depositi ha ancora pochi documenti. Ciò vuol dire che la principale azione da svolgere, nei prossimi anni, è quella di aumentare i contenuti inclusi nei repositories. Le politiche istituzionali introdotte, che vedremo nei prossimi due capitoli, aiuteranno notevolmente un miglioramento in questo senso.

Ernest Abadal

5 3. Repositories