Title: Open Archives Initiative e Metadata harvesting
1Open Archives InitiativeeMetadata harvesting
- ICCU
- Seminario nazionale sui Metadati
- Roma 3 aprile 2001
- Dr. Valdo Pasqui
- Università di Firenze
2Contesto
- Sviluppare e promuovere standard di
interoperabilità per facilitare la disseminazione
efficiente dei contenuti - Trae origine nellambito della comunicazione
accademica (scholarly) per favorire laccesso
agli archivi e-print - Si sta estendendo oltre questi limiti perché è
indipendente dai contenuti e dai modelli
economici circostanti
3Comprende
- il framework di riferimento costituito da due
componenti - Data Provider
- Service Provider
- il protocollo per lharvesting dei metadati
- http//www.openarchives.org/openarchivesprotocol.h
tml
4Service Provider
Data Provider
R e p o s i t o r y
metadata
Utenti dei servizi
metadata
OAI harvesting protocol
3 Aprile 2001
Valdo Pasqui Open Archives Initiative e
harvesting dei metadati
4
5Data Provider e Repository
- Un Data Provider gestiste un (o più) repository
(archivio) che - supporta il protocollo OAI per consentire
laccesso ai metadati sul suo contenuto - va inteso in senso esteso non solo e-print ma un
ampio spettro di collezioni di oggetti digitali
6Service Provider
- Sono servizi che
- interrogano i repository dei data provider usando
le richieste del protocollo OAI - ricevono (catturano) i metadati esposti dai data
provider - usano questi metadati per costruire servizi a
valore aggiunto (es. indicizzazione ed
interfaccia di ricerca)
7Protocollo di Harvesting
- Item del repository
- Record restituiti dal repository
- Identificatori unici
- Metadati
- Richieste
- Trasporto e codifica
8Protocollo Item del repository
- Gli oggetti che fanno parte del repository sono
chiamati item - Si tratta di un concetto astratto e il protocollo
non si occupa né della natura dellitem, né di
quali metadata sono associati e se sia incluso il
full content - Ogni item può disseminare metadata in molteplici
formati - Gli item possono essere raggruppati per insiemi
(es. per soggetto, istituzione etc.)
9ProtocolloRecord
- Quando un repository riceve una richiesta (del
protocollo OAI) per ottenere i metadati di un
item, restituisce una sequenza di byte
codificata in XML che viene chiamata record - I record OAI hanno tre parti
- header
- metadata
- about
10ProtocolloRecord
- header, composto da
- identificatore unico
- datestamp (data di creazione, cancellazione o
ultima modifica del record) - metadata
- una singola manifestazione(formato) dei metadati
dellitem - almeno Dublin Core deve essere
supportato dal repository - about opzionale e non specificato
- usato per contenere informazioni sui diritti e le
condizioni duso dei metadati
11- ltrecordgt
- ltheadergt
- ltidentifiergtoaieg001lt/identifiergt
- ltdatestampgt2001-03-30lt/datestampgt
- lt/headergt
- ltmetadatagt
- ltdc xmnlshttp//purl.org.dc/elements/1.1/gt
- ltcreatorgt..lt/creatorgt
- lttitlegtlt/titlegt
- ltidentifiergthttp//.lt/identifiergt
- lt/dcgt
- lt/metadatagt
- ltaboutgt
- ltea xmnlshttp//www.arXiv.org/eagt
- ltusagegtNo restrictionslt/usagegt
- lt/eagt
- lt/aboutgt
- lt/recordgt
protocollo
Metadata del formato specifico (almeno Dublin
Core)
definiti nellambito di specifiche comunitÃ
12Protocollo Identificatori
- Sono le chiavi uniche che servono ad estrarre un
record (i metadata di un item) da un repository - Il formato segue la sintassi URI
- oaiidentificatore_archivioidentificatore_record
- es
- oaiarXivhep-th/9901001
- oaiunifiunifi00000010
Schema (fisso)
Registrato presso OAI
Univoco nel repository
13Protocollo Metadati
- Supporta harvesting di molteplici formatidi
metadati a cui devono essere associati - un metadata schema uno schema XML di
validazione pubblicamente accessibile tramite URL - http//www.openarchives.org/OAI/dc.xsd
- http//www.openarchives.org/OAI/rfc1807.xsd
- http//www.openarchives.org/OAI/oai_marc.xsd
- un metadata prefix un nome che ogni repository
mappa nello schema supportato e che è usato come
argomento di alcune richieste - oai_dc è riservato per indicare lo schema Dublin
Core senza qualificatori (obbligatorio)
14Protocollo Richieste
- GetRecord per ottenere uno specifico record
(metadati) da un item del repository - ListIdentifiers per ottenere gli identificatori
dei record che possono essere catturati dal
repository - ListRecords per ottenere un insieme di record
- Identify per ottenere informazione sul
repository - ListMetadataFormatsper ottenere i formati di
metadati resi disponibili dal repository - ListSets per ottenere la struttura dei set
(partizioni)
15Service Provider
Data Provider
Harvester
- GetRecord
- identifier
- metadataprefix
Repository
- Record
- header
- identifier
- datestamp
- metadata
- about
3 Aprile 2001
Valdo Pasqui Open Archives Initiative e
harvesting dei metadati
15
16Service Provider
Data Provider
Harvester
- ListIdentifiers
- until o
- from o
- set o
Repository
Identifier
3 Aprile 2001
Valdo Pasqui Open Archives Initiative e
harvesting dei metadati
16
17Service Provider
Data Provider
Harvester
- ListRecords
- until o
- from o
- set o
- metadataPrefix oai_dc
Repository
- Record
- header
- identifier
- datestamp
- metadata
- about
3 Aprile 2001
Valdo Pasqui Open Archives Initiative e
harvesting dei metadati
17
18Service Provider
Data Provider
Harvester
Identify
Repository
- repositoryName
- baseURL
- OAIprotocolVersion
- adminEmail
- descriptionContainer
- content
- metadataPolicy
- dataPolicy
- submissionPolicy
- comment
e-prints
3 Aprile 2001
Valdo Pasqui Open Archives Initiative e
harvesting dei metadati
18
19Service Provider
Data Provider
Harvester
- ListMetadataFormats
- identifier o
Repository
- metadataFormat
- metadataPrefix
- schema
- metadataNameSpace
3 Aprile 2001
Valdo Pasqui Open Archives Initiative e
harvesting dei metadati
19
20Service Provider
Data Provider
Harvester
Repository
- set
- setSpecification
- setName
3 Aprile 2001
Valdo Pasqui Open Archives Initiative e
harvesting dei metadati
20
21Metadati gestionali
- OAI non definisce né prescrive alcun schema di
gestione dei diritti - La definizione (e pubblicazione) di restrizioni
sullaccesso e di vincoli per la gestione della
proprietà intellettuale nei metadati esposti è
lasciata ai data provide - Il protocollo consente lo scambio di metadati
gestionali in vari modi
22- description Container nella risposta alla
richiesta - Identity, può contenere informazioni sul
- contenuto del repository
- politiche di accesso ai metadati
- politiche di accesso ai dati
- about nella risposta alla richiesta GetRecord,
può contenere informazioni su - diritti di accesso ai metadati del record
- termini e condizioni duso dei metadati del
record - metadata nella risposta alle richieste GetRecord
e - ListRecords, può contenere formati di metadati
che - prevedono informazioni di tipo gestionale sia sui
diritti (es. elemento rights in Dublin Core)
che di altro tipo
3 Aprile 2001
Valdo Pasqui Open Archives Initiative e
harvesting dei metadati
22
23Implementazione del protocollo OAI
- Richieste espresse con i metodi Get o Post di
HTTP - Risposte HTTP con
- Content-Typetext/xml
- Codifica con rappresentazione UTF8 di Unicode
- il root element ha lo stesso nome della richiesta
e fa riferimento al relativo XML schema definito
da OAI