Title: Est
1Estándares para el intercambio de información
sobre biodiversidad
María Auxiliadora Mora Administradora del Nodo
Participante de Costa Rica en la Red GBIF
2Contenido
- El reto de manejar la información sobre
biodiversidad. - Importancia de utilizar estándares.
- Áreas de la bioinformática en donde los
estándares son necesarios. - Estándares disponibles para el manejo de
información sobre biodiversidad.
3El manejar la información sobre la biodiversidad
representa un reto enorme
- Número esperado de especies 10 millones.
- 1.7 millones han sido descritas y nombradas.
- Número total de especímenes en las colecciones
del mundo de 1-3 mil millones. - Sin contar un gran número que corresponden a
especies aún no descritas. - 18 000 nuevas especies se describen cada año.
- El porcentaje no ha mejorado en los últimos 40
años. - De 1 000 a 10 000 especies se extingen cada año
- La tasa es 1000 veces más rápida comparada con la
tasa natural.
Fuente www.gbif.org
4Importancia de utilizar estándares
- Hacer los datos de biodiversidad (genes, especies
y ecosistemas) universalmente disponibles para el
desarrollo de la ciencia, la sociedad y el futuro
sostenible. - Evitar la duplicación de esfuerzo.
- No importa la plataforma tecnológica (SO y DB)
que exista en la institución los estándares son
aplicables. - No dependencia de un proveedor.
- Más personal calificado disponible.
5Áreas de la bioinformática en donde los
estándares son necesarios
- Contenidos de las bases de datos
- Identificadores
- Espécimen, observaciones
- Nombres taxonómicos
- Instituciones, proveedores, colecciones, y
personas
- Procesos
- Trabajo en equipo (TDWG)
- Discusiones, documentación
- Capacitación
- Open source
- Protocolos para intercambio de datos
- XML
- WebServices (SOAP, WSDL, UDDI)
- Darwin Core /DiGIR
- ABCD/BioCASE
- Dublin Core
Fuente www.gbif.org
6XML
- Extensible Markup Language
- Metalenguaje
- Independiente de la plataforma
- Basado en marcas (tags)
- Extensible No especifica el conjunto de marcas
ni la gramática. - Esquemas
- Establecen restricciones a un documento XML.
- Utilizan XML válidos y bien formados.
- Definen datos respecto a los datos
Volver
7Servicios Web
- Un servicio web es
- Una aplicación o componente de software.
- Identificado por un URI, cuya interfase y forma
de comunicación puede ser descrita utilizando
XML. - Soporta interacciones directas con otras
aplicaciones o componentes a través de - Intercambio de información que es expresada
- In términos de XML vía protocolos basados en
Internet. - Chris Ferris, Sun Microsystems, W3C
8Cómo trabajan los servicios web
Volver
9El protocolo
- Envío de mensajes codificados en XML sobre HTTP
- Utilizado como medio de comunicación entre los
nodos de datos y los usuarios. - Es más liviano y especializado que SOAP
- Permite la creación de un único punto de acceso
(portal o motor de búsquedas) a recursos
distribuidos. - Recursos una colección de objetos que utilizan
un esquema común (BD, documentos en XML). - Los recursos distribuidos están acorde con un
esquema - Permite la búsqueda y recuperación de datos
estructurados. - Búsqueda de valores en los datos en un contexto
(semántica) - Los resultados son presentados con un conjunto de
datos estructurados. - Hacen que la localización y las caraterísticas
técnicas de un recurso sean transparentes a los
usuarios. - El protocolo Distributed Generic Information
Retrieval fue creado por el TDWG/CODATA subgrupo
de datos de colecciones biológicas.
Fuente www.gbif.org
10Arquitectura de DiGIR
Portales, Motores de búsqueda y aplicaciones
Proveedores DiGIR
Bases de datos
Fuente www.gbif.org
11Ejemplo de uso de DiGIR (GBIF)
User
Metadata and name query
Provider query
( UDDI )
Index
Portal
Registry
Request Marshaller
Cache
Metadata
Institutions Providers Services
Available providers
Query Engine
Metadata response
Accounting
Publish availability
Metadata and statistics
Full data response
DiGIR
Full data query
Synonyms, GUIDs
SOAP
Name provider
Data provider
HTTP
Provider Services
Provider Services
Resource
Metadata
Fuente www.gbif.org
12Interfase para intercambio de datos en el web con
DiGIR
- Distributed Generic Information Retrieval is un
protocolo cliente/servidor para la recuperación
de información de recursos distribuidos. - Usa HTTP como mecanismo de transporte y XML para
la codificación de los mensajes entre el cliente
y el servidor - Tres tipos de mensajes
- Metadata permite obtener los metadatos del
proveedor y los recursos que sirve. - Search permite realizar búsqueda de registros de
especimenes y observaciones basado en un criterio
de búsqueda. - Inventory permite obtener un conjunto de valores
distintos asociados a un concepto, por ejemplo
especie. - Utiliza el esquema Darwin Core2 (apropiado para
el intercambio de datos de especimenes y
observaciones).
Fuente www.gbif.org
13El esquema Darwin Core 2
- Darwin Core 2 es un simple conjunto de elementos
que permite estructurar datos de registros de
especimenes u observaciones para ser compartidos
como un documento XML que puede ser trasmitido
por Internet. - Apropiado para datos de colecciones y
observaciones. - http//digir.net/schema/conceptual/darwin/2003/1.0
/darwin2.xsd - 48 Elementos
DateLastModified InstitutionCode CollectionCode CatalogNumber
ScientificName BasisOfRecord Kingdom Phylum
Class Order Family Genus
Species Subspecies ScientificNameAuthor IdentifiedBy
YearIdentified MonthIdentified DayIdentified TypeStatus
CollectorNumber FieldNumber Collector YearCollected
MonthCollected DayCollected JulianDay TimeOfDay
ContinentOcean Country StateProvince County
Locality Longitude Latitude CoordinatePrecision
BoundingBox MinimumElevation MaximumElevation MinimumDepth
MaximumDepth Sex PreparationType IndividualCount
PreviousCatalogNumber RelationshipType RelatedCatalogItem Notes
Fuente www.gbif.org
14Elementos del Darwin Core 2 (1)
- DateLastModified ISO 8601 compliant stamp
indicating the date and time in UTC(GMT) when the
record was last modified. Example the instant
"November 5, 1994, 81530 am, US Eastern
Standard Time" would be represented as
"1994-11-05T131530Z" - InstitutionCode A "standard" code identifier
that identifies the institution to which the
collection belongs. No global registry exists for
assigning institutional codes. Use the code that
is "standard" in your discipline. - CollectionCode A unique alphanumeric value which
identifies the collection within the institution. - CatalogNumber A unique alphanumeric value which
identifies an individual record within the
collection. It is recommended that this value
provides a key by which the actual specimen can
be identified. If the specimen has several items
such as various types of preparation, this value
should identify the individual component of the
specimen. - ScientificName The full name of lowest level
taxon the Catalogued Item can be identified as a
member of includes genus name, specific epithet,
and subspecific epithet (zool.) or infraspecific
rank abbreviation, and infraspecific epithet
(bot.) Use name of suprageneric taxon (e.g.,
family name) if Catalogued Item cannot be
identified to genus, species, or infraspecific
taxon. - BasisOfRecord An abbreviation indicating whether
the record represents an observation (O), living
organism (L), specimen (S), germplasm/seed (G),
etc. - Kingdom The kingdom to which the organism
belongs - Phylum The phylum (or division) to which the
organism belongs - Class The class name of the organism
- Order The order name of the organism
- Family The family name of the organism
- Genus The genus name of the organism
- Species The specific epithet of the organism
- Subspecies The sub-specific epithet of the
organism - ScientificNameAuthor The author of a scientific
name. Author string as applied to the accepted
name. Can be more than one author (concatenated
string). Should be formatted according to the
conventions of the applicable taxonomic
discipline.
Fuente www.gbif.org
15Elementos del Darwin Core 2 (2)
- IdentifiedBy The name(s) of the person(s) who
applied the currently accepted Scientific Name to
the Catalogued Item. - YearIdentified The year portion of the date when
the Collection Item was identified as four
digits -9999..9999, e.g., 1906, 2002. - MonthIdentified The month portion of the date
when the Collection Item was identified as two
digits 01..12. - DayIdentified The day portion of the date when
the Collection Item was identified as two digits
01..31. - TypeStatus Indicates the kind of nomenclatural
type that a specimen represents. In particular,
the type status may not apply to the name listed
in the scientific name, i.e. current
identification. In rare cases, a single specimen
may be the type of more than one name. - CollectorNumber An identifying "number" (really
a string) applied to specimens (in some
disciplines) at the time of collection.
Establishes a links different parts/preparations
of a single specimen and between field notes and
the specimen. - FieldNumber A "number" (really a string) created
at collection time to identify all material that
resulted from a collecting event. - Collector The name(s) of the collector(s)
responsible for collection the specimen or taking
the observation - YearCollected The year (expressed as an integer)
in which the specimen was collected. The full
year should be expressed (e.g. 1972 must be
expressed as "1972" not "72"). - MonthCollected The month of year the specimen
was collected from the field. Possible values
range from 01...12 inclusive - DayCollected The day of the month the specimen
was collected from the field. Possible value
ranges from 01..31 inclusive - JulianDay The ordinal day of the year i.e., the
number of days since January 1 of the same year.
(January 1 is Julian Day 1.)
Fuente www.gbif.org
16Elementos del Darwin Core 2 (3)
- TimeOfDay The time of day a specimen was
collected expressed as decimal hours from
midnight local time (e.g. 12.0 mid day, 13.5
130pm - ContinentOcean The continent or ocean from which
a specimen was collected. - Country The country or major political unit from
which the specimen was collected. ISO 3166-1
values should be used. Full country names are
currently in use. A future recommendation is to
use ISO3166-1 two letter codes or the full name
when searching - StateProvince The state, province or region
(i.e. next political region smaller than Country)
from which the specimen was collected. - County The county (or shire, or next political
region smaller than State/Province) from which
the specimen was collected - Locality The locality description (place name
plus optionally a displacement from the place
name) from which the specimen was collected.
Where a displacement from a location is provided,
it should be in un-projected units of measurement - Longitude The longitude of the location from
which the specimen was collected. This value
should be expressed in decimal degrees with a
datum such as WGS-84 - Latitude The latitude of the location from which
the specimen was collected. This value should be
expressed in decimal degrees with a datum such as
WGS-84 - CoordinatePrecision An estimate of how tightly
the collecting locality was specified expressed
as a distance, in meters, that corresponds to a
radius around the latitude-longitude coordinates.
Use NULL where precision is unknown, cannot be
estimated, or is not applicable. - BoundingBox This access point provides a
mechanism for performing searches using a
bounding box. A Bounding Box element is not
typically present in the database, but rather is
derived from the Latitude and Longitude columns
by the data provider - MinimumElevation The minimum distance in meters
above (positive) or below sea level of the
collecting locality. - MaximumElevation The maximum distance in meters
above (positive) or below sea level of the
collecting locality.
Fuente www.gbif.org
17Elementos del Darwin Core 2 (4)
- MinimumDepth The minimum distance in meters
below the surface of the water at which the
collection was made all material collected was
at least this deep. Positive below the surface,
negative above (e.g. collecting above sea level
in tidal areas). - MaximumDepth The maximum distance in meters
below the surface of the water at which the
collection was made all material collected was
at most this deep. Positive below the surface,
negative above (e.g. collecting above sea level
in tidal areas). - Sex The sex of a specimen. The domain should be
a controlled set of terms (codes) based on
community consensus. Proposed values MMale
FFemale HHermaphrodite IIndeterminate
(examined but could not be determined UUnknown
(not examined) TTransitional (between sexes
useful for sequential hermaphrodites) - PreparationType The type of preparation (skin.
slide, etc). Probably best to add this as a
record element rather than access point. Should
be a list of preparations for a single collection
record. - IndividualCount The number of individuals
present in the lot or container. Not an estimate
of abundance or density at the collecting
locality. - PreviousCatalogNumber The previous (fully
qualified) catalogue number of the Catalogued
Item if the item earlier identified by another
Catalogue Number, either in the current catalogue
or another Institution / catalogue. A fully
qualified Catalogue Number is preceded by
Institution Code and Collection Code, with a
space separating the each subelement. Referencing
a previous Catalogue Number does not imply that a
record for the referenced item is or is not
present in the corresponding catalogue, or even
that the referenced catalogue still exists. This
access point is intended to provide a way to
retrieve this record by previously used
identifier, which may used in the literature. In
future versions of this schema this attribute
should be set-valued. - RelationshipType A named or coded valued that
identifies the kind relationship between this
Collection Item and the referenced Collection
Item. Named values include "parasite of",
"epiphyte on", "progeny of", etc. In future
versions of this schema this attribute should be
set-valued. - RelatedCatalogItem The fully qualified
identifier of a related Catalogue Item (a
reference to another specimen) Institution Code,
Collection Code, and Catalogue Number of the
related Catalogued Item, where a space separates
the three subelements. - Notes Free text notes attached to the specimen
record.
Fuente www.gbif.org
18DiGIR y Darwin Core2 Ejemplo
- lt?xml version"1.0" encoding"utf-8" ?gt
- ltresponseWrappergt
- ltresponse xmlns'http//digir.net/schema
/protocol/2003/1.0'gt - ltheadergt
- ltversiongtRevision 1.10 lt/versiongt
- ltsendTimegt11-09-2003
1633530200lt/sendTimegt - ltsource resource"biotella"gthttp//gio
rgos.gbif.org80/digir/DiGIR.phplt/sourcegt - ltdestinationgt192.38.103.181lt/destinati
ongt - lt/headergt
- ltcontent xmlnsdarwin'http//digi
r.net/schema/conceptual/darwin/2003/1.0' - xmlnsxsd'http//w
ww.w3.org/2001/XMLSchema' - xmlnsxsi'http//w
ww.w3.org/2001/XMLSchema-instance'gt - ltrecordgt
- ltdarwinDateLastModifiedgt1993071
7T225000Zlt/darwinDateLastModifiedgt - ltdarwinInstitutionCodegtbioshare
.comlt/darwinInstitutionCodegt - ltdarwinCollectionCodegtpyylt/darw
inCollectionCodegt - ltdarwinCatalogNumbergt4lt/darwin
CatalogNumbergt - ltdarwinScientificNamegtDiarsia
mendicalt/darwinScientificNamegt
Fuente www.gbif.org
Volver
19ABCD/BioCASE
- El esquema ABCD (Access to Biological Collection
Data) - Es parte del trabajo realizado por TDWG.
- El objetivo del grupo de trabajo es dar acceso a
los datos de colecciones biológicas del mundo
realizando una estandarización de los datos y
metadatos asociados a estas. - Es altamente comprensivo y estructurado, provee
campos para albergar los datos completos de una
amplia variedad de bases de datos con información
de especimenes y observaciones. - Es compatible con varios estándares de datos.
20ABCD/BioCASE
- BioCASE (Biological Collection Access Service for
Europe) - Proveer a los investigadores acceso unificado a
los datos de colecciones biológicas. - El control de la información debe permanecer en
manos de los custodios. - 35 instituciones de 30 países de Europa e Israel
están participando. - La mayoría de los miembros están desarrollando
nodos nacionales. - www.biocase.org
21ABCD vrs Darwin Core 2
- ABCD y DwC2 son estándares complementarios.
- DwC2 posee un estructura plana de 48 elementos en
cambio ABCD posee una estructura jerárquica que
soporta campos de repetición y tipos de datos
complejos así como texto en formato libre. El
ABCD tiene más de 700 elementos. - El proceso de desarrollo de un portal con ABCD es
más complejo, - Sin embargo se puede utilizar la cantidad mínima
común de elementos de todos los proveedores
(flexible). - Existe un mapeo documentado entre los elementos
de DwC y el esquema ABCD. - En GBIF coexisten ambos de una forma integrada.
Volver
22Iniciativa para metadatos Dublin Core
- Dublin Core Metadata Initiative (DCMI)
- Organización dedicada a promover la adopción de
estándares de metadatos. - Desarrollo de vocabulario especializado para
describir recursos que habiliten sistemas más
inteligentes para descubrir información. - Misión Que sea más fácil encontrar los recursos
de información utilizando Internet, por medio de - Desarrollo de estándares para metadatos.
- Definir marcos de trabajo para la interoperación
de conjuntos de metadatos. - Facilitar el desarrollo de metadatos específicos
(para una comunidad o disciplina)
Volver
23Gracias por la atención
María Auxiliadora Mora Instituto Nacional de
Biodiversidad www.inbio.ac.cr e-mail
mmora_at_inbio.ac.cr