Est - PowerPoint PPT Presentation

1 / 23
About This Presentation
Title:

Est

Description:

No global registry exists for assigning institutional codes. ... The domain should be a controlled set of terms (codes) based on community consensus. ... – PowerPoint PPT presentation

Number of Views:43
Avg rating:3.0/5.0
Slides: 24
Provided by: mmo77
Category:
Tags: cods | est

less

Transcript and Presenter's Notes

Title: Est


1
Estándares para el intercambio de información
sobre biodiversidad
María Auxiliadora Mora Administradora del Nodo
Participante de Costa Rica en la Red GBIF
2
Contenido
  • El reto de manejar la información sobre
    biodiversidad.
  • Importancia de utilizar estándares.
  • Áreas de la bioinformática en donde los
    estándares son necesarios.
  • Estándares disponibles para el manejo de
    información sobre biodiversidad.

3
El manejar la información sobre la biodiversidad
representa un reto enorme
  • Número esperado de especies 10 millones.
  • 1.7 millones han sido descritas y nombradas.
  • Número total de especímenes en las colecciones
    del mundo de 1-3 mil millones.
  • Sin contar un gran número que corresponden a
    especies aún no descritas.
  • 18 000 nuevas especies se describen cada año.
  • El porcentaje no ha mejorado en los últimos 40
    años.
  • De 1 000 a 10 000 especies se extingen cada año
  • La tasa es 1000 veces más rápida comparada con la
    tasa natural.

Fuente www.gbif.org
4
Importancia de utilizar estándares
  • Hacer los datos de biodiversidad (genes, especies
    y ecosistemas) universalmente disponibles para el
    desarrollo de la ciencia, la sociedad y el futuro
    sostenible.
  • Evitar la duplicación de esfuerzo.
  • No importa la plataforma tecnológica (SO y DB)
    que exista en la institución los estándares son
    aplicables.
  • No dependencia de un proveedor.
  • Más personal calificado disponible.

5
Áreas de la bioinformática en donde los
estándares son necesarios
  • Contenidos de las bases de datos
  • Identificadores
  • Espécimen, observaciones
  • Nombres taxonómicos
  • Instituciones, proveedores, colecciones, y
    personas
  • Procesos
  • Trabajo en equipo (TDWG)
  • Discusiones, documentación
  • Capacitación
  • Open source
  • Protocolos para intercambio de datos
  • XML
  • WebServices (SOAP, WSDL, UDDI)
  • Darwin Core /DiGIR
  • ABCD/BioCASE
  • Dublin Core

Fuente www.gbif.org
6
XML
  • Extensible Markup Language
  • Metalenguaje
  • Independiente de la plataforma
  • Basado en marcas (tags)
  • Extensible No especifica el conjunto de marcas
    ni la gramática.
  • Esquemas
  • Establecen restricciones a un documento XML.
  • Utilizan XML válidos y bien formados.
  • Definen datos respecto a los datos

Volver
7
Servicios Web
  • Un servicio web es
  • Una aplicación o componente de software.
  • Identificado por un URI, cuya interfase y forma
    de comunicación puede ser descrita utilizando
    XML.
  • Soporta interacciones directas con otras
    aplicaciones o componentes a través de
  • Intercambio de información que es expresada
  • In términos de XML vía protocolos basados en
    Internet. - Chris Ferris, Sun Microsystems, W3C

8
Cómo trabajan los servicios web
Volver
9
El protocolo
  • Envío de mensajes codificados en XML sobre HTTP
  • Utilizado como medio de comunicación entre los
    nodos de datos y los usuarios.
  • Es más liviano y especializado que SOAP
  • Permite la creación de un único punto de acceso
    (portal o motor de búsquedas) a recursos
    distribuidos.
  • Recursos una colección de objetos que utilizan
    un esquema común (BD, documentos en XML).
  • Los recursos distribuidos están acorde con un
    esquema
  • Permite la búsqueda y recuperación de datos
    estructurados.
  • Búsqueda de valores en los datos en un contexto
    (semántica)
  • Los resultados son presentados con un conjunto de
    datos estructurados.
  • Hacen que la localización y las caraterísticas
    técnicas de un recurso sean transparentes a los
    usuarios.
  • El protocolo Distributed Generic Information
    Retrieval fue creado por el TDWG/CODATA subgrupo
    de datos de colecciones biológicas.

Fuente www.gbif.org
10
Arquitectura de DiGIR
Portales, Motores de búsqueda y aplicaciones
Proveedores DiGIR
Bases de datos
Fuente www.gbif.org
11
Ejemplo de uso de DiGIR (GBIF)
User
Metadata and name query
Provider query
( UDDI )
Index
Portal
Registry
Request Marshaller
Cache
Metadata
Institutions Providers Services
Available providers
Query Engine
Metadata response
Accounting
Publish availability
Metadata and statistics
Full data response
DiGIR
Full data query
Synonyms, GUIDs
SOAP
Name provider
Data provider
HTTP
Provider Services
Provider Services
Resource
Metadata
Fuente www.gbif.org
12
Interfase para intercambio de datos en el web con
DiGIR
  • Distributed Generic Information Retrieval is un
    protocolo cliente/servidor para la recuperación
    de información de recursos distribuidos.
  • Usa HTTP como mecanismo de transporte y XML para
    la codificación de los mensajes entre el cliente
    y el servidor
  • Tres tipos de mensajes
  • Metadata permite obtener los metadatos del
    proveedor y los recursos que sirve.
  • Search permite realizar búsqueda de registros de
    especimenes y observaciones basado en un criterio
    de búsqueda.
  • Inventory permite obtener un conjunto de valores
    distintos asociados a un concepto, por ejemplo
    especie.
  • Utiliza el esquema Darwin Core2 (apropiado para
    el intercambio de datos de especimenes y
    observaciones).

Fuente www.gbif.org
13
El esquema Darwin Core 2
  • Darwin Core 2 es un simple conjunto de elementos
    que permite estructurar datos de registros de
    especimenes u observaciones para ser compartidos
    como un documento XML que puede ser trasmitido
    por Internet.
  • Apropiado para datos de colecciones y
    observaciones.
  • http//digir.net/schema/conceptual/darwin/2003/1.0
    /darwin2.xsd
  • 48 Elementos

DateLastModified InstitutionCode CollectionCode CatalogNumber
ScientificName BasisOfRecord Kingdom Phylum
Class Order Family Genus
Species Subspecies ScientificNameAuthor IdentifiedBy
YearIdentified MonthIdentified DayIdentified TypeStatus
CollectorNumber FieldNumber Collector YearCollected
MonthCollected DayCollected JulianDay TimeOfDay
ContinentOcean Country StateProvince County
Locality Longitude Latitude CoordinatePrecision
BoundingBox MinimumElevation MaximumElevation MinimumDepth
MaximumDepth Sex PreparationType IndividualCount
PreviousCatalogNumber RelationshipType RelatedCatalogItem Notes
Fuente www.gbif.org
14
Elementos del Darwin Core 2 (1)
  • DateLastModified ISO 8601 compliant stamp
    indicating the date and time in UTC(GMT) when the
    record was last modified. Example the instant
    "November 5, 1994, 81530 am, US Eastern
    Standard Time" would be represented as
    "1994-11-05T131530Z"
  • InstitutionCode A "standard" code identifier
    that identifies the institution to which the
    collection belongs. No global registry exists for
    assigning institutional codes. Use the code that
    is "standard" in your discipline.
  • CollectionCode A unique alphanumeric value which
    identifies the collection within the institution.
  • CatalogNumber A unique alphanumeric value which
    identifies an individual record within the
    collection. It is recommended that this value
    provides a key by which the actual specimen can
    be identified. If the specimen has several items
    such as various types of preparation, this value
    should identify the individual component of the
    specimen.
  • ScientificName The full name of lowest level
    taxon the Catalogued Item can be identified as a
    member of includes genus name, specific epithet,
    and subspecific epithet (zool.) or infraspecific
    rank abbreviation, and infraspecific epithet
    (bot.) Use name of suprageneric taxon (e.g.,
    family name) if Catalogued Item cannot be
    identified to genus, species, or infraspecific
    taxon.
  • BasisOfRecord An abbreviation indicating whether
    the record represents an observation (O), living
    organism (L), specimen (S), germplasm/seed (G),
    etc.
  • Kingdom The kingdom to which the organism
    belongs
  • Phylum The phylum (or division) to which the
    organism belongs
  • Class The class name of the organism
  • Order The order name of the organism
  • Family The family name of the organism
  • Genus The genus name of the organism
  • Species The specific epithet of the organism
  • Subspecies The sub-specific epithet of the
    organism
  • ScientificNameAuthor The author of a scientific
    name. Author string as applied to the accepted
    name. Can be more than one author (concatenated
    string). Should be formatted according to the
    conventions of the applicable taxonomic
    discipline.

Fuente www.gbif.org
15
Elementos del Darwin Core 2 (2)
  • IdentifiedBy The name(s) of the person(s) who
    applied the currently accepted Scientific Name to
    the Catalogued Item.
  • YearIdentified The year portion of the date when
    the Collection Item was identified as four
    digits -9999..9999, e.g., 1906, 2002.
  • MonthIdentified The month portion of the date
    when the Collection Item was identified as two
    digits 01..12.
  • DayIdentified The day portion of the date when
    the Collection Item was identified as two digits
    01..31.
  • TypeStatus Indicates the kind of nomenclatural
    type that a specimen represents. In particular,
    the type status may not apply to the name listed
    in the scientific name, i.e. current
    identification. In rare cases, a single specimen
    may be the type of more than one name.
  • CollectorNumber An identifying "number" (really
    a string) applied to specimens (in some
    disciplines) at the time of collection.
    Establishes a links different parts/preparations
    of a single specimen and between field notes and
    the specimen.
  • FieldNumber A "number" (really a string) created
    at collection time to identify all material that
    resulted from a collecting event.
  • Collector The name(s) of the collector(s)
    responsible for collection the specimen or taking
    the observation
  • YearCollected The year (expressed as an integer)
    in which the specimen was collected. The full
    year should be expressed (e.g. 1972 must be
    expressed as "1972" not "72").
  • MonthCollected The month of year the specimen
    was collected from the field. Possible values
    range from 01...12 inclusive
  • DayCollected The day of the month the specimen
    was collected from the field. Possible value
    ranges from 01..31 inclusive
  • JulianDay The ordinal day of the year i.e., the
    number of days since January 1 of the same year.
    (January 1 is Julian Day 1.)

Fuente www.gbif.org
16
Elementos del Darwin Core 2 (3)
  • TimeOfDay The time of day a specimen was
    collected expressed as decimal hours from
    midnight local time (e.g. 12.0 mid day, 13.5
    130pm
  • ContinentOcean The continent or ocean from which
    a specimen was collected.
  • Country The country or major political unit from
    which the specimen was collected. ISO 3166-1
    values should be used. Full country names are
    currently in use. A future recommendation is to
    use ISO3166-1 two letter codes or the full name
    when searching
  • StateProvince The state, province or region
    (i.e. next political region smaller than Country)
    from which the specimen was collected.
  • County The county (or shire, or next political
    region smaller than State/Province) from which
    the specimen was collected
  • Locality The locality description (place name
    plus optionally a displacement from the place
    name) from which the specimen was collected.
    Where a displacement from a location is provided,
    it should be in un-projected units of measurement
  • Longitude The longitude of the location from
    which the specimen was collected. This value
    should be expressed in decimal degrees with a
    datum such as WGS-84
  • Latitude The latitude of the location from which
    the specimen was collected. This value should be
    expressed in decimal degrees with a datum such as
    WGS-84
  • CoordinatePrecision An estimate of how tightly
    the collecting locality was specified expressed
    as a distance, in meters, that corresponds to a
    radius around the latitude-longitude coordinates.
    Use NULL where precision is unknown, cannot be
    estimated, or is not applicable.
  • BoundingBox This access point provides a
    mechanism for performing searches using a
    bounding box. A Bounding Box element is not
    typically present in the database, but rather is
    derived from the Latitude and Longitude columns
    by the data provider
  • MinimumElevation The minimum distance in meters
    above (positive) or below sea level of the
    collecting locality.
  • MaximumElevation The maximum distance in meters
    above (positive) or below sea level of the
    collecting locality.

Fuente www.gbif.org
17
Elementos del Darwin Core 2 (4)
  • MinimumDepth The minimum distance in meters
    below the surface of the water at which the
    collection was made all material collected was
    at least this deep. Positive below the surface,
    negative above (e.g. collecting above sea level
    in tidal areas).
  • MaximumDepth The maximum distance in meters
    below the surface of the water at which the
    collection was made all material collected was
    at most this deep. Positive below the surface,
    negative above (e.g. collecting above sea level
    in tidal areas).
  • Sex The sex of a specimen. The domain should be
    a controlled set of terms (codes) based on
    community consensus. Proposed values MMale
    FFemale HHermaphrodite IIndeterminate
    (examined but could not be determined UUnknown
    (not examined) TTransitional (between sexes
    useful for sequential hermaphrodites)
  • PreparationType The type of preparation (skin.
    slide, etc). Probably best to add this as a
    record element rather than access point. Should
    be a list of preparations for a single collection
    record.
  • IndividualCount The number of individuals
    present in the lot or container. Not an estimate
    of abundance or density at the collecting
    locality.
  • PreviousCatalogNumber The previous (fully
    qualified) catalogue number of the Catalogued
    Item if the item earlier identified by another
    Catalogue Number, either in the current catalogue
    or another Institution / catalogue. A fully
    qualified Catalogue Number is preceded by
    Institution Code and Collection Code, with a
    space separating the each subelement. Referencing
    a previous Catalogue Number does not imply that a
    record for the referenced item is or is not
    present in the corresponding catalogue, or even
    that the referenced catalogue still exists. This
    access point is intended to provide a way to
    retrieve this record by previously used
    identifier, which may used in the literature. In
    future versions of this schema this attribute
    should be set-valued.
  • RelationshipType A named or coded valued that
    identifies the kind relationship between this
    Collection Item and the referenced Collection
    Item. Named values include "parasite of",
    "epiphyte on", "progeny of", etc. In future
    versions of this schema this attribute should be
    set-valued.
  • RelatedCatalogItem The fully qualified
    identifier of a related Catalogue Item (a
    reference to another specimen) Institution Code,
    Collection Code, and Catalogue Number of the
    related Catalogued Item, where a space separates
    the three subelements.
  • Notes Free text notes attached to the specimen
    record.

Fuente www.gbif.org
18
DiGIR y Darwin Core2 Ejemplo
  • lt?xml version"1.0" encoding"utf-8" ?gt
  • ltresponseWrappergt
  • ltresponse xmlns'http//digir.net/schema
    /protocol/2003/1.0'gt
  • ltheadergt
  • ltversiongtRevision 1.10 lt/versiongt
  • ltsendTimegt11-09-2003
    1633530200lt/sendTimegt
  • ltsource resource"biotella"gthttp//gio
    rgos.gbif.org80/digir/DiGIR.phplt/sourcegt
  • ltdestinationgt192.38.103.181lt/destinati
    ongt
  • lt/headergt
  • ltcontent xmlnsdarwin'http//digi
    r.net/schema/conceptual/darwin/2003/1.0'
  • xmlnsxsd'http//w
    ww.w3.org/2001/XMLSchema'
  • xmlnsxsi'http//w
    ww.w3.org/2001/XMLSchema-instance'gt
  • ltrecordgt
  • ltdarwinDateLastModifiedgt1993071
    7T225000Zlt/darwinDateLastModifiedgt
  • ltdarwinInstitutionCodegtbioshare
    .comlt/darwinInstitutionCodegt
  • ltdarwinCollectionCodegtpyylt/darw
    inCollectionCodegt
  • ltdarwinCatalogNumbergt4lt/darwin
    CatalogNumbergt
  • ltdarwinScientificNamegtDiarsia
    mendicalt/darwinScientificNamegt

Fuente www.gbif.org
Volver
19
ABCD/BioCASE
  • El esquema ABCD (Access to Biological Collection
    Data)
  • Es parte del trabajo realizado por TDWG.
  • El objetivo del grupo de trabajo es dar acceso a
    los datos de colecciones biológicas del mundo
    realizando una estandarización de los datos y
    metadatos asociados a estas.
  • Es altamente comprensivo y estructurado, provee
    campos para albergar los datos completos de una
    amplia variedad de bases de datos con información
    de especimenes y observaciones.
  • Es compatible con varios estándares de datos.

20
ABCD/BioCASE
  • BioCASE (Biological Collection Access Service for
    Europe)
  • Proveer a los investigadores acceso unificado a
    los datos de colecciones biológicas.
  • El control de la información debe permanecer en
    manos de los custodios.
  • 35 instituciones de 30 países de Europa e Israel
    están participando.
  • La mayoría de los miembros están desarrollando
    nodos nacionales.
  • www.biocase.org

21
ABCD vrs Darwin Core 2
  • ABCD y DwC2 son estándares complementarios.
  • DwC2 posee un estructura plana de 48 elementos en
    cambio ABCD posee una estructura jerárquica que
    soporta campos de repetición y tipos de datos
    complejos así como texto en formato libre. El
    ABCD tiene más de 700 elementos.
  • El proceso de desarrollo de un portal con ABCD es
    más complejo,
  • Sin embargo se puede utilizar la cantidad mínima
    común de elementos de todos los proveedores
    (flexible).
  • Existe un mapeo documentado entre los elementos
    de DwC y el esquema ABCD.
  • En GBIF coexisten ambos de una forma integrada.

Volver
22
Iniciativa para metadatos Dublin Core
  • Dublin Core Metadata Initiative (DCMI)
  • Organización dedicada a promover la adopción de
    estándares de metadatos.
  • Desarrollo de vocabulario especializado para
    describir recursos que habiliten sistemas más
    inteligentes para descubrir información.
  • Misión Que sea más fácil encontrar los recursos
    de información utilizando Internet, por medio de
  • Desarrollo de estándares para metadatos.
  • Definir marcos de trabajo para la interoperación
    de conjuntos de metadatos.
  • Facilitar el desarrollo de metadatos específicos
    (para una comunidad o disciplina)

Volver
23
Gracias por la atención
María Auxiliadora Mora Instituto Nacional de
Biodiversidad www.inbio.ac.cr e-mail
mmora_at_inbio.ac.cr
Write a Comment
User Comments (0)
About PowerShow.com