Title: Wissenschaftliche
1Wissenschaftliche Übung Metadatenformate und
-standards
- Volker Herrmann
- Philosophikum, Raum 232 (2.Stock)
- Tel. 470 5228
- Sprechstunde nach Vereinbarung per Mail
- herrmanv_at_uni-koeln.de
-
2Metadaten sind
- Metadata is sometimes defined literally as 'data
about data,' but the term is normally understood
to mean structured data about resources that can
be used to help support a wide range of
operations. (M.Day, 2001) -
-
3Metadaten sind
- Metadata is sometimes defined literally as 'data
about data,' but the term is normally understood
to mean structured data about resources that can
be used to help support a wide range of
operations. (M.Day, 2001) - Daten über Daten Kanzler Schröder
- Autor Harold Pinter
-
4Metadaten sind
- Metadata is sometimes defined literally as 'data
about data,' but the term is normally understood
to mean structured data about resources that can
be used to help support a wide range of
operations. (M.Day, 2001) - Daten über Daten Kanzler Schröder
- Autor Harold Pinter
- in strukturierter Form ltKanzlergtSchröderlt/Kan
zlergt - 100 Pinter, Harold
-
5Metadaten sind
- Metadata is sometimes defined literally as 'data
about data,' but the term is normally understood
to mean structured data about resources that can
be used to help support a wide range of
operations. (M.Day, 2001) - Daten über Daten Kanzler Schröder
- Autor Harold Pinter
- in strukturierter Form ltKanzlergtSchröderlt/Kan
zlergt - 100 Pinter, Harold
- ?Semantik
- Kanzler Vom deutschen Bundestag gewählter
Regierungschef -
6Metadaten sind
- Metadata is sometimes defined literally as 'data
about data,' but the term is normally understood
to mean structured data about resources that can
be used to help support a wide range of
operations. (M.Day, 2001) - Daten über Daten Kanzler Schröder
- Autor Harold Pinter
- in strukturierter Form ltKanzlergtSchröderlt/Kan
zlergt - 100 Pinter, Harold
- ?Semantik
- Kanzler Vom deutschen Bundestag gewählter
Regierungschef - ?Syntax
- Ein xml-Element (tag) muß immer in spitze
Klammern gefasst sein, ein Endtag enthält
zusätzlich vor dem Elementnamen einen Slash -
7Metadaten wozu?
- Information Retrieval Suchen und Finden von
Daten - - Suchen nach bestimmten Kriterien
- - ähnliche Quellen zusammenfassen,
verschiedenenartige - Quellen auseinanderhalten
- - den Ort der Datenquelle festhalten
-
8Das World Wide Web Growing and growing
- Source http//news.netcraft.com/archives/web_ser
ver_survey.html
9Einige weitere Fakten
- (nach Gill, 2000)
- Überwiegende Suchstrategien der User
Suchmaschinen und Hyperlinks - Nur ein Teil der Gesamtmenge der Daten im Web
machen den eigentlichen Gehalt an Informationen
aus (40 ) - User statistics
-
10Informationssuche über Suchmaschinen Google
- Page Ranking
- Verankerter Text
- Visuelle Merkmale
- Volltext Parser
- Location information
- Verteiltes System
11(No Transcript)
12(No Transcript)
13(No Transcript)
14Probleme von Suchmaschinen
- Hohes Recall, niedrige Precision
- ? Relevanz der Ergebnisse
- ? Ergebnismenge
- Aktualität der Suchergebnisse
- Erfasste Datenmenge
- ? Qualität
- ? Indexierungstiefe
-
- - versteckte Daten
- ? dynamisch generierte Daten
15Metadaten zur Beschreibung von Webseiten?
- Meta-Tags für Suchmaschinen
- ltMETA namekeywords contentMetadaten, WWW,
World Wide Web, .gt - ltMETA namedescription contentArtikel über
Metadaten im World Wide Webgt - Dublin Core Metadata Initiative (DCMI)
- Resource Description Framework (RDF)
16 DC Elemente
Webseite als HTML mit eingebetteten DC Elementen
17Metadaten zur Beschreibung von Webseiten? Ja,
aber
- Problem 1 Spamming
- Problem 2 Wie zuverlässig sind die Metadaten
bzgl. ihrer Inhaltsbeschreibung? - Problem 3 Interoperabilität
- Problem 4 Zusatzkosten
- Lösung
- z.B. Mechanismen finden, um Webseiten bzgl.
ihrer Vertrauenswürdigkeit einstufen zu können.
18Beispiel PICS (Platform for Internet Content
Selection)
- Grundprinzipien
- Rating einer Webseite nach bestimmten
Themenbereichen - Rating System
- Software, die PICS-Metadaten lesen und
verarbeiten kann -
-
19Beispiel Vancouver Webpages Rating Service
- Multiculturalism
- Educational Content
- Environmental Awareness
- Tolerance -----------------------------------?
- Violence
- Sex
- Profanity
- Safety
- Canadian Content
- Commercial Content
- Gambling
-
- ltMETA http-equiv"PICS-Label" content'(PICS-1.1
"http//vancouver-webpages.com/VWP1.0/" l gen
true comment "VWP1.0" on "2005.10.17T0633-0700"
r (P 0 S 0 V 0 Com 3 Tol 0 Env 0 SF 2 Edu 1 Can 0
MC 2 Gam 0 ))'gt
Category Tolerance Promotion Promotion of
tolerant behaviour. Positive Portrayal of
tolerant behaviour. Neutral No Intolerant
content reference works, etc. Negative
Portrayal of intolerant behaviour by minor
characters Intolerance Portrayal of intolerant
behaviour by role-model figures. Active
Intolerance Promoting hatred based on
differences in religion, culture, race, sexual
orientation etc. Unlimited Intolerance Active
promotion of intolerant behaviour calling for
ethnic cleansing, Jihad, genocide etc.
20Metadaten wozu?
- Daten eindeutig identifizieren
- Daten(-objekte) lokalisieren durch Persistent
Identifier - - DOI (Digital Object Identifier)
- - PURL (Persistent Uniform Resource Locator)
-
- Metadatenelemente zur standardisierten
Identifikation, - z.B. über standardisierte Nummerierungen
21Beispiel PURL (Persistent Uniform Resource
Locator)
22(No Transcript)
23(No Transcript)
24(No Transcript)
25(No Transcript)
26PURL - Funktionsprinzip
- PURL ist funktional ein URL
- PURL verweist auf einen Resolvermechanismus
- Quellehttp//purl.oclc.org/docs/purl_faq.htmlto
c1.1 -
- URL
- http//my.address.org/very/long/path/name/and/obs
cure/file_name.txt - PURL
- http//purl.oclc.org/foo/bar
27(No Transcript)
28Metadaten - wozu?
- 3. Daten Aufbewahren und Bereitstellen
- - in geordnetem System ablegen
- - Indexieren
- - Katalogisieren
- - Organisieren
- - Beschreiben
- - Langfristige digitale Erhaltung
29Bibliothekarische Metadaten
30Bibliographische Metadaten
31Bibliographische Metadaten
32Bibliographische Metadaten
33MAB2 und MARC - Metadatenformate für
bibliothekarische Daten
- Bibliographische Angaben werden in
bibliothekarischen Metadatenformaten in
Kategorien gefasst. - Die MAB2 Felder
- Jedem MAB2 Feld sind Regeln zugeordnet, mit
welchem Inhalt und in welcher Syntax das Feld
gefüllt werden darf. Das Basisregelwerk für die
Katalogisierung in der BRD sind die Regeln für
die Formalkatalogisierung (früher RAK). - RFK
- GBV Katalogisierungsrichtlinien
34MAB2 und MARC - Metadatenformate für
bibliothekarische Daten
- Bibliographische Angaben werden in
bibliothekarischen Metadatenformaten in
Kategorien gefasst. - Die MAB2 Felder
- Jedem MAB2 Feld sind Regeln zugeordnet, mit
welchem Inhalt und in welcher Syntax das Feld
gefüllt werden darf. Das Basisregelwerk für die
Katalogisierung in der BRD sind die Regeln für
die Formalkatalogisierung (früher RAK). - RFK
- GBV Katalogisierungsrichtlinien
35(No Transcript)
36TEI (Text Encoding Initiative)
- Gedruckte und elektronische Dokumente enthalten
i.d.R. mehr Information als den eigentlichen
Text. - Z.B.
- Ein Dokument kann durch mehrgliedrige
Überschriften strukturiert sein - Bücher verfügen typischerweise über Einleitung
und Register. - Sowohl gedruckte als auch elektronische Texte
können Kommentare, Fußnoten und Varianten
aufweisen. - Elektronische Texte sind dynamisch. Man kann
elektronischem Text ständig neue
Zusatzinformation hinzufügen. - Ausgewählt werden kann z.B., welche Informationen
bei der Wiedergabe des Textes, aufgeführt werden
sollen.
37TEI (Text Encoding Initiative)
- TEI hat ein unabhängiges, portables und offenes
Format zu Speicherung, Austausch und Analyse von
Texten in den Geisteswissenschaften entwickelt. - Das TEI folgte in der Kodierung zunächst der
SGML, neuere Versionen folgen der XML. - Nach TEI ausgezeichnete Texte sind also in SGML
oder XML gehalten, wobei die verwendeten Elemente
über eine zugehörige DTD (Datei, die angibt,
welche Kodierungsregeln in den dazugehörigen
Dokumenten erlaubt sind) validiert werden. - Beispiel einer TEI Kodierung
38Encoded Archival Description (EAD)
- EAD basiert ebenfalls auf SGML/ XML.
- Mit EAD lassen sich digitalisierte Dokumente in
ihrem Zusammenhang beschreiben und über das WWW
präsentieren. - Beispiel EAD Archive und Findhilfen
39(No Transcript)
40(No Transcript)
41(No Transcript)
42(No Transcript)
43(No Transcript)
44(No Transcript)
45(No Transcript)
46(No Transcript)
47(No Transcript)
48(No Transcript)