Informationsintegration - PowerPoint PPT Presentation

About This Presentation
Title:

Informationsintegration

Description:

Title: Das XML-Datenbanksystem Tamino Author: Thomas Kudrass Last modified by: Kudrass Document presentation format: Overheadfolien Other titles: Times New Roman ... – PowerPoint PPT presentation

Number of Views:74
Avg rating:3.0/5.0
Slides: 63
Provided by: ThomasK67
Category:

less

Transcript and Presenter's Notes

Title: Informationsintegration


1
Informationsintegration
2
Einführung
  • Traditionelle Datenbankverarbeitung zentralisiert
  • Administrationsvorteile
  • Leistungs- und Verfügbarkeitsproblem
  • Entwicklung verteilter Informationssysteme
  • Hohe Leistungsfähigkeit
  • Skalierbarkeit
  • Hohe Verfügbarkeit
  • Verteilungstransparenz
  • Unterstützung dezentraler Organisationsstrukturen
  • Integrierter Zugriff auf heterogene Datenbanken
  • Data Warehousing
  • Unternehmensportale
  • Einfache Systemadministration, Hohe
    Kosteneffektivität

3
Einführung (2)
  • Zusammenführung von Daten und Inhalten aus
    verschiedenen Quellen zu einer einheitlichen
    Menge von Informationen
  • Aufnahme zusätzlicher Komponenten, um Angebot zu
    vergrössern und zu verbessern
  • Randbedingungen
  • Einbindung soll integriert erfolgen
  • Systeme der eingebundenen Partner bleiben autonom
  • Für die Einbindung keine grossen Änderungen
  • Integrierte vs. Föderative Mehrrechner-DBS

4
Überblick
  • Grundbegriffe
  • Integrationsansätze
  • Materialisierte Integration
  • Virtuelle Integration
  • Architektur föderierter Systeme
  • Integrationskonflikte
  • Schemaintegration
  • Integration mittels Mashups
  • Zusammenfassung

5
(Knoten)-Autonomie
  • Grad, zu dem verschiedene DBMS unabhängig
    kooperieren können
  • Hoher Grad an Autonomie ? Föderiertes System (oft
    lose gekoppelt)
  • Arten der Autonomie
  • Design-Autonomie (Wahl des DBMS, Wahl der
    Ablaufumgebung)
  • Ausführungsautonomie (vs. globales
    Transaktionsmanagement)
  • Kooperationsautonomie / Kommunikationsautonomie
  • Autonomie als organisatorisches Problem
  • Beschneidung von Kompetenzen und Verantwortungen
    einzelner Systemverantwortlicher

6
Begriff Föderation
  • Vgl. Beispiel Bundesrepublik Deutschland
  • Bundesländer bedingt autonom
  • Konflikte durch konkurrierende Gesetzgebung
  • Weitere Föderationen
  • Europäische Union
  • Vereinigte Staaten von Amerika
  • Vereinte Nationen (UNO)
  • Charakter einer Föderation
  • Grad der verbleibenden Autonomie
  • Heterogenität der beteiligten (Teil-)Staaten
  • Übertragbarkeit auf Informationssysteme ?

7
Architekturvarianten
8
Heterogenität
  • Hoher Grad an Autonomie führt zu einer wachsenden
    Heterogenität ? Unterschiedlichkeit von
    miteinander verbundenen Informationssystemen
  • Dimension Heterogenität
  • Technische Heterogenität (syntaktische Ebene)
  • Datenmodellbasierte Heterogenität
  • Logische Heterogenität
  • Semantische Heterogenität (Synonyme, Homonyme)
  • Schemabasierte Heterogenität
  • Strukturelle Heterogenität
  • Heterogenitäten zu überbrücken ist die
    Kernaufgabe der Integration!

9
Integrations-Beispiel
  • Starke Heterogenität der Systeme
  • Quelle 1 Oracle-Datenbank ? Zugriff über JDBC
  • Quelle 2 CORBA Schnittstelle, über die auf den
    Informationsbestand zugegriffen werden kann
  • Quelle 3 XML-Datenbanksystem ? Zugriff mittels
    XML-Standards (XPath, XQuery)
  • Quelle 4 Angebot von statischen HTML-Seiten ?
    Zugriff via HTTP-Protokoll
  • Alle Quellen verwenden unterschiedliche Schemata
  • Entkopplung durch eine Zwischenschicht, die eine
    integrierte Sicht zur Verfügung stellt

10
Anbindung virtuell vs. materialisiert
Systeme zur Datenintegration
Verteilte Anfragebearbeitung
Kopieren der Daten
Materialisierte Integration
Virtuelle Integration
Strukturierte Anfragen
Unstrukturierte Anfragen
(Semi-) Strukturierte Daten
Updates, Transaktionen
Leseoperationen
Mediatoren-Systeme
Föderierte DBS
(Meta-)Suchmaschinen
Data Warehouses
11
Materialisierte Integration
12
Virtuelle Integration Mediatorbasierte
Informationssysteme
Anwendung 1
Anwendung 2
Schaffung leicht-gewichtiger, verwaltbarer
Mediatoren ?Kopplung verschiedener Mediatoren zu
einer mehrschichtigen Föderationsarchitektur
Mediator
Daten aus verschiedenen Quellen müssen
zusammengefasst werden Schema Mapping
Mediator
Wrapper
Wrapper
Wrapper
Quelle 1
Quelle 2
Quelle 3
13
Mediatorbasierte IS - Beispiel
Benutzer wählt aus Kategorie gtgtBohrmaschinenltlt
unter 250,-
Generierung der Anfrage SELECT Name, Preis,
Bewertung WHERE Preis lt 250 AND Kategorie
Bohrmaschine
Anwendung
Mediator
Mediator
Wrapper
Wrapper
Wrapper
Handwerkermarkt
Verbraucherportal
Öffentliche Verwaltung
14
Mediatorbasierte IS Beispiel (2)
Anfragezerlegung Übersetzung ins Schema der
Quellen
Anwendung
Mediator
Mediator
Wrapper
Wrapper
Wrapper
Handwerkermarkt
Verbraucherportal
Öffentliche Verwaltung
15
Mediatorbasierte IS Beispiel (3)
Übersetzung in Quellenanfragen Absetzen der
Anfragen
Anwendung
Mediator
Mediator
Wrapper
Wrapper
Wrapper
Handwerkermarkt
Verbraucherportal
Öffentliche Verwaltung
16
Mediatorbasierte IS Beispiel (4)
Zusammenführung der Ergebnisse einer
Quelle Transformation in das gemeinsame
Datenmodell und Ausführung von Filteroperationen
Anwendung
Mediator
Mediator
Wrapper
Wrapper
Wrapper
Handwerkermarkt
Verbraucherportal
Öffentliche Verwaltung
Quellen liefern Ergebnis zurück
17
Mediatorbasierte IS Beispiel (5)
Aufbereitung der Ergebnisse für den Benutzer
Übersetzung ins Informationsmodell des
Portales z.Bsp. Artikelname -gt Name Verschmelzen
der Ergebnismengen
Sammeln der Ergebnisse
Anwendung
Mediator
Mediator
Wrapper
Wrapper
Wrapper
Handwerkermarkt
Verbraucherportal
Öffentliche Verwaltung
18
Typen von föderierten IS
Föderierte Informationssysteme
Föderiertes Schema
Kein Föderiertes Schema
Komponenten sind nicht nur Datenbanken
Komponenten sind Datenbanken
Lose gekoppelte Informationssysteme
Föderierte Datenbanksysteme
Mediator-basierte Informationssysteme
19
Systemarchitektur föderierter DBS
Globale Anwendungen
Globale Anwendungen
Föderierungsdienst
Metadaten
Lokale Anwendungen
Lokale Anwendungen
Datenbanksystem
Datenbanksystem
Datenbank
Datenbank
Komponentensystem
Komponentensystem
Föderiertes DBS
20
5-Ebenen-Schema-Architektur
Föderiertes Datenbanksystem
Externes Schema
Externes Schema
Föderiertes (globales) Schema
Anfragebearbeitung
Integration
Schemaintegration
Exportschema
Exportschema
Auswahl der zu integrierenden Teile
Komponentenschema
Komponentenschema
Übersetzung in gemeinsames Datenmodell
Lokales Schema
Lokales Schema
Datenbank
Datenbank
21
Global-As-View Beispiel
Bottom-Up-Integration
Lokale Schemata V1 IMDB(Titel, Regie, Jahr,
Genre) V2 MyMovies(Titel, Regie, Jahr, Genre)
Bekannte Nebenbedingung auf dem globalen Schema
kann modelliert werden.
Globales Schema NeuerFilm(Titel, Regie, Jahr,
Genre) Programm(Kino, Titel, Zeit) Nebenbedingung
Jahr gt 2000
CREATE VIEW NeuerFilm AS SELECT FROM IMDB WHERE
Jahr gt 2000 UNION SELECT FROM MyMovies WHERE
Jahr gt 2000
22
Local-As-View Beispiel
Top-Down-Integration
Lokales Schema V3 KinoDB(Kino, Genre)
Assoziationen des globalen Schemas können in der
Sicht hergestellt werden.
Globales Schema Film(Titel, Regie, Jahr,
Genre) Programm(Kino, Titel, Zeit)
CREATE VIEW V3 AS SELECT Programm.Kino,
Film.Genre FROM Film, Programm WHERE Film.Titel
Programm.Titel
23
Anwendungsgebiete föderierter DBS
  • Meta-Suchmaschinen
  • Digitale Bibliotheken
  • Unternehmensfusionen
  • Kundendatenbanken
  • Personaldatenbanken
  • Krankenhausinformationssysteme
  • Krankheitsverlauf (Akte)
  • Verwaltung
  • Krankenkasse
  • Geo-Informationssysteme

24
Integrationsprozess (virtuelle Integration)
  • Bildung eines globalen Schemas (Schemaintegration)
  • Generierung von Wrappern für jede Datenquelle
  • Softwarekomponente
  • Mapping von lokalen Schemata auf globales Schema
  • Kennt Anfragefähigkeiten der Quellen
  • Daten bleiben vor Ort
  • Informationsquellen sind autonom

25
Integrationsprozess (materialisierte Integration)
  • Keine wirklich einheitliche und durchgängige
    Methodik für die Durchführung der Integration
    vorhanden
  • 5 Phasen des Integrationsprozesses
  • Analyse der zu integrierenden Datenquellen
  • Transformation der gegebenenfalls heterogenen
    Beschreibungen der Daten (Datenbankschemata) in
    ein gemeinsames Datenmodell
  • Feststellung der sich semantisch entsprechenden
    Daten (Angabe sogenannter Korrespondenzen)
  • Ableitung eines integrierten Schemas
  • Integration der Daten

26
Binäre vs. n-äre Integration
27
Probleme beim Integrationsprozess
  • Datenbankschemata oft nicht vollständig
  • Datenquellen oft "semistrukturiert", oder es gibt
    überhaupt kein Datenbankschema
  • In Altsystemen Semantik der Daten in der
    Datenbank nicht vollständig bekannt
  • Korrespondenzen und Abhängigkeiten zwischen Daten
    aus verschiedenen Quellen sind nicht bekannt
  • Wie ist die Heterogenität zu überwinden?

28
Kriterien für Integrationsmethoden
  • Vollständigkeit (Completeness)
  • Alle Informationen aus lokalen Schemata erhalten
  • Korrektheit (Correctness)
  • Neue Beziehungen dürften vorhandene Schemata
    konsistent ergänzen
  • Minimalität (Minimality)
  • Vermeidung von Redundanz
  • Verständlichkeit (Understandability)
  • Bekanntes aus lokalem Schema ins föderierte
    Schema übernehmen
  • Vergleich mit traditionellem DB-Entwurf?

29
Klassifizierung von Integrationskonflikten
  • Datenmodell-Heterogenität
  • Unterschiedliche Semantik
  • Unterschiedliche Struktur
  • Schema- oder Modellierungsheterogenität
  • Strukturelle Konflikte
  • Extensionale Konflikte
  • Beschreibungskonflikte
  • Heterogenität auf Datenebene (Datenkonflikt)

30
Datenmodellkonflikte
  • Vielzahl an Datenmodellen mit unterschied-lichen
    Modellierungskonstrukten
  • objektorientiert, relational, XML, hierarchisch,
    objektrelational
  • Beispiele
  • Mengenwertige Attribute (objektrelational) vs.
    Fremdschlüsselbeziehung (relational)
  • Modellierung von Spezialisierung im relationalen
    Modell (mindestens 3 Varianten)
  • Konstrukte eines Datenmodells werden oft nicht
    vollständig oder falsch verwendet

31
Schematische Heterogenität
  • Unterschiedliche Modellierung gleicher
    Sachverhalte
  • Strukturelle Konflikte
  • Modellierung Relation vs. Attribut, Attribut vs.
    Wert, Relation vs. Wert
  • Benennung Relationen, Attribute
  • Geschachtelt vs. Fremdschlüssel

Person ( Id, Vorname, Nachname, Männlich,
Weiblich )
Männer (Id, Vorname, Nachname) Frauen (Id,
Vorname, Nachname)
32
Schematische Heterogenität (2)
  • Tabellen Tabellen Konflikte
  • Namenskonflikte (gleiche Namen aber
    unterschiedliche Tabellen)
  • Strukturkonflikte (fehlende Attribute)
  • Attribut Attribut Konflikte
  • Namenskonflikte (gleiche Namen aber
    unterschiedliche Attribute)
  • Default-Wert Konflikte
  • IC-Konflikte (Datentypkonflikte,
    Bedingungskonflikte)

33
Beschreibungskonflikte
  • Unterschiedliche Auswahl an erfassten
    Objekteigenschaften
  • Homonyme und synonyme Bezeichnungen
  • bei Attributen, Klassen, Relationen, Beziehungen
  • Datentypkonflikte
  • Wertebereichskonflikte
  • Skalierungskonflikte (Maßeinheiten)
  • Genauigkeitskonflikte
  • Konflikte durch Integritätsbedingungen
  • Konflikte der Manipulationsoperationen

34
Beispiele für Beschreibungskonflikte
Homonyme Schloss ? Türschloss Schloss ? Gebäude
Synonyme Personal Angestellte
Datentypen int string (für Zahlen)
Skalierungen 0,153 (Meter) 153,0 (Millimeter)
Genauigkeiten 0,543 kg 0,54321 kg
Integritäts-bedingungen Gehalt lt 6000 Gehalt lt 7000
35
Synonyme
  • Verschiedene Worte mit gleicher Bedeutung

Quelle 1 - UNIBIB
PUBLIKATION (Pubnr, Titel, Typcode) BUCHPUB
(Pubnr, Verlag, Ejahr, Exemplare, ISBN) VERFASSER
(Pubnr, Vname) SCHLAGWORT (Pubnr, Sname)
Quelle 2 - STADTBIB
BUCH (ISBN, Titel, Autor, Vnr, Jahr, Preis,
Standort) VERLAG (Vnr, Vname, Adresse)
36
Homonyme
  • Gleiche Worte mit unterschiedlicher Bedeutung

Quelle 1 - UNIBIB
PUBLIKATION (Pubnr, Titel, Typcode) BUCHPUB
(Pubnr, Verlag, Ejahr, Exemplare, ISBN) VERFASSER
(Pubnr, Vname) SCHLAGWORT (Pubnr, Sname)
Quelle 2 - STADTBIB
BUCH (ISBN, Titel, Autor, Vnr, Jahr, Preis,
Standort) VERLAG (Vnr, Vname, Adresse)
37
Hauptproblem Semantische Heterogenität
  • Bezeichnet Unterschiede in Bedeutung,
    Interpretation und Art der Nutzung
  • Annahme bisher ? gleiche Bezeichnung, gleiche
    Semantik
  • Repräsentiert Objekt A die gleiche Entität wie
    Objekt B? (Identifikationskonflikte)
  • Datenkonflikt Zwei Duplikate haben
    unterschiedliche Attributwerte für semantisch
    gleiches Attribut
  • Genauigkeitskonflikte

38
Datenkonflikte
  • Inkorrekte Einträge
  • Tippfehler bei der Eingabe von Werten
  • Falsche Einträge aufgrund von Programmierfehlern
  • Veraltete Einträge
  • Unterschiedliche Aktualisierungszeitpunkte
  • Vergessene Aktualisierungen
  • Verschiedene Ausdrücke / Repräsentation von
    Werten
  • Verschiedene Datentypen (numerisch vs.
    nicht-numerisch)
  • Unterschiedliche Schreibweisen, Genauigkeit,
    Skalierung (bei gleichem Datentyp)

39
Behebung von Datenkonflikten
  • Angabe expliziter Werteabbildungen
  • Einführung von Ähnlichkeitsmaßen
  • Bevorzugung der Werte aus einer lokalen Quelle
  • Verwendung von Hintergrundwissen
  • Konventionen hinsichtlich Schreibweisen
  • Behandlung von Homonymen und Synonymen auf
    Datenebene Wörterbücher, Thesauri, Ontologien
  • Wissensbasierte Verfahren

40
Integrationspotential
  • Wann ist eine Informationsintegration möglich?
  • Intensionale Redundanz
  • Wann ist eine Informationsintegration schwierig?
  • Extensionale Redundanz
  • Wann ist eine Informationsintegration nützlich?
  • Extensionale Komplementierung
  • Intensionale Komplementierung

41
Intension und Extension
  • Intension ? Menge der Schemainformationen und
    deren Semantik
  • Extension ? Menge aller zur Intension gehörigen
    Daten

ISBN Titel Autor
123456 Mobby Dick Herman Melville
789101 Robinson Crusoe Daniel Defoe
122222 XML-DB Karl May
Intension Extension
42
Intensionale Redundanz
  • Liegt vor, wenn das Entfernen von Teilen der
    Intension die Gesamtintension nicht verändert.
  • Intensionale Redundanz auch über mehrere
    Relationen und Quellen.

ISBN ID Titel Autor
3442727316 3442727316 Moby Dick Herman Melville
3491960827 3491960827 Robinson Crusoe Daniel Defoe
3462032283 3462032283 Zwölf Nick McDonell
3883891606 3883891606 Timbuktu Paul Auster
43
Intensionale Komplementierung
ISBN Autor
123456 Herman Melville
789101 Daniel Defoe
122222 Karl May
ISBN Titel
122222 XML-DB
123456 Mobby Dick
789101 Robinson Crusoe
  • Informationen mehrerer (sich komplementierender)
    Quellen werden zu einem größeren Ganzen
    integriert
  • Intensionale Komplementierung liegt vor, wenn von
    zwei Intensionen
  • mindestens eine Differenz nicht leer ist,
  • und deren Schnittmenge nicht leer ist.

ISBN Autor
123456 Herman Melville
789101 Daniel Defoe
122222 Karl May
Titel
Mobby Dick
Robinson Crusoe
XML-DB
44
Extensionale Redundanz
  • Liegt vor, wenn die Menge der von zwei Quellen
    gemeinsam repräsentierten Objekte nicht leer ist.

ID Autor
122222 Karl Mai
123456 Herman Melville
ISBN Autor
123456 Herman Melville
122222 Karl May
Extensionale Redundanz
Datenkonflikt
45
Zusammenfassung Redundanz
  • Extensionale Redundanz ermöglicht intensionale
    Komplementierung
  • Zwei Quellen, die über gleiche Dinge sprechen,
    können zu einer dichteren Quelle integriert
    werden (Density)
  • Intensionale Redundanz ermöglicht extensionale
    Komplementierung
  • Zwei Quellen mit gleichem Schema können zu einer
    überdeckenderen Quelle integriert werden
    (Coverage)

46
Schemaintegration
  • Ziel aus mehreren Export-Schemata ein globales
    konzeptionelles Schema erstellen
  • Unterstützung durch geeignete Tools
  • Umfasst 3 Phasen
  • Vorintegration
  • Erkennung und Behebung von Konflikten
  • Mischen und Restrukturierung der Schemaangaben

47
Schemaintegration Beispiel
  1. Vorintegration
  2. Konflikterkennung Behebung
  3. Mischen Restrukturierung

Quelle 1 - UNIBIB
PUBLIKATION (Pubnr, Titel, Typcode) BUCHPUB
(Pubnr, Verlag, Ejahr, Exemplare, ISBN) VERFASSER
(Pubnr, Vname) SCHLAGWORT (Pubnr, Sname)
Quelle 2 - STADTBIB
BUCH (ISBN, Titel, Autor, Vnr, Jahr, Preis,
Standort) VERLAG (Vnr, Vname, Adresse)
48
Schemaintegration Beispiel (2)
  1. Vorintegration
  2. Konflikterkennung Behebung
  3. Mischen Restrukturierung

Quelle 1 - UNIBIB
PUBLIKATION (Pubnr, Titel, Typcode) BUCHPUB
(Pubnr, Vname, Jahr, Exemplare, ISBN) VERFASSER
(Pubnr, Autor) SCHLAGWORT (Pubnr, Sname)
Quelle 2 - STADTBIB
BUCH (ISBN, Titel, Autor, Vnr, Jahr, Preis,
Standort) VERLAG (Vnr, Vname, Adresse)
49
Schemaintegration Beispiel (3)
  • Schwierigkeit Integritätsbedingungen
  • Pubnr nur in der ersten und Vnr nur in der
    zweiten
  • Datenbank bekannt
  • Unterschiedliche Behandlung von Autoren
  • Annahme zu BUCH-ISBN kann ein Pubnr Wert und
    zu einem Verlagsname ein Vnr Wert bestimmt
    werden
  • Liegen der ISBN bzw. Vname Wert bereits in
    BUCHPUB bzw. VERLAG vor ergibt sich die
    Zuordnung aus dem Inhalt
  • Gegebenfalls neue Nummern generieren
  • Attribut Autor aus BUCH extrahieren und in
    VERFASSER überführen
  1. Vorintegration
  2. Konflikterkennung Behebung
  3. Mischen Restrukturierung

50
Schemaintegration Beispiel (4)
  1. Vorintegration
  2. Konflikterkennung Behebung
  3. Mischen Restrukturierung
  • Attribute der BUCH Relation auf BUCHP,
    PUBLIKATION und VERFASSER abgebildet
  • Angaben von BUCHPUB befinden sich weitgehend in
    BUCHP, lediglich Verlagsname nun in VERLAG

PUBLIKATION (Pubnr, Titel, Typcode) BUCHP
(Pubnr, Vnr, Jahr, Preis, Standort-STADT, Ex-UNI,
ISBN) VERFASSER (Pubnr, Autor) SCHLAGWORT (Pubnr,
Sname) VERLAG (Vnr, Vname, Adresse)
51
Prinzipien der Schemaintegration
  • Korrespondenzen
  • Element-Korrespondenzen (z.B. Klassen,
    Relationen)
  • Attribut-Korrespondenzen
  • Pfad-Korrespondenzen
  • Korrespondenzen auf Basis von Mengenbeziehungen
  • Äquivalenz
  • Teilmengenbeziehung / Einschluß
  • Überlappung
  • Disjunktheit

52
Integrationsregeln (1)
  • Regel 1 Unabhängige ElementeJedes
    Schemaelement, zu dem es keine Korrespondenz mit
    einem Schemaelement des anderen Schema gibt, wird
    unverändert ins föderierte Schema übernommen.

53
Integrationsregeln (2)
  • Regel 2 Äquivalente ElementeSind 2
    Schemaelemente der zu integrierenden Schemata
    über eine Element-Korrepondenz als äquivalent
    bestimmt, so werden diese beiden Schemaelemente
    im föderierten Schema durch genau ein
    Schemaelement repräsentiert.
  • Integrationsregeln für Attribute
  • Attribute ohne Korrespondenz unverändert
    übernehmen
  • 2 Attribute mit Gleichheits-Korrespondenz ? zu
    einem Attribut im föderierten Schema
    zusammenfassen
  • Bei Teilmengen-Korrespondenz ? Attribut, das
    Obermenge repräsentiert, ins föderierte Schema
    übernehmen
  • Bei Überlappungs-Korrespondenz ? neues Attribut
    anlegen, das die Vereinigung der beiden
    Wertemenge repräsentiert, andere Form der
    Zusammenführung bei Disjunktheit (z.B. Summe,
    Mittelwertbildung)

54
Integrationsregeln (3)
  • Regel 3 Pfad-IntegrationIn der Regel müssen die
    beiden zueinander in Korrespondenz stehenden
    Pfade im föderierten Schema jeweils durch einen
    semantisch äquivalenten Pfad abgebildet sein. Nur
    falls eine Pfad-Äquivalenz als Korrespondenz
    vorliegt, reicht es, wenn einer der beiden Pfade
    im föderierten Schema abgebildet ist.Sind beide
    Pfade vollständig im integrierten Schema
    enthalten, liefert die Pfad-Korrespondenz eine
    Integritätsbedingung, die auf Ebene des
    föderierten Schemas zu überwachen ist.
  • Beispiel
  • KUNDE bestellt WARE ABNEHMER versorgt
  • WARE produziert Hersteller versorgt
    PRODUZENT
  • abgeleitet KUNDE bestellt WARE produziert
    HERSTELLER ABNEHMER versorgt PRODUZENT

55
Mashup-Ansatz zur Datenintegration
  • besondere Art von Anwendungen zur
    Datenintegration
  • neuer Ansatz gegenüber klassischen
    Datenintegrationsansätzen wie Data Warehouses
    oder Query-Mediatoren
  • Entwicklung
  • potenzieller Kreis der Mashup-Entwickler viel
    größer (evtl. ohne Programmierkenntnisse)
  • kurze Entwicklungszeit, frühzeitige Evaluierung
    und Anpassung (Stunden, Tage)
  • Geeignet für Prototyping und agile
    Entwicklungsmethoden

56
Arten von Mashups
  • Mapping-Mashups
  • Integrieren Daten aus online verfügbaren Karten
    (maps)
  • Hohe Verbreitung durch Mapping-APIs (Google,
    Yahoo, Microsoft)
  • Foto- und Video-Mashups
  • motiviert durch Foto-Hosting-Sites (flickr) und
    Videoportale (YouTube)
  • Integration externer Daten mit Hilfe von
    Metadaten (z.B. für aktuelle Nachrichten)
  • Such- und Shopping-Mashups
  • Anbieter Google Froogle, PriceGrabber
  • Vergleichsinformationen zu Produkten
    verschiedener Anbieter
  • Heute Webschnittstellen zum Zugriff auf
    Produktinformationen (z.B. Amazon, eBay)
  • Nachrichten-Mashups
  • Kombinieren Agenturmeldungen mit Beiträgen in Web
    (Blogs, Foren u.ä.)

57
Mashups und Datenintegration
  • Datenextraktion
  • Verschiedene Schnittstellen von Datenprovidern
  • Standardisierte Protokolle und Formate
  • Datenfluss
  • extrahierte Daten transformieren und miteinander
    kombinieren
  • Benötigte Logik in Mashup-Anwendung (Servlets,
    PHP o.ä.)
  • Präsentation
  • Webbrowser visualisiert Mashup-Ergebnis für
    Client
  • Generieren von (X)HTML-Code, ggf. Feed-Format
    )RSS, Atom) für Newsreader

58
Mashup-Gesamtarchitektur
Daten-/Service-Provider (WWW, Web-APIs, Feeds)
Mashup-Anwendung
Client(Webbrowser, Feedreader)
Daten-extraktion
Daten-fluss
Präsen-tation
(X)HTML, RSS, Atom, CSV, JSON
(X)HTML, JavaScript, RSS, Atom
59
Mashup vs. klassische Datenintegration
  • Entwicklungsprozess
  • Mashup prototyp. Entwicklung von DI-Anwendungen
  • Klassische DI erfordert Vorlaufzeit (Data
    Cleaning, Schema Integration)
  • Integrationsart
  • Zugriff auf Datenquellen mittels Wrapper ähnlich
    klassische DI
  • Low-Level-Integration keine explizite
    semantische Beschreibung der Quellen und ihrer
    Verbindung, stattdessen fest codierter Datenfluss
  • virtuelle Integration (d.h. Extraktion und
    Kombination der Daten zur Laufzeit)
  • geeignet eher für kleine Datenvolumina
  • Verwendung
  • relativ starre Verknüpfung der Daten
  • eher aufgabenspezifische Anwendungen (anders als
    ein DWH für beliebige Analysen)
  • Kürzere Lebensdauer

60
Werkzeuge zur Mashup-Erstellung
  • Tools zur Datenextraktion von Informationen aus
    Websites
  • Tools zur Modellierung und Ausführung von
    Datenflüssen
  • Komponenten zur Datenverarbeitung (z.B.
    Transformation und Aggregation von Datenwerten
    und objekten)
  • Anwendungen zur Unterstützung der Präsentation,
    d.h. zur integrierten Darstellung innerhalb eines
    Frontends und Interaktion mit Benutzer
  • Beispiele
  • Extraktion Dapper, OpenKapow Robomaker (frei
    verfügbar)
  • Datenrepräsentation Google Mashup Editor
  • Datenflussmodellierung Apatar, Microsoft Popfly,
    IBM Damia, Yahoo! Pipes
  • LiteraturD. Aumüller, A. Thor Mashup-Werkzeuge
    zur Ad-hoc-Datenintegration im Web, in
    Datenbank-Spektrum 26/2008

61
Zusammenfassung und Ausblick
  • Weiterentwicklung bestehender Schemaintegrationsve
    rfahren
  • Theoretisch wohlüberlegte Ansätze häufig
    qualitativ unbefriedigende Ergebnisse
  • Berücksichtigung von Unsicherheiten bei der
    Datenbankintegration
  • Informationsintegration grosse Herausforderung
  • Suchmaschinen im Web liefern nur Dokumente,
    welche Suchbegriffe enthalten
  • Vorgestellte Systeme auf Unterstützung
    strukturierter Anfragen ausgerichtet

62
Literatur
  • E. Rahm Mehrrechner-Datenbanksysteme, Addison
    Wesley 1994.
  • Datenbank Spektrum (Heft 6 / Juni 2003)
  • S. Conrad, W. Hasselbring, A. Koschel, R. Tritsch
    Enterprise Application Integration
    Grundlagen Konzepte Entwurfsmuster
    Praxisbeispiele, Elsevier Spektrum Akademishcer
    Verlag 2006.
  • U. Leser, F. Naumann Informationsintegration
    Architekturen und Methoden zur Integration
    verteilter und heterogener Datenquellen,
    dpunkt.verlag 2007.
Write a Comment
User Comments (0)
About PowerShow.com