Title: Informationsintegration Anwendungsszenarien
1InformationsintegrationAnwendungsszenarien
2Überblick
- Beispiele der Informationsintegration
- Data Warehouse
- Föderierte Datenbanken
- Potential und Probleme der Informations-integratio
n - Redundanz
- Komplementierung
3Real-life Informationsintegration
- Überblick Zwei wesentliche Modelle
- Data Warehouses
- Materialisierte Integration
- Am Beispiel Buchhändler (Folien von Prof. Leser)
- Föderierte Datenbanken
- Virtuelle Integration
- Am Beispiel einer Life Sciences DB
(DiscoveryLink) - Weitere Beispiele
4Data Warehouse
- Eine oder mehrere (ähnliche) Datenbanken mit
Bücherverkaufsinformationen - Daten werden oft aktualisiert
- Jede Bestellung einzeln
- Katalog Updates täglich
- Management benötigt Entscheidungshilfen (decision
support) - Komplexe Anfragen
Quelle Ulf Leser, VL Data Warehouses
5Bücher im Internet bestellen
Zielkonflikt
Quelle Ulf Leser, VL Data Warehouses
6Die Datenbank dazu
Quelle Ulf Leser, VL Data Warehouses
7Fragen eines Marketingleiters
- Wie viele Bestellungen haben wir jeweils im Monat
vor Weihnachten, aufgeschlüsselt nach
Produktgruppen?
Quelle Ulf Leser, VL Data Warehouses
8Technisch
SELECT Y.year, PG.name, count(B.id)FROM year Y,
month M, day D, order O, orders OS, book B,
bookgroup BGWHERE M.year Y.id and M.id
D.month and O.day_id D.id and OS.order_id
O.id and B.id O.book_id and B.book_group_id
BG.id and day lt 24 and month 12GROUP BY
Y.year, PG.product_nameORDER BY Y.year
Quelle Ulf Leser, VL Data Warehouses
9Technisch
SELECT Y.year, PG.name, count(B.id)FROM year Y,
month M, day D, order O, orders OS, book B,
bookgroup BGWHERE M.year Y.id and M.id
D.month and O.day_id D.id and OS.order_id
O.id and B.id O.book_id and B.book_group_id
BG.id and day lt 24 and month 12GROUP BY
Y.year, PG.product_nameORDER BY Y.year
Quelle Ulf Leser, VL Data Warehouses
10In Wahrheit ... noch schlimmer
- Es gibt noch
- Amazon.de
- Amazon.fr
- Amazon.it
- ...
- Verteilte Ausführung
- Count über Union mehrerer gleicher Anfragen in
unterschiedlichen Datenbanken
HILFE!
Quelle Ulf Leser, VL Data Warehouses
11In Wahrheit ...
Quelle Ulf Leser, VL Data Warehouses
12Technisch Eine VIEW
- CREATE VIEW christmas AS
- SELECT Y.year, PG.name, count(B.id)FROM
DE.year Y, DE.month M, DE.day D, DE.order O, ...
WHERE M.year Y.id and...GROUP BY Y.year,
PG.product_nameORDER BY Y.year - UNION
- SELECT Y.year, PG.name, count(B.id)FROM EN.yea
r Y, EN.month M, EN.day D, DE.order O,
...WHERE M.year Y.id and...
SELECT year, name, count(B.id)FROM
christmasGROUP BY year, nameORDER BY year
Quelle Ulf Leser, VL Data Warehouses
13Probleme
- Count über Union über verteilte Datenbanken?
- Integrationsproblem
- Berechnung riesiger Zwischenergebnisse bei jeder
Anfrage? - Datenmengenproblem
Quelle Ulf Leser, VL Data Warehouses
14Lösung des Integrationsproblems?
- Aber Probleme
- Zweigstellen schreiben übers Netz
- Schlechter Durchsatz
- Lange Antwortzeiten im operativen Betrieb
Quelle Ulf Leser, VL Data Warehouses
15Lösung Datenmengenproblem?
- Aber Probleme
- Jeder lesende / schreibende Zugriff erfolgt auf
eine Tabelle mit 72 Mill. Records - Lange Antwortzeiten im operativen Betrieb
Quelle Ulf Leser, VL Data Warehouses
16Zielkonflikt
17Tatsächliche Lösung
Aufbau eines Data Warehouse
- Redundante, transformierte Datenhaltung
- Asynchrone Aktualisierung
Quelle Ulf Leser, VL Data Warehouses
18Weitere Anwendungsgebiete Data Warehouses
- Customer Relationship Management (CRM)
- Identifikation von Premiumkunden
- Personalisierung / Automatische Kundenberatung
- Gezielte Massen-Mailings (Direktvertrieb)
- Controlling / Rechnungswesen
- Kostenstellen
- Organisationseinheiten
- Personalmanagement
- Logistik
- Flottenmanagement, Tracking
- Gesundheitswesen
- Studienüberwachung, Patiententracking
Quelle Ulf Leser, VL Data Warehouses
19Überblick
- Beispiele der Informationsintegration
- Data Warehouse
- Föderierte Datenbanken
- Probleme und Potential der Informationsintegration
- Redundanz
- Komplementierung
20Föderierte Datenbanken
- Mehrere autonome Informationsquellen
- Mit unterschiedlichsten Inhalten
- Gene, Proteine, BLAST, etc.
- Und unterschiedlichsten Schnittstellen
- HTML-Form, flat file, SQL, etc.
- Wissenschaftler (Biologe) benötigt z.B. möglichst
viele Informationen über ein bestimmtes Protein - Funktion, Veröffentlichungen, verwandte Proteine
usw. - Sehr komplexe Anfragen
- Üblicher Ansatz Browsing, Note-Taking, Copy
Paste - Föderierte Datenbanken (wie DiscoveryLink) helfen.
21Frage eines Biologen
Finde alle menschlichen EST Sequenzen, die nach
BLAST zu mindestens 60 über mindestens 50
Aminosäuren identisch sind mit mouse-channel
Genen im Gewebe des zentralen Nervensystems.
Quelle für das komplette Beispiel A
Practitioners Guide to Data Management and Data
Integration in Bioinformatics, Barbara A. Eckman
in Bioinformatics by Zoe Lacroix and Terence
Critchlow, 2003, Morgan Kaufmann.
22Verschiedene Informationsquellen
- Beteiligte Informationsquellen
- Mouse Genome Database (MGD) _at_ Jackson Labs
- SwissProt _at_ EBI
- BLAST tool _at_ NCBI
- GenBank nucleotide sequence database _at_ NCBI
- Alle Quellen sind frei verfügbar
23Herkömmlicher Ansatz Browsing
- 1. Suche channel Sequenzen im Gewebe des ZNS
durch MGD HTML Formular
24Herkömmlicher Ansatz Browsing
- MGD Resultat
- 14 Gene aus 17 Experimenten
25Herkömmlicher Ansatz Browsing
- Details zu jedem der 14 Gene ansehen
- Durchschnittlich fünf SwissProt Links pro Gen
26Herkömmlicher Ansatz Browsing
- Betrachten jedes SwissProt Eintrages
- Durch Klick BLAST Algorithmus anwerfen
27Herkömmlicher Ansatz Browsing
- Betrachten jedes BLAST Resultats um
- nicht-menschliche Treffer zu eliminieren,
- andere Bedingungen zu prüfen (gt60 Identität,
etc.)
28Herkömmlicher Ansatz Browsing
- Für jeden verbleibenden Eintrag
- Komplette EST Sequenz bei GenBank holen
Alles sehr mühselig!
29Idee der Integration
- Bildung eines globalen Schemas (Schemaintegration)
- Gespeichert als Datenbankschema in DiscoveryLink
- Generierung von Wrappern für jede Datenquelle
- Softwarekomponente
- Mapping von lokalen Schemata auf globales Schema
- Kennt Anfragefähigkeiten der Quellen
30DiscoveryLink Architektur
31Eigenschaften föderierter IS (und DiscoveryLink)
- Daten bleiben vor Ort.
- Informationsquellen sind autonom (und wissen oft
nicht von ihrer Integration). - Anfragen werden deklarativ an das globale Schema
gestellt. - Anfrage wird so verteilt wie möglich ausgeführt.
- Je nach Mächtigkeit der Quellen
- DiscoveryLink gleicht etwaige mangelnder
Fähigkeiten aus.
32Föderierter DBMS Ansatz
Finde alle menschlichen EST Sequenzen, die nach
BLAST zu mindestens 60 über mindestens 50
Aminosäuren identisch sind mit mouse-channel
Genen im Gewebe des zentralen Nervensystems.
- Einfache SQL-Anfrage um alle vorigen Schritte
zu vereinen - SELECT g.accnum,g.sequence
- FROM genbank g, blast b, swissprot s, mgd m
- WHERE m.exp CNS
- AND m.defn LIKE channel
- AND m.spid s.id AND s.seq b.query
- AND b.hit g.accnum
- AND b.percentid gt 60 AND b.alignlen gt 50
33Föderierter DBMS Ansatz
- Effiziente Ausführung durch Optimierer
- Herkömmliche Optimierung
- Wrapper helfen mit
- Kostenmodell
- domänenspezifischen Funktionen
- Sichere Ausführung
- Wiederholbar
- Transaktional
34Weitere Anwendungsgebiete Föderierte Datenbanken
- Meta-Suchmaschinen
- Unternehmensfusionen
- Kundendatenbanken
- Personaldatenbanken
- Grid
- Krankenhausinformationssysteme
- Röntgenbilder
- Krankheitsverlauf (Akte)
- Verwaltung
- Krankenkasse...
- Verteiltes Arbeiten (groupware)
- Peer Data Management und P2P
35Überblick
- Beispiele der Informationsintegration
- Data Warehouse
- Föderierte Datenbanken
- Probleme und Potential der Informationsintegration
- Redundanz
- Komplementierung
36Integrationspotential
- Wann ist Informationsintegration möglich?
- Intensionale Redundanz
- Wann ist Informationsintegration schwierig?
- Extensionale Redundanz
- Wann ist Informationsintegration nützlich?
- Extensionale Komplementierung
- Intensionale Komplementierung
37Intension Extension
- Definition Intension
- Die Intension eines Informationssystems ist die
Menge der Schemainformationen und deren Semantik
(Bedeutung). - Definition Extension
- Die Extension eines Informationssystems ist die
Menge aller zur Intension gehörigen, zugreifbaren
Daten.
38Intension Extension
- Die Intension einer Datenbank
- Schema für eine Menge von Entitäten/Dingen
- Semantik
- Die Extension einer Datenbank
- Zustand
- Menge von Entitäten
ISBN Titel Autor
3442727316 Moby Dick Herman Melville
3491960827 Robinson Crusoe Daniel Defoe
3462032283 Zwölf Nick McDonell
3883891606 Timbuktu Paul Auster
Buch
39Redundanz und Komplementierung
- Redundanz hilft
- zur Verifikation
- Nur bei gewisser Redundanz kann Komplementierung
genutzt werden - Komplementierung ist gut
- Hier liegt der eigentliche Sinn der
Informationsintegration. - Informationen mehrerer (sich komplementierender)
Quellen werden zu einem größeren Ganzen
integriert.
40Intensionale Redundanz
ISBN ISBN Titel Autor
3442727316 3442727316 Moby Dick Herman Melville
3491960827 3491960827 Robinson Crusoe Daniel Defoe
3462032283 3462032283 Zwölf Nick McDonell
3883891606 3883891606 Timbuktu Paul Auster
Intensionale Redundanz liegt vor, wenn das
Entfernen von Teilen der Intension die
Gesamtintension nicht verändert.
41Intensionale Redundanz
ISBN ID Titel Autor
3442727316 3442727316 Moby Dick Herman Melville
3491960827 3491960827 Robinson Crusoe Daniel Defoe
3462032283 3462032283 Zwölf Nick McDonell
3883891606 3883891606 Timbuktu Paul Auster
Intensionale Redundanz trotz unterschiedlicher
Label?
Ja, denn Semantik zählt!
42Intensionale Redundanz
Quelle 2
Quelle 1
ISBN Autor
3491960827 Daniel Defoe
3442727316 H Melville
3462032283 Nick MacDonell
3883891606 Paul Auster
ISBN Autor
3442727316 Herman Melville
3491960827 Daniel Defoe
3462032283 Nick McDonell
3883891606 Paul Auster
Intensionale Redundanz auch über mehrere
Relationen und Quellen.
43Potential Intensionaler Redundanz
Quelle 1
Quelle 2
ISBN Autor
3442727316 Herman Melville
3491960827 Daniel Defoe
3462032283 Nick McDonell
3883891606 Paul Auster
ISBN Autor
3491960827 Daniel Defoe
3442727316 H Melville
3462032283 Nick MacDonell
3883891606 Paul Auster
Verifikation
44Potential Intensionaler Redundanz
Quelle 2
Quelle 1
ISBN Titel
3491960827 Moby Dick
3442727316 Robinson Crusoe
3462032283 Zwölf
3883891606 Timbuktu
ISBN Autor
3442727316 Herman Melville
3491960827 Daniel Defoe
3462032283 Nick McDonell
3883891606 Paul Auster
Integration
45Potential Intensionaler Redundanz
Quelle 1 2
Titel
Moby Dick
Robinson Crusoe
Zwölf
Timbuktu
ISBN Autor
3442727316 Herman Melville
3491960827 Daniel Defoe
3462032283 Nick McDonell
3883891606 Paul Auster
Integration
46Intensionale Komplementierung
Quelle 2
Quelle 1
ISBN Titel
3442727316 Moby Dick
3491960827 Robinson Crusoe
3462032283 Zwölf
3883891606 Timbuktu
ISBN Autor
3442727316 Herman Melville
3491960827 Daniel Defoe
3462032283 Nick McDonell
3883891606 Paul Auster
- Intensionale Komplementierung liegt vor, wenn von
zwei Intensionen - mindestens eine Differenz ist nicht leer ist,
- und deren Schnittmenge nicht leer ist.
47Potential Intensionaler Komplementierung
Quelle 1
Quelle 2
ISBN Autor
3442727316 Herman Melville
3491960827 Daniel Defoe
3462032283 Nick McDonell
3883891606 Paul Auster
ISBN Titel
3462032283 Zwölf
3499139278 Leviathan
3442727316 Moby Dick
???
Verdichtung Mehr Informationen über einzelne
Objekte
???
48Potential Intensionaler Komplementierung
Quelle 2
Quelle 1
Autor Titel
MacDonell Zwölf
Auster Leviathan
H Melville Moby Dick
ISBN Autor
3442727316 Herman Melville
3491960827 Daniel Defoe
3462032283 Nick McDonell
3883891606 Paul Auster
???
Verdichtung nicht immer leicht.
???
49Extensionale Redundanz
Quelle 2
Quelle 1
ISBN Autor
3442727316 Herman Melville
3491960827 Daniel Defoe
ID Author
3442727316 Herman Melville
3491960827 Daniel Defoe
Extensionale Redundanz liegt vor, wenn die Menge
der von zwei Quellen gemeinsam repräsentierten
Objekte nicht leer ist.
50Extensionale Redundanz
Quelle 2
Quelle 1
ID Author
3491960827 Daniel Defoe
3883891606 Paul Auster
ISBN Autor
3442727316 Herman Melville
3491960827 Daniel Defoe
Extensionale Redundanz nur über Teile der Quellen.
51Probleme Extensionaler Redundanz
Quelle 1
Quelle 2
ISBN Autor
3442727316 Herman Melville
3491960827 Daniel Defoe
ID Author
3491960827 Daniel Düsentrieb
3883891606 Paul Auster
Extensionale Redundanz ist nur auf real-world
Objekten definiert, nicht auf den Daten über sie.
52Extensionale Komplementierung
Quelle 2
Quelle 1
ISBN Autor
3462032283 Nick MacDonell
3883891606 Paul Auster
ISBN Autor
3442727316 Herman Melville
3491960827 Daniel Defoe
Extensionale Komplementierung liegt vor, wenn die
Differenz der repräsentierten Objekte zweier
Quellen nicht leer ist.
53Potential Extensionaler Komplementierung
Quelle 1 Quelle 2
ISBN Autor
3442727316 Herman Melville
3491960827 Daniel Defoe
3462032283 Nick MacDonell
3883891606 Paul Auster
Höhere Überdeckung
54Extensionaler Komplementierung mit Extensionaler
Redundanz
Quelle 2
Quelle 1
ISBN Autor
3442727316 Herman Melville
3491960827 Daniel Defoe
ID Author
3491960827 Daniel Düsentrieb
3883891606 Paul Auster
55Probleme Extensionaler Komplementierung und
Redundanz
Quelle 1 Quelle 2
ISBN Autor
3442727316 Herman Melville
3491960827 Daniel Defoe
Datenkonflikt
3491960827 Daniel Düsentrieb
3883891606 Paul Auster
56Der Allgemeine Fall
Quelle 1 A(V) B(W) C(X) D(Y) a1 b1 c1 d1
a2 b2 - d2
Intensionale Redundanz
Extensionale Redundanz
Extensionale Komplementierung
Quelle 2 A(V) D(W) E(X) F(Z) a2 d2 c2 -
a3 d3 e3 f3
Intensionale Komplementierung
Quelle 1 2 A(V) B/D(W) C/E(X) D(Y) F(Z) a1
b1 c1 d1 - a2 f(b2,d2) c2
d2 - a3 d3 e3 - f3
57Zusammenfassung Redundanz
- Intensionale Redundanz ermöglicht extensionale
Komplementierung - Zwei Quellen mit gleichem Schema können zu einer
überdeckenderen Quelle integriert werden - Coverage
- Extensionale Redundanz ermöglicht intensionale
Komplementierung - Zwei Quellen, die über gleiche Dinge sprechen
können zu einer dichteren Quelle integriert
werden. - Density
- Insgesamt ist das Ziel der Integration eine
vollständigere Quelle (completeness)
58Zusammenfassung Data Warehouse
Aufbau eines Data Warehouse
Quelle Ulf Leser, VL Data Warehouses
59Zusammenfassung Föderierte DBMS/IS