Title: Datenmodellierung in Data Warehouse Systemen
1Datenmodellierung in Data Warehouse Systemen
- Semantische Modellierung
- Graphische Design Notationen
- von Marcus Wenzel
- betreut von David Wiese
2Agenda
- Motivation
- Evolutionäre Ansätze
- Multidimensionale Erweiterung des ER-Modells
mE/R - Multidimensionale Erweiterung des UML-Modells
mUML - Revolutionäre Ansätze
- Ansatz von Totok
- Multidimensional Aggregation Cube MAC
- Dimensional Fact Model
- Graphbasierte Ansätze
- Zusammenfassung
3Motivation(1)
- Was ist konzeptioneller Entwurf ?
- formale Beschreibung des abzubildenden
Sachverhalts - und der zu verwendenden Informationsstruktur
- Warum DWHS nicht klassisch modellieren ?
- Verlust von semantischer Information
Qualifizierende Information
Kategorienattribute (Dimensionen)
Begriffshierarchien durch Drill-Pfade
explorierbar Quantifizierende Information
Fakten Kennzahlen in Zellen
eines Würfels z.B.Summenattribute,
Zählungen, Minimum, Dimensionen
sind Würfelkanten
4Motivation(2)
Vergleich von klassischen relationalem und
multidimensionalem Entwurf
Anforderungs- analyse
Konzeptioneller DB-Entwurf
Logischerer DB-Entwurf
Physischer DB-Entwurf
Klassisch relationaler Datenbankentwurf
Multidimensionaler Datenbankentwurf
Konzeptionelles Schema (semi-formal)
Varianten des Entity-Relationship- Modells
Diverse Ansätze für Entwurfsnotaionen z.B.
mE/R, mUML, ADAPT, DFM, MAC,
Datenwürfel mit Summenattributen Fakten und
Kennzahlen
Logisches Schema (formal)
Relationen mit Attributen
Dimensionshierarchien mit Kategorienattributen kl
assifikatorische und beschreibende Attribute
relationale Speicherorganisation (ROLAP) Schemamu
ster nach Star / Snowflake
Speicherorganisation (Primär- und Sekundärindexe,
Partitionierung, )
multidimensionale Speicherorganisation (MOLAP) Na
tive Implementierung
Internes Schema
5Agenda
- Motivation
- Evolutionäre Ansätze
- Multidimensionale Erweiterung des ER-Modells
mE/R - Multidimensionale Erweiterung des UML-Modells
mUML - Revolutionäre Ansätze
- Ansatz von Totok
- Multidimensional Aggregation Cube MAC
- Dimensional Fact Model
- Graphbasierte Ansätze
- Zusammenfassung
6Das mE/R-Modell (1)
- multidimensional Entity/Relationship-Model
- Spezialisierung des E/R-Modells
- keine Einschränkung von Ausdrucksmächtigkeit
und Flexibilität - mächtig genug um grundlegende Semantik
auszudrücken - Minimale Erweiterung des E/R-M
- für Zielgruppe leicht erlern- und benutzbar
- Transfer von Ergebnissen von E/R auf mE/R
gewährleistet - Darstellung der multidimensionalen Semantik
- Unterscheidung Klassifikationsschema und
Würfelstruktur - (qualifizierende Daten)
(quantifizierende Daten) - Hierarchische Struktur der Klassifikation
7Das mE/R-Modell (2)
- Das Metamodell des mE/R-Modells
E/R-Modell
Name
Name
2
n
1
Entity- Menge
Attribut- Menge
hat
n
verbindet
verbindet
2
n-äre Relationen-Menge
Klassifikations- Stufe
n
1
verbindet
verbindet
binäre Relationen-Menge
Fakten- Relation
1
1
Klassifikations- beziehung
1
mE/R-Modell
8Das mE/R-Modell (3)
- Notation
- Spezialisierte Konstrukte
- n-äre Faktbeziehungsmenge
- (im Orignal-Paper fact-relationsship-set)
- Entitymenge Klassifikations-Stufe
- (im Orignal-Paper dimension-level-set)
- binäre Klassifikationsbeziehungsmenge
- (im Orignal-Paper
rolls-up relationship-set) -
Fakt
Klassifikationsstufe
9Das mE/R-Modell (4)
Ebenen bilden Klassifikationshierarchien
Dimensionen
Fakt
Kennzahlen
Jahr
Honorar des Vortragenden
Monat
Reisekosten des Vortragenden
Veranstaltungen
Länge
Titel
Tag
Eintrittspreis
Thema
PLZ
Besucherzahl
Veranstaltung
Raum
Bundesland
Staat
Gebäude
Ort
Vortrag
Veranstaltungs- reihe
Referent
erlaubt
Veranstaltungs- organisator
Dimensionen bestehen aus Ebenen
Dimensionen sind orthogonal (voneinander
unabhängig)
Klassische E/R-Notation
arbeitet
Firma
Veranstaltungs- agentur
10Agenda
- Motivation
- Evolutionäre Ansätze
- Multidimensionale Erweiterung des ER-Modells
mE/R - Multidimensionale Erweiterung des UML-Modells
mUML - Revolutionäre Ansätze
- Ansatz von Totok
- Multidimensional Aggregation Cube MAC
- Dimensional Fact Model
- Graphbasierte Ansätze
- Zusammenfassung
11Das mUML-Modell (1)
- Erweiterung des UML-Modells um Konstrukte aus MML
- Ohne Änderung des UML-Metamodells
- benutzte Konstrukte
- Mechanism Constraint
- Eigenschaftswerte (tagged values)
- Stereotypen
12Das mUML-Modell (2)
- Notation
- Fakt
- Dimensionsebene
-
- Klassifikationsbeziehung
- Faktbeziehung
ltltRollUpgtgt
ltltDimensiongtgt
13Das mUML-Modell (3)
Beispiel
ltltRoll-upgtgt Staat
ltltRoll-upgtgt Bundesland
ltltRoll-upgtgt Jahr
ltltRoll-upgtgt Veranstaltungsagentur
ltltRoll-upgtgt Ort
ltltRoll-upgtgt Monat
ltltRoll-upgtgt Veranstaltungsorganisator
ltltRoll-upgtgt Gebäude
ltltDimensiongtgt Zeit
ltltRoll-upgtgt Veranstaltungsreihe
ltltDimensiongtgt Lokation
Honorar Eitrittspreis Besucherzahl
ltltDimensiongtgt Veranstaltung
ltltDimensiongtgt Referent
14Agenda
- Motivation
- Evolutionäre Ansätze
- Multidimensionale Erweiterung des ER-Modells
mE/R - Multidimensionale Erweiterung des UML-Modells
mUML - Revolutionäre Ansätze
- Ansatz von Totok
- Multidimensional Aggregation Cube MAC
- Dimensional Fact Model
- Graphbasierte Ansätze
- Zusammenfassung
15Ansatz von Totok (1)
- Revolutionärer Ansatz
- Objektorientierter Modellrahmen
- hohe Flexibilität
- Ableitungsregeln definierbar
- Strukturelle Änderungen behandelbar
- Zuordnung der Kenngrößen zu Dimensionselementen
- nach denen sie analysiert werden
16Ansatz von Totok (2)
ltltgeordnete Hierarchieebenegtgt Jahr
Elementliste Liste (Jahr)
Berechne jährl. Besucherzahl (Liste(Jahr),Besucher
zahl)
ltltgeordnete Hierarchieebenegtgt Monat
Elementliste Liste (Monat)
Berechne monatl. Besucherzahl (Liste(Monat),Besuch
erzahl)
ltlt geordnete Hierachieebene gtgt Veranstaltungsreihe
ltltoriginäres Dimensionselementgtgt
Raum
17Agenda
- Motivation
- Evolutionäre Ansätze
- Multidimensionale Erweiterung des ER-Modells
mE/R - Multidimensionale Erweiterung des UML-Modells
mUML - Revolutionäre Ansätze
- Ansatz von Totok
- Multidimensional Aggregation Cube MAC
- Dimensional Fact Model
- Graphbasierte Ansätze
- Zusammenfassung
18Multidimensional Aggregation Cube (1)
- MAC
- n-äre Relation zwischen N Dimensionsebenen hat
ein oder mehrere Attribute - nutzerzentrierter Ansatz es wird nah an der Art
und Weise wie OLAP Nutzer Informationen
wahrnehmen modelliert - MACs stellen Beziehungen zwischen Domänen einer
oder mehrerer Dimensionen dar. -
19Multidimensional Aggregation Cube (2)
- Notation
- Dimensionsebene (dimension level)
-
- Drill Down Relation (drilling
relationship) - Dimensionspfad (dimension path)
- Dimension
(dimension)
20Multidimensional Aggregation Cube (3)
- Beispiel (Ausschnitt aus laufendem Beispiel)
ALL
Ort
Gebäude
Veranstaltung
Raum
Referent
21Agenda
- Motivation
- Evolutionäre Ansätze
- Multidimensionale Erweiterung des ER-Modells
mE/R - Multidimensionale Erweiterung des UML-Modells
mUML - Revolutionäre Ansätze
- Ansatz von Totok
- Multidimensional Aggregation Cube MAC
- Dimensional Fact Model
- Graphbasierte Ansätze
- Zusammenfassung
22Dimensional Fact Model (1)
- Idee
- Fakten schema (fact schema) f(M,A,N,R,O,S)
- M Menge der Kenngrößen (Measures)
- A Menge der Dimensionsattribute
- N Menge der Nicht-Dimensionsattribute
- R geordnetes Paar (ai,aj) mit
und - so dass
- R ist quasi-Baum mit Wurzel a0
- Dimensions Menge
- jedes Element von Dim(f) ist eine Dimension
- ist ein Attribut ai eine Dimension wird sie
mit di bezeichnet - Optionale Relationen
- S Menge von Aggregationsausdrücken (Aggregation
statements) -
23Dimensional Fact Model (2)
- Notation
- Dimensionsattribute
- jedes Dimensionsattribut, das direkt mit dem
Fakt - verbunden ist, ist eine Dimension
- Nicht-Dimensionsattribute
- Subbäume in den Dimensionen sind Hierarchien
- Fakt
- Optionale Relationen
-
24Dimensional Fact Model (3)
Dimensionsattribut
Aggregation
Nicht-Dimensionsattribut
Dimension
Hierarchie
Veranstaltungsagentur
Fakt
Kenngrößen
Veranstaltungsorganisator
Veranstaltungsreihe
Thema
Veranstaltung
Besucherzahl Eintrittspreis Länge
Vortrag
Adresse
Tag
Monat
Jahr
Raum
Gebäude
Ort
Staat
Bundesland
Zusatzmaterial
Referent
25Agenda
- Motivation
- Evolutionäre Ansätze
- Multidimensionale Erweiterung des E/R-Modells
mE/R - Multidimensionale Erweiterung des UML-Modells
mUML - Revolutionäre Ansätze
- Ansatz von Totok
- Multidimensional Aggregation Cube MAC
- Dimensional Fact Model
- Graphbasierte Ansätze
- Zusammenfassung
26Graphbasierte Ansätze (1)
- Idee
- gerichteter azyklischer Graph (Objektgraph)
- repräsentiert kategorisierende Daten,
Attributbeziehungen - Beziehungen durch Kanten im Graph realisiert
- unterschiedliche Knotentypen unterschiedliche
Semantik
27Graphbasierte Ansätze (2)
- Verschiedene Graphbasierte Ansätze
- Minimale Struktur SUBJECT (ChSh81)
- 2 Knotentypen
- gtgt Kategorien ltlt - Cluster-Knoten (C)
- Gruppierung einzelner Elemente
- Hierarchie von Kategorien
- repräsentieren qualifizierende
Informationen - gtgt Kreuzprodukt ltlt - Knoten (X)
- spannt mehrdimensionalen
Adressierungsraum auf - mit eingehenden C-Knoten
- stellen quantifizierende Informationen
dar
28Graphbasierte Ansätze (3)
Funktionale Abhängigkeiten zwischen C-Knoten NM Beziehungen zwischen C-Knoten
E/R-Notation
SUBJECT- Notation
1
N
M
N
C
Bundesland
X
C
C
C
Ort
Vortrag
Veranstaltung
29Graphbasierte Ansätze (4)
- In weiteren Ansätzen
- GRASS (RaRi87), STORM (RaSh90, BeMR94)
- ADaS (RaBT96), SAM (Su83), CSM (BaBa88)
- weitere Knotentypen
- gtgt Terminale Knoten ltlt (tn-Knoten)
- gtgt Summenknoten ltlt (S-Knoten)
- bei Mehrfachverwendung von Objektgraphen
benutzt - zu analysierenden Teil näher spezifiziert
- Werte durch Aggregation aus
unterliegenden - Objektgraphen berechnet
Jahr
C
t1
t2
2005
1999
30Graphbasierte Ansätze (5)
Auswertung
T
- gtgtTopic-Knotenltlt (T-Knoten)
- Konsistenzbedingungen
- Minimaler Graph besitzt mind. je einen
- T-,S-,X-,C und tn-Knoten
- Folgende Regeln gelten
- Ein T-Knoten ist mit einem oder mehreren T-
und/oder S-Knoten verbunden. - Ein S-Knoten ist mit einem oder mehreren S-
und/oder X-Knoten verbunden. - Ein X-Knoten ist mit einem oder mehreren S-,C-
und/oder X-Knoten verbunden. - Ein C-Knoten ist mit einem oder mehreren X-Knoten
und mit 2 oder mehreren tn-Knoten verbunden. - Ein tn-Knoten ist nur mit einem C-Knoten
verbunden.
Veranstaltungs- erfassung
T
T
Referenten -honorar
S
Besucherzahlen
X
C
C
Bundesland
Veranstaltung
31Graphbasierte Ansätze (6)
- gtgtAggregationltlt (A-Knoten)
- Zusammenfassung von logischen Einzelfakten zu
Ganzem - In A-Knoten gehen C-Knoten und A-Knoten ein
- A-Knoten gehen in X-Knoten und A-Knoten ein
- Keine numerische Aggregation gemeint
- gtgtGeneralisierungltlt (G-Knoten)
- Hervorstellen von Gemeinsamkeiten
- Definition übergeordneter Klassen
- Graphbasierte Ansätze kaum benutzt
- zur DWH-Modellierung
32Graphbasierte Ansätze (7)
Vortrag
T
S
S
S
S
Besucherzahlen
X
Staat
C
X
C
Bundesland
Veranstaltungsagentur
C
Jahr
C
t1
2005
C
Ort
C
Monat
C
Veranstaltungsorganisator
t1
Juni
C
Gebäude
C
Tag
C
Veranstaltungsreihe
t1
09
C
Raum
C
Veranstaltung
33Zusammenfassung
1 - Ebenen in Dimensionen 2 -
gruppierende Relationen zwischen
Ebenen 3 - N-M gruppierende
Relationen 4 - N-äre Relationen zwischen
N Dimensions-Ebenen 5 - Dimensionen die
an Relation beteiligt sind müssen
nicht total beteiligt sein 6 -
Analysepfade 7 - mehrere Kenngrößen
zu einem Fakt 8 - Kennzahlen auf jeder
Hierarchie-Ebene definiert 9 - Kenngrößen
über mehrere Ebenen definierbar 10
Kenngrößen für einige (nicht für
alle) Dimensionsebenen darstellbar
Ansatz 1 2 3 4 5 6 7 8 9 10
mE/R b b b b b b
mUML b b b b b b
Totok b b N/A N/A N/A
MAC b b b b b b b b b b
DFM b b b b b
Graph. Ansatz b b N/A b N/A N/A
34- Noch Fragen ?
- Vielen Dank für
- Ihre Aufmerksamkeit!