Datenmodellierung in Data Warehouse Systemen - PowerPoint PPT Presentation

1 / 34
About This Presentation
Title:

Datenmodellierung in Data Warehouse Systemen

Description:

Title: Folie 1 Author: mwenzel Last modified by: mwenzel Created Date: 5/9/2005 7:46:43 AM Document presentation format: Bildschirmpr sentation Company – PowerPoint PPT presentation

Number of Views:66
Avg rating:3.0/5.0
Slides: 35
Provided by: mwe124
Category:

less

Transcript and Presenter's Notes

Title: Datenmodellierung in Data Warehouse Systemen


1
Datenmodellierung in Data Warehouse Systemen
  • Semantische Modellierung
  • Graphische Design Notationen
  • von Marcus Wenzel
  • betreut von David Wiese

2
Agenda
  • Motivation
  • Evolutionäre Ansätze
  • Multidimensionale Erweiterung des ER-Modells
    mE/R
  • Multidimensionale Erweiterung des UML-Modells
    mUML
  • Revolutionäre Ansätze
  • Ansatz von Totok
  • Multidimensional Aggregation Cube MAC
  • Dimensional Fact Model
  • Graphbasierte Ansätze
  • Zusammenfassung

3
Motivation(1)
  • Was ist konzeptioneller Entwurf ?
  • formale Beschreibung des abzubildenden
    Sachverhalts
  • und der zu verwendenden Informationsstruktur
  • Warum DWHS nicht klassisch modellieren ?
  • Verlust von semantischer Information

Qualifizierende Information
Kategorienattribute (Dimensionen)
Begriffshierarchien durch Drill-Pfade
explorierbar Quantifizierende Information
Fakten Kennzahlen in Zellen
eines Würfels z.B.Summenattribute,
Zählungen, Minimum, Dimensionen
sind Würfelkanten
4
Motivation(2)
Vergleich von klassischen relationalem und
multidimensionalem Entwurf
Anforderungs- analyse
Konzeptioneller DB-Entwurf
Logischerer DB-Entwurf
Physischer DB-Entwurf
Klassisch relationaler Datenbankentwurf
Multidimensionaler Datenbankentwurf
Konzeptionelles Schema (semi-formal)
Varianten des Entity-Relationship- Modells
Diverse Ansätze für Entwurfsnotaionen z.B.
mE/R, mUML, ADAPT, DFM, MAC,
Datenwürfel mit Summenattributen Fakten und
Kennzahlen
Logisches Schema (formal)
Relationen mit Attributen
Dimensionshierarchien mit Kategorienattributen kl
assifikatorische und beschreibende Attribute
relationale Speicherorganisation (ROLAP) Schemamu
ster nach Star / Snowflake
Speicherorganisation (Primär- und Sekundärindexe,
Partitionierung, )
multidimensionale Speicherorganisation (MOLAP) Na
tive Implementierung
Internes Schema
5
Agenda
  • Motivation
  • Evolutionäre Ansätze
  • Multidimensionale Erweiterung des ER-Modells
    mE/R
  • Multidimensionale Erweiterung des UML-Modells
    mUML
  • Revolutionäre Ansätze
  • Ansatz von Totok
  • Multidimensional Aggregation Cube MAC
  • Dimensional Fact Model
  • Graphbasierte Ansätze
  • Zusammenfassung

6
Das mE/R-Modell (1)
  • multidimensional Entity/Relationship-Model
  • Spezialisierung des E/R-Modells
  • keine Einschränkung von Ausdrucksmächtigkeit
    und Flexibilität
  • mächtig genug um grundlegende Semantik
    auszudrücken
  • Minimale Erweiterung des E/R-M
  • für Zielgruppe leicht erlern- und benutzbar
  • Transfer von Ergebnissen von E/R auf mE/R
    gewährleistet
  • Darstellung der multidimensionalen Semantik
  • Unterscheidung Klassifikationsschema und
    Würfelstruktur
  • (qualifizierende Daten)
    (quantifizierende Daten)
  • Hierarchische Struktur der Klassifikation

7
Das mE/R-Modell (2)
  • Das Metamodell des mE/R-Modells

E/R-Modell
Name
Name
2
n
1
Entity- Menge
Attribut- Menge
hat
n
verbindet
verbindet
2
n-äre Relationen-Menge
Klassifikations- Stufe
n
1
verbindet
verbindet
binäre Relationen-Menge
Fakten- Relation
1
1
Klassifikations- beziehung
1
mE/R-Modell
8
Das mE/R-Modell (3)
  • Notation
  • Spezialisierte Konstrukte
  • n-äre Faktbeziehungsmenge
  • (im Orignal-Paper fact-relationsship-set)
  • Entitymenge Klassifikations-Stufe
  • (im Orignal-Paper dimension-level-set)
  • binäre Klassifikationsbeziehungsmenge
  • (im Orignal-Paper
    rolls-up relationship-set)

Fakt
Klassifikationsstufe
9
Das mE/R-Modell (4)
Ebenen bilden Klassifikationshierarchien
  • Beispiel

Dimensionen
Fakt
Kennzahlen
Jahr
Honorar des Vortragenden
Monat
Reisekosten des Vortragenden
Veranstaltungen
Länge
Titel
Tag
Eintrittspreis
Thema
PLZ
Besucherzahl
Veranstaltung
Raum
Bundesland
Staat
Gebäude
Ort
Vortrag
Veranstaltungs- reihe
Referent
erlaubt
Veranstaltungs- organisator
Dimensionen bestehen aus Ebenen
Dimensionen sind orthogonal (voneinander
unabhängig)
Klassische E/R-Notation
arbeitet
Firma
Veranstaltungs- agentur
10
Agenda
  • Motivation
  • Evolutionäre Ansätze
  • Multidimensionale Erweiterung des ER-Modells
    mE/R
  • Multidimensionale Erweiterung des UML-Modells
    mUML
  • Revolutionäre Ansätze
  • Ansatz von Totok
  • Multidimensional Aggregation Cube MAC
  • Dimensional Fact Model
  • Graphbasierte Ansätze
  • Zusammenfassung

11
Das mUML-Modell (1)
  • Erweiterung des UML-Modells um Konstrukte aus MML
  • Ohne Änderung des UML-Metamodells
  • benutzte Konstrukte
  • Mechanism Constraint
  • Eigenschaftswerte (tagged values)
  • Stereotypen

12
Das mUML-Modell (2)
  • Notation
  • Fakt
  • Dimensionsebene
  • Klassifikationsbeziehung
  • Faktbeziehung

ltltRollUpgtgt
ltltDimensiongtgt
13
Das mUML-Modell (3)
Beispiel
ltltRoll-upgtgt Staat
ltltRoll-upgtgt Bundesland
ltltRoll-upgtgt Jahr
ltltRoll-upgtgt Veranstaltungsagentur
ltltRoll-upgtgt Ort
ltltRoll-upgtgt Monat
ltltRoll-upgtgt Veranstaltungsorganisator
ltltRoll-upgtgt Gebäude
ltltDimensiongtgt Zeit
ltltRoll-upgtgt Veranstaltungsreihe
ltltDimensiongtgt Lokation
Honorar Eitrittspreis Besucherzahl
ltltDimensiongtgt Veranstaltung
ltltDimensiongtgt Referent
14
Agenda
  • Motivation
  • Evolutionäre Ansätze
  • Multidimensionale Erweiterung des ER-Modells
    mE/R
  • Multidimensionale Erweiterung des UML-Modells
    mUML
  • Revolutionäre Ansätze
  • Ansatz von Totok
  • Multidimensional Aggregation Cube MAC
  • Dimensional Fact Model
  • Graphbasierte Ansätze
  • Zusammenfassung

15
Ansatz von Totok (1)
  • Revolutionärer Ansatz
  • Objektorientierter Modellrahmen
  • hohe Flexibilität
  • Ableitungsregeln definierbar
  • Strukturelle Änderungen behandelbar
  • Zuordnung der Kenngrößen zu Dimensionselementen
  • nach denen sie analysiert werden

16
Ansatz von Totok (2)
  • Beispiel

ltltgeordnete Hierarchieebenegtgt Jahr
Elementliste Liste (Jahr)
Berechne jährl. Besucherzahl (Liste(Jahr),Besucher
zahl)
ltltgeordnete Hierarchieebenegtgt Monat
Elementliste Liste (Monat)
Berechne monatl. Besucherzahl (Liste(Monat),Besuch
erzahl)
ltlt geordnete Hierachieebene gtgt Veranstaltungsreihe
ltltoriginäres Dimensionselementgtgt
Raum
17
Agenda
  • Motivation
  • Evolutionäre Ansätze
  • Multidimensionale Erweiterung des ER-Modells
    mE/R
  • Multidimensionale Erweiterung des UML-Modells
    mUML
  • Revolutionäre Ansätze
  • Ansatz von Totok
  • Multidimensional Aggregation Cube MAC
  • Dimensional Fact Model
  • Graphbasierte Ansätze
  • Zusammenfassung

18
Multidimensional Aggregation Cube (1)
  • MAC
  • n-äre Relation zwischen N Dimensionsebenen hat
    ein oder mehrere Attribute
  • nutzerzentrierter Ansatz es wird nah an der Art
    und Weise wie OLAP Nutzer Informationen
    wahrnehmen modelliert
  • MACs stellen Beziehungen zwischen Domänen einer
    oder mehrerer Dimensionen dar.

19
Multidimensional Aggregation Cube (2)
  • Notation
  • Dimensionsebene (dimension level)
  • Drill Down Relation (drilling
    relationship)
  • Dimensionspfad (dimension path)
  • Dimension
    (dimension)

20
Multidimensional Aggregation Cube (3)
  • Beispiel (Ausschnitt aus laufendem Beispiel)

ALL
Ort
Gebäude
Veranstaltung
Raum
Referent
21
Agenda
  • Motivation
  • Evolutionäre Ansätze
  • Multidimensionale Erweiterung des ER-Modells
    mE/R
  • Multidimensionale Erweiterung des UML-Modells
    mUML
  • Revolutionäre Ansätze
  • Ansatz von Totok
  • Multidimensional Aggregation Cube MAC
  • Dimensional Fact Model
  • Graphbasierte Ansätze
  • Zusammenfassung

22
Dimensional Fact Model (1)
  • Idee
  • Fakten schema (fact schema) f(M,A,N,R,O,S)
  • M Menge der Kenngrößen (Measures)
  • A Menge der Dimensionsattribute
  • N Menge der Nicht-Dimensionsattribute
  • R geordnetes Paar (ai,aj) mit
    und
  • so dass
  • R ist quasi-Baum mit Wurzel a0
  • Dimensions Menge
  • jedes Element von Dim(f) ist eine Dimension
  • ist ein Attribut ai eine Dimension wird sie
    mit di bezeichnet
  • Optionale Relationen
  • S Menge von Aggregationsausdrücken (Aggregation
    statements)

23
Dimensional Fact Model (2)
  • Notation
  • Dimensionsattribute
  • jedes Dimensionsattribut, das direkt mit dem
    Fakt
  • verbunden ist, ist eine Dimension
  • Nicht-Dimensionsattribute
  • Subbäume in den Dimensionen sind Hierarchien
  • Fakt
  • Optionale Relationen

24
Dimensional Fact Model (3)
  • Beispiel

Dimensionsattribut
Aggregation
Nicht-Dimensionsattribut
Dimension
Hierarchie
Veranstaltungsagentur
Fakt
Kenngrößen
Veranstaltungsorganisator
Veranstaltungsreihe
Thema
Veranstaltung
Besucherzahl Eintrittspreis Länge
Vortrag
Adresse
Tag
Monat
Jahr
Raum
Gebäude
Ort
Staat
Bundesland
Zusatzmaterial
Referent
25
Agenda
  • Motivation
  • Evolutionäre Ansätze
  • Multidimensionale Erweiterung des E/R-Modells
    mE/R
  • Multidimensionale Erweiterung des UML-Modells
    mUML
  • Revolutionäre Ansätze
  • Ansatz von Totok
  • Multidimensional Aggregation Cube MAC
  • Dimensional Fact Model
  • Graphbasierte Ansätze
  • Zusammenfassung

26
Graphbasierte Ansätze (1)
  • Idee
  • gerichteter azyklischer Graph (Objektgraph)
  • repräsentiert kategorisierende Daten,
    Attributbeziehungen
  • Beziehungen durch Kanten im Graph realisiert
  • unterschiedliche Knotentypen unterschiedliche
    Semantik

27
Graphbasierte Ansätze (2)
  • Verschiedene Graphbasierte Ansätze
  • Minimale Struktur SUBJECT (ChSh81)
  • 2 Knotentypen
  • gtgt Kategorien ltlt - Cluster-Knoten (C)
  • Gruppierung einzelner Elemente
  • Hierarchie von Kategorien
  • repräsentieren qualifizierende
    Informationen
  • gtgt Kreuzprodukt ltlt - Knoten (X)
  • spannt mehrdimensionalen
    Adressierungsraum auf
  • mit eingehenden C-Knoten
  • stellen quantifizierende Informationen
    dar

28
Graphbasierte Ansätze (3)
Funktionale Abhängigkeiten zwischen C-Knoten NM Beziehungen zwischen C-Knoten
E/R-Notation
SUBJECT- Notation
1
N
M
N
C
Bundesland
X
C
C
C
Ort
Vortrag
Veranstaltung
29
Graphbasierte Ansätze (4)
  • In weiteren Ansätzen
  • GRASS (RaRi87), STORM (RaSh90, BeMR94)
  • ADaS (RaBT96), SAM (Su83), CSM (BaBa88)
  • weitere Knotentypen
  • gtgt Terminale Knoten ltlt (tn-Knoten)
  • gtgt Summenknoten ltlt (S-Knoten)
  • bei Mehrfachverwendung von Objektgraphen
    benutzt
  • zu analysierenden Teil näher spezifiziert
  • Werte durch Aggregation aus
    unterliegenden
  • Objektgraphen berechnet

Jahr
C
t1
t2
2005
1999
30
Graphbasierte Ansätze (5)
Auswertung
T
  • gtgtTopic-Knotenltlt (T-Knoten)
  • Konsistenzbedingungen
  • Minimaler Graph besitzt mind. je einen
  • T-,S-,X-,C und tn-Knoten
  • Folgende Regeln gelten
  • Ein T-Knoten ist mit einem oder mehreren T-
    und/oder S-Knoten verbunden.
  • Ein S-Knoten ist mit einem oder mehreren S-
    und/oder X-Knoten verbunden.
  • Ein X-Knoten ist mit einem oder mehreren S-,C-
    und/oder X-Knoten verbunden.
  • Ein C-Knoten ist mit einem oder mehreren X-Knoten
    und mit 2 oder mehreren tn-Knoten verbunden.
  • Ein tn-Knoten ist nur mit einem C-Knoten
    verbunden.

Veranstaltungs- erfassung
T
T
Referenten -honorar
S
Besucherzahlen
X
C
C
Bundesland
Veranstaltung
31
Graphbasierte Ansätze (6)
  • gtgtAggregationltlt (A-Knoten)
  • Zusammenfassung von logischen Einzelfakten zu
    Ganzem
  • In A-Knoten gehen C-Knoten und A-Knoten ein
  • A-Knoten gehen in X-Knoten und A-Knoten ein
  • Keine numerische Aggregation gemeint
  • gtgtGeneralisierungltlt (G-Knoten)
  • Hervorstellen von Gemeinsamkeiten
  • Definition übergeordneter Klassen
  • Graphbasierte Ansätze kaum benutzt
  • zur DWH-Modellierung

32
Graphbasierte Ansätze (7)
Vortrag
T
  • Beispiel

S
S
S
S
Besucherzahlen
X
Staat
C
X
C
Bundesland
Veranstaltungsagentur
C
Jahr
C
t1
2005
C
Ort
C
Monat
C
Veranstaltungsorganisator
t1
Juni
C
Gebäude
C
Tag
C
Veranstaltungsreihe
t1
09
C
Raum
C
Veranstaltung
33
Zusammenfassung
1 - Ebenen in Dimensionen 2 -
gruppierende Relationen zwischen
Ebenen 3 - N-M gruppierende
Relationen 4 - N-äre Relationen zwischen
N Dimensions-Ebenen 5 - Dimensionen die
an Relation beteiligt sind müssen
nicht total beteiligt sein 6 -
Analysepfade 7 - mehrere Kenngrößen
zu einem Fakt 8 - Kennzahlen auf jeder
Hierarchie-Ebene definiert 9 - Kenngrößen
über mehrere Ebenen definierbar 10
Kenngrößen für einige (nicht für
alle) Dimensionsebenen darstellbar
  • Vergleichstabelle

Ansatz 1 2 3 4 5 6 7 8 9 10
mE/R b b b b b b
mUML b b b b b b
Totok b b N/A N/A N/A
MAC b b b b b b b b b b
DFM b b b b b
Graph. Ansatz b b N/A b N/A N/A
34
  • Noch Fragen ?
  • Vielen Dank für
  • Ihre Aufmerksamkeit!
Write a Comment
User Comments (0)
About PowerShow.com