Title: Data Warehouse Day 3
1Data Warehouse Day 3
Day 2 Review / Recall
What are the 4 key characteristics of Data
Warehouse ? Explain them ! Define a Independent
and a dependent Data Mart ! Name the distinctions
between Data Warehouses and Data Marts ! What are
the most common schema designs ? What different
kind of data are in a Data Warehouse ?
2Data Warehouse and Analysis
Where we are ?
3Data Warehouse and Analysis
Where we are ?
4Data Warehouse and Analysis
Where we are ?
5Data Warehouse and Analysis
Analysewerkzeuge Darstellung
- Tabellen
- Pivot-Tabellen Kreuztabellen
- Analyse durch Vertauschen von Zeilen und Spalten
- Veränderung von Tabellendimensionen
- Schachtelung von Tabellendimensionen
(Integration weiterer Dimensionen) - Graphiken
- Bildliche Darstellung großer Datenmengen -
Wuerfel - Netz-, Punkt-, Oberflächengraphen
- Text und Multimedia-Elemente
- Ergänzung um Audio- oder Videodaten
- Einbeziehung von Dokumentenmanagementsystemen
6Data Warehouse and Analysis
Analysewerkzeuge Darstellung - Pivot
7Data Warehouse and Analysis
Analysewerkzeuge Realisierung
- Standard Reporting
- Reporting-Werkzeuge des klassischen
Berichtswesens - Berichtshefte
- Graphische Entwicklungsumgebungen zur Erstellung
von Präsentationen von Tabellen, Graphiken, etc. - Ad-hoc Query Reporting
- Werkzeuge zur Erstellung und Präsentation von
Berichten - Verbergen von Datenbankanbindung und
Anfragesprachen
8Data Warehouse and Analysis
Analysewerkzeuge Realisierung II
- Analyse-Clients
- Werkzeuge zur mehrdimensionalen Analyse
- beinhalten Navigation, Manipulation
(Berechnung), erweiterte Analysefunktionen und
Präsentation - Spreadsheet Add-Ins
- Erweiterung von Tabellenkalkulationen für
Datenanbindung und Navigation - Entwicklungsumgebungen
- Unterstützung der Entwicklung eigener
Analyseanwendungen - Bereitstellung von Operationen auf
multidimensionalen Daten
9Data Warehouse and Analysis
Werkzeuge fuer Entscheider
- Report- u. Abfragegeneratoren
- Statistik
- Dokumenten-Retrieval
- aktive Informationsfilter
- Prozeßmodellierung
- geographische Informationssysteme
- Führungsinformation
- Entscheidungsunterstützung
- Abteilungsspezifische Tools
- industriespezifische Tools
- Online Analytical Processing
- Data Mining
10Data Warehouse and Analysis
Online Analytical Processing (OLAP)
- dynamische, multidimensionale Analyse von Daten
mit dem Ziel der Aufdeckung neuer oder
unerwarteter Beziehungen zwischen Variablen - Typische Fragestellungen
- Mit welchem Produkt wird der größte Umsatz in
einer Region gemacht ? - Wie verhält sich der Umsatz im Vergleich zum
letzten Jahr? - Ansatz
- multidimensionale Sichtweise auf Daten
- Anpassung des Datenmodells
- Präsentationsunterstützung
11Data Warehouse and Analysis
E.F. Codd (1993) Anforderungen an OLAP-Werkzeuge
OLAP - Coddsche Regeln
- 1. Multidimensionale konzeptionelle Sichtweise
- Betrachtung von (betriebwirtschaftlichen)
Kenngrößen aus Sicht verschiedener Dimensionen - 2. Transparenz
- bzgl. Zugriff auf Daten aus unterschiedlichen
Quellen - 3. Zugriffsmöglichkeit
- interne und externe Quellen
- 4. Gleichbleibende Antwortzeit bei der
Berichterstellung - Antwortzeit unabhängig von der Anzahl der
Dimensionen und des Datenvolumens
12Data Warehouse and Analysis
E.F. Codd (1993) Anforderungen an OLAP-Werkzeuge
OLAP - Coddsche Regeln II
- 5. Client-Server-Architektur
- Trennung von Speicherung, Verarbeitung,
Präsentation - offene Schnittstelle zum OLAP-Server
- 6. Generische Dimensionalität
- einheitliche Behandlung aller Dimensionen
- aber -gt spezielle Zeitdimensionen
- 7. Dynamische Behandlung dünn besetzter Matrizen
- Anpassung des physischen Schemas an die
Dimensionalität und Datenverteilung (sparsity) - 8. Mehrbenutzer-Unterstützung
- konkurrierende Zugriffe
- Sicherheits- und Integritätsmechanismen,
Zugriffsrechte
13Data Warehouse and Analysis
E.F. Codd (1993) Anforderungen an OLAP-Werkzeuge
OLAP - Coddsche Regeln III
- 9. Uneingeschränkte kreuzdimensionale Operationen
- automatische Ableitung der Berechnungen, die
sich aus den Hierarchiebeziehungen der
Dimensionen ergeben (Aggregationen) - Definition eigener Berechnungen
- 10. Intuitive Datenbearbeitung
- ergonomische, intuitive Datenbearbeitung
- Navigation über Daten, Ausrichtung von
Konsolidierungspfaden - 11. Flexible Berichterstellung
- Erstellung von Berichten mit beliebiger
Datenanordnung - 12. Unbegrenzte Anzahl von Dimensionen und Ebenen
- keine Einschränkungen der Anzahl der
unterstützten Dimensionen (häufig jedoch max. 5-8)
14Data Warehouse and Analysis
OLAP - Definition
FASMI (Fast Analysis of Shared Multidimensional
Information)
- Es soll ein schneller Zugriff (nicht länger als
20 Sekunden) selbst bei aufwendigen Abfragen
möglich sein. - Datenanalysen sollen mit Hilfe von statistischen
Verfahren und Geschäftslogik durchführbar sein. - Die OLAP-Datenbasis muß von mehreren Benutzern
gleichzeitig genutzt werden können. - Für den Benutzer sollen alle von ihm benötigten
Daten, unabhängig von Menge oder Herkunft,
bereitgestellt werden.
15Data Warehouse and Analysis
OLAP - FASMI II
- Die konzeptionelle Sicht auf die Daten muß von
mehrdimensionaler Natur sein. - physischer multidimensionaler Datenstruktur
- virtuellen Multidimensionalität der Datenbank
- beruht auf einer relationalen Datenhaltung in
denormalisierter Form (Star- bzw.
Snowflake-Schema)
- Unter einer multidimensionalen Datenstruktur ist
die Darstellung von Daten anhand von
mehrdimensionalen Datenwürfeln zu verstehen und
nicht wie im relationalen Datenmodell in
zweidimensionalen Tabellen.
16Data Warehouse and Analysis
OLAP - Sources
1. Operational System 2. Warehouse a) Relational
b) Multidimensional
17Data Warehouse and Analysis
OLAP - Architectures
- ROLAP Relational On Line Analytical Processing
- relationale Datenspeicherung - Tabellenform
- MOLAP Multidimensional On Line Analytical
Processing - multidimensional Datenspeicherung,
n-dimensionaler Würfel (n-dim data cube) - HOLAP Hybrid On Line Analytical Processing
- Speicherung eines Teils des DWHs in Form von
Würfeln (Performance), bei miss-hit wird aus
relationalen RDBMS ein neuer Würfel generiert. - DOLAP Desktop On Line Analytical Processing
- Analysesoftware und Datenspeicherung erfolgt auf
der Clientseite
18Data Warehouse and Analysis
OLAP - ROLAP
Operationale Datenbank- schicht
Applikationsschicht (Serverseite)
Presentationschicht (Clientseite)
Summary Tabels
Applikations- server
SQL
API
Data Warehouse
Visualisierung durch multi- dimensionale
Kreuztabellen, Reports, Top10 Ranking, Business
Charts, etc. Dynamische Berichte mit
OLAP Funktionalität
Metadaten
operationale Datenbestände, legacy
systeme, externe Datenquellen, Benchmarking,
Börsendienste, etc.
multidimensional modelliertes DWH, basierend auf
einem relationalen Datenbanksystem
19Data Warehouse and Analysis
OLAP - ROLAP Eigenschaften
- relationale Datenbank als Datenbasis für die
OLAP Analyse - multidimensionale Sichten (views) durch
tabellarische Aufbereitung der Daten, mittels
standard SQL Abfragen (multidimensionalen
Anfragen - GROUP-BY-Erweiterungen CUBE-Operator) - Multidimensionale Erweiterungen MDX, OLE DB for
OLAP (Microsoft), Oracle Express, Discoverer - basieren auf relationalem Starschema (oder
Snowflake Schema) mit Facts, Dimensions - Vorberechnete Summary Tables (materialized
views) verbessern die Performance
20Data Warehouse and Analysis
OLAP - ROLAP Vorteile und Nachteile
- Verwendet robuste (bereits bewährte) relationale
Datenbanken - Verständlicher (DBA) Datenzugriff (nur SQL)
- Datenimport
- Sicherheitsmechanismen bestehen bereits (auf
relationaler Ebene) - Große Datenmengen (größer als 100 Gbyte)
21Data Warehouse and Analysis
OLAP - MOLAP
Operationale Datenbank- schicht
Presentationschicht (Clientseite)
Applikationsschicht (Serverseite)
Applikations- server
API
MQL
SQL
operationale Datenbestände, legacy
systeme, externe Datenquellen, Benchmarking,
Börsendienste, etc.
Multidimensionale Datenbank DWH in Form von
Würfeln physikalisch gespeichert, intelligente
Indexstrategie
Visualisierung durch multi- dimensionale
Kreuztabellen, Reports, Top10 Ranking, Business
Charts, etc. Dynamische Berichte mit
OLAP Funktionalität
Metadaten
22Data Warehouse and Analysis
OLAP - MOLAP Eigenschaften
- Multidimensionale Datenbank für effiziente
Speicherung von multidimensionale OLAP Abfragen - multidimensionale Sicht durch Aufbereitung der
Daten in einem n-dimensionalen Würfel - multidimensionales Datenmodell -gt
23Data Warehouse and Analysis
OLAP - MOLAP Vorteile und Nachteile
Performance bei kleineren Datenmengen ( lt 10
Gbyte) Meist eigene multidimensionale
Abfragesprache (verständlicher als SQL)
Hinzufügen von Dimensionen und Hierarchien ist
leichter /- Problematik von dünnbesetzten
Würfel muß gelöst werden - Eingeschränkte
Datenmengen (Performance sinkt) -
multidimensionale Abfragesprache -gt
Transformation Standard SQL notwendig - Nicht
jeder mögliche Datenwürfel kann vorberechnet
werden. - Bei miss-hit muß auf
dahinterliegendes relationale RDBMS zugegriffen
werden.
24Data Warehouse and Analysis
OLAP - HOLAP
Operationale Datenbank- schicht
Presentationschicht (Clientseite)
Applikationsschicht (Serverseite)
Applikations- server
API
MQL
Metadaten
Visualisierung durch multi- dimensionale
Kreuztabellen, Reports, Top10 Ranking, Business
Charts, etc. Dynamische Berichte mit
OLAP Funktionalität
operationale Datenbestände, legacy
systeme, externe Datenquellen, Benchmarking,
Börsendienste, etc.
Data Warehouse
25Data Warehouse and Analysis
OLAP - HOLAP Eigenschaften
- Nutzt die Vorteile der relationalen als auch
multidimensionalen OLAP Anwendung - multidimensonale Datenbank wird für häufige
Abfragen erstellt - multidimensionale Data Marts
- hochaggregierte Daten - schnelle Antwortzeit
- relationale Datenbank wird für seltenere
Abfragen verwendet - große Mengen an Daten
26Data Warehouse and Analysis
OLAP - HOLAP Vorteile und Nachteile
Vereinigt das beste aus den beiden (ROLAP
MOLAP) Welten MDDB System greift nicht mehr
auf die operationalen Daten zu, sondern auf ein
relationales DWH keine Summary Tabelen
(Problem DWH Maintenance !) mehr notwendig -
Aufwendige Architekturkonzept, unterschiedliche
Technologien werden vermischt
27Data Warehouse and Analysis
OLAP - DOLAP
Operationale Datenbank- schicht
Presentationschicht (Clientseite)
Applikations- server
PC-DBMS
ODBC
API
Extrakt aus einem DWH oder opera-tionalen
Datenbe-ständen
Metadaten
Visualisierung durch multi- dimensionale
Kreuztabellen, Reports, Top10 Ranking, Business
Charts, etc. Dynamische Berichte mit
OLAP Funktionalität
operationale Datenbestände, legacy
systeme, externe Datenquellen, Benchmarking,
Börsendienste, etc.
oft wird auch ein spezielle Filestruktur als
Datenbasis für den DOLAP Applika- tionsserver
generiert.
28Data Warehouse and Analysis
OLAP - DOLAP Eigenschaften
- Speicherung der Daten am Client (PC)
- OLAP Applikations- und Datenbankserver laufen
auf der Clientseite - Antwortzeit wird gering gehalten (kein
Kommunikationsoverhead durch Netzwerk) - begrenzte Kapazität (PC Datenbank, Ressourcen)
- Endanwender wird ein Auszug aus dem zentralen
Data Warehouse auf seinen Client gestellt.
29Data Warehouse and Analysis
OLAP - DOLAP Vorteile und Nachteile
Für kleinere klar abgegrenzte Anwendungsgebiete
gut geeignet Sicherheit kann gewährleistet
werden, DWH (DBA) Administrator steuert die
Erstellung der Extrakte für die einzelnen
Endanwender - Endanwender sieht zumeist nur
einen Ausschnitt aus dem zentralen Data
Warehouse, Analysen könnten dadurch falsch
interpretiert werden - Anwendungen sind oft alte
Reportgeneratoren (statische Berichte) mit
hinzugefügter OLAP Funktionalität - Anwendungen
verwenden zum Teil keine Datenbank, sondern
erzeugen eine Filestruktur auf dem Client - Oft
greifen DOLAP Anwendungen direkt auf die
operationalen Datenbestände zu.
30Data Warehouse and Analysis
OLAP - Multidimensionales Datenmodell
- Datenmodell ausgerichtet auf Unterstützung der
Analyse - Datenanalyse im Entscheidungsprozeß
- Betriebswirtschaftliche Kennzahlen (Erlöse,
Gewinne, Verluste, etc.) stehen im Mittelpunkt - Betrachtung der Kennzahlen aus unterschiedlichen
Perspektiven (zeitlich, regional, produktbezogen)
-gt Dimensionen - Unterteilung der Auswertedimensionen möglich
(Jahr, Quartal, Monat) -gt Hierarchien oder
Konsolidierungsebenen
31Data Warehouse and Analysis
OLAP - Multidimensionales Datenmodell II
- Kennzahlen/Fakten (engl. facts)
- (verdichtete) numerische Meßgrößen
- Beschreiben betriebswirtschaftliche Sachverhalte
- Beispiele Umsatz, Gewinn, Verlust,
Deckungsbeitrag - Typen
- Additive Fakten (additive) Berechnung zwischen
sämtlichen Konsolidierungsebenen der Dimensionen
möglich, z.B. Einkaufswert - Semi-additive Fakten (additive) Berechnung nur
für ausgewählte Menge von Hierarchieebenen, z.B.
Lagerbestand - Nicht-additive Fakten keine additive Berchnung
möglich, z.B. Durchschnitts- oder prozentuale
Werte
32Data Warehouse and Analysis
OLAP - Multidimensionales Datenmodell III
- Dimension
- beschreibt mögliche Sicht auf die assoziierte
Kennzahl - endliche Menge von Dimensionselementen
(Hierarchieobjekten), die eine semantische
Beziehung aufweisen - dienen der orthogonalen Strukturierung des
Datenraums - Hierarchien in Dimensionen einfach und parallel
- Examples ? - Beispiele Produkt, Geographie, Zeit
33Data Warehouse and Analysis
OLAP - Multidimensionales Datenmodell IV
- Würfel (engl. cube, eigentlich Quader)
- Grundlage der multidimensionalen Analyse
- Kanten -gt Dimensionen
- Zellen -gt ein oder mehrere Kennzahlen (als
Funktion der Dimensionen) - Anzahl der Dimensionen -gt Dimensionalität
- Visualisierung
- 2 Dimensionen Tabelle
- 3 Dimensionen Würfel
- gt3 Dimensionen Multidimensionale Domänenstruktur
34Data Warehouse and Analysis
OLAP - Cube
35Data Warehouse and Analysis
OLAP - Cube Example
36Data Warehouse and Analysis
OLAP - Operationen auf multidimensionalen
Datenstrukturen
37Data Warehouse and Analysis
OLAP - Operationen auf multidimensionalen
Datenstrukturen
- Standardoperationen
- Pivotierung
- Roll-Up, Drill-Down
- Drill-Across
- Slice, Dice
38Data Warehouse and Analysis
OLAP - Operationen - Pivotierung/Rotation
39Data Warehouse and Analysis
OLAP - Operationen -Drill/Roll-Up
- Beispiel
- Land-gtStaat-gtRegion
- Tag -gt Monat -gt Quartal -gt Jahr
- Beim Drill-/Roll-up werden die Werte auf der
nächst höheren - Hierarchieebene analysiert
- Dimensionalität bleibt erhalten
Dimension REGION
40Data Warehouse and Analysis
OLAP - Operationen -Drill-Down / Across
- komplementär zu Roll-Up
- Navigation von aggregierten Daten zu
Detail-Daten entlang der Klassifikationshierarchie
- Untersuchen der Daten in einem feineren
Detaillierungsgrad innerhalb einer Dimension - Untersuchen von Detaildaten
- Drill-Across
- Wechsel von einem Würfel zu einem anderen
Dimension REGION
41Data Warehouse and Analysis
OLAP - Operationen - Roll-Up, Drill-Down
42Data Warehouse and Analysis
OLAP - Operationen - Slice
- Erzeugen individueller Sichten
- Slice
- Herausschneiden von Scheiben aus dem Würfel
- Verringerung der Dimensionalität
- Beispiel alle Werte des aktuellen Jahres
43Data Warehouse and Analysis
OLAP - Operationen - Slice
44Data Warehouse and Analysis
OLAP - Operationen - Slice - Beispiel
45Data Warehouse and Analysis
OLAP - Operationen - Dice
- Erzeugen individueller Sichten
- Dice
- Herausschneiden einen Teilwürfels
- Erhaltung der Dimensionalität, Veränderung der
Hierarchieobjekte - Beispiel die Werte bestimmter Produkte oder
Regionen
46Data Warehouse and Analysis
OLAP - Operationen - Dice - Example
47Data Warehouse and Analysis
OLAP - Analyse-Werkzeuge
- Business Objects Business Objects
- Cognos
- Powerplay, BI Platform
- Hyperion
- Hyperion OLAP
- Essbase
- IBM Visualizer
- Informix Metacube
- Seagate Holos, Seagate Info
- Oracle Express Server
- Brio Brio Enterprise
- Arcplan Information Servies
- inSigth, dynaSight
48Data Warehouse and Analysis
Data Mining and the Sept. 11th ?
- Applied Systems Intelligence (ASI)
- eine Global Information Base, die feindliche
Operationen automatisch aufspüren soll - Nips, ein Numerically Integrated Profiling
System - stellt Verbindungen zwischen Bankgeschäften und
Reiseaktivitäten her - Choice Point
- verkauft Kundendaten an das FBI
- Nora (Non-Obvious Relationship Awareness)
- Reservierungen für Flüge, Hotels und Mietwagen
- Informationen aus über 4000 Quellen, in denen
Daten von über einer Million Menschen
zusammenlaufen - Datenmuster eines Passagiers mit dem eines
Elements auf der Liste der bad guys überein - Alarm am Ticketschalter
49Data Warehouse and Analysis
Data Mining - Definition
- Der Begriff Data Mining steht für das Suchen
nach wertvollen Geschäftsinformationen in einer
großen Datenbank und für das Graben nach einer
wertvollen Informationsader. - Data Mining kann als Teilprozess des Knowledge
Discovery angesehen werden - Knowledge Discovery ist ein neuer Begriff in der
Data Warehouse-, OLAP und Data Mining
Problematik. - Er bezeichnet den gesamten Entdeckungsprozeß
ausgehend von der Formulierung einer Frage bis
zur Interpretation der Ergebnisse. - Data Mining ist der Kunde im Data Warehouse
50Data Warehouse and Analysis
Data Mining - Knowledge Discovery in Databases
(KDD)
Iterativer und interaktiver Prozeß 1. Festlegung
von Problembereich und Zielen 2. Datensammlung
und bereinigung 3. Auswahl und Parametrisierung
der Analysefunktionen und methoden 4. Data
Mining/Mustererkennung 5. Bewertung und
Interpretation der Ergebnisse 6. Nutzung des
gefundenen Wissens
51Data Warehouse and Analysis
Data Mining - Data Warehouse - Kunde
52Data Warehouse and Analysis
Data Mining - Data Warehouse - Donator
53Data Warehouse and Analysis
Data Mining - Verfahren
- Erkennung von Abhängigkeiten
- Aufdeckung statistischer Abhängigkeiten zwischen
Variablen relevanter Datensätze -gt
Assoziationsregeln, Wahrscheinlichkeitsnetze - Bsp. Warenkorbanalyse
- Klassifikation
- Zuordnung von Objekten zu verschiedenen
vorgegebenen Klassen - Ableitung des Klassifikationsmodells aus einer
Trainingsmenge - Bsp. Kundenklassifkation bzgl. Schadensrisiko
54Data Warehouse and Analysis
Data Mining - Verfahren II
- Clustering
- Einordnung ähnlicher Objekte in neu gebildete
Gruppen daß Ähnlichkeit innerhalb der Gruppen
möglichst groß sowie zwischen Gruppen möglichst
gering - Bsp. Segmentierung von Kunden im Marketing
- Generalisierung
- Methoden zur Aggregation und Verallgemeinerung
großer Datenmengen auf höherer Abstraktionsebene - Bsp. interaktive Datenexploration
55Data Warehouse and Analysis
Data Mining - Verfahren III
- Sequenzanalyse
- Suche nach häufig auftretenden Episoden oder
Ereignisfolgen in Datenbeständen mit (zeitlicher)
Ordnung - Bsp. Clickstream-Analyse
- Regression
- Ermittlung des Ursache-Wirkung-Zusammenhangs
zwischen einzelnen Merkmalen - Bsp. Entwickung von Aktienkursen
56Data Warehouse and Analysis
Data Mining - Verfahren - Beispiele (Clickstream)
- Cognos PowerPlay
- Clickstream-Verhalten der Besucher Ihrer Website
nachvollziehen und multidimensional analysieren. - Antworten und Ergebnisse zu Fragestellungen wie
- Welches Unternehmen besuchte meine Website?
- Für welche Web-Seiten interessieren sich meine
Kunden besonders? - Wie navigiert der Besucher durch meine
Web-Seiten? - Wie lange hält sich der Besucher auf den
einzelnen Web-Seiten auf? - Wann wird meine Website am häufigsten besucht?
57Data Warehouse and Analysis
Data Mining - Verfahren - Beispiele (Clickstream)
58Data Warehouse and Analysis
Data Mining - Verfahren - Beispiele (Clustering)
59Data Warehouse and Analysis
Data Mining - Verfahren - Beispiele
(Klassifikationen)
60Data Warehouse and Analysis
Data Mining - Verfahren - Beispiele
(Assoziationsregeln)
Ableitung von Regeln aus Itemsets Wenn ein
Kunde Milch kauft, dann kauft er auch Butter. !
61Data Warehouse and Analysis
Data Mining - Verfahren - Beispiele (Decision
Tree)
62Data Warehouse and Analysis
Data Mining - Verfahren - Beispiele (weitere)
63Data Warehouse and Analysis
Data Mining - Weitere Anwednungen
64Data Warehouse and Analysis
Data Mining - Weitere Methoden und Techniken
Aktienkurse, Bildauswertung, Biometrie,
Meteorolgie
65Data Warehouse and Analysis
Data Mining - Weitere Methoden und Techniken
66Data Warehouse and Analysis
Data Mining - What it does
- Discovers facts and data relationship
- find patterns - Examples ?
- determines rules - Examples ?
- Retains and reuses rules - Example ?
- Present Information for the users
- may take many hours
- needs little human intervention (Einmischung)
- but requires knowledgeable people to analyze
results !
67Data Warehouse and Analysis
Data Mining - What it does
68Data Warehouse and Analysis
Data Mining and OLAP
69Data Warehouse and Analysis
Data Mining Tools - Kriterien
70Data Warehouse and Analysis
Data Mining Tools - Kriterien II
71Data Warehouse and Analysis
Data Mining Tools - Kriterien III
72Data Warehouse and Analysis
Data Mining Tools - Kriterien IV
73Data Warehouse Projects
The Business Case for a Data Warehouse - Example
- Wal Mart (www.wal-mart.com)
- Marktführer im amerikanischen Einzelhandel
- Unternehmensweites Data Warehouse
- Größe ca. 25 TB
- Täglich bis zu 20.000 DW-Anfragen
- Hoher Detaillierungsgrad (tägliche Auswertung
von Artikelumsätzen, Lagerbestand
Kundenverhalten) - Basis für Warenkorbanalyse,
- Kundenklassifizierung, ...
74Data Warehouse Projects
The Business Case for a Data Warehouse - Example
II
- Überprüfung des Warensortiments zur Erkennung
von Ladenhütern oder Verkaufsschlagern - Standortanalyse zur Einschätzung der
Rentabilität von Niederlassungen - Untersuchung der Wirksamkeit von
Marketing-Aktionen - Auswertung von Kundenbefragungen, Reklamationen
bzgl. Bestimmer Produkte etc. - Analyse des Lagerbestandes
- Warenkorbanalyse mit Hilfe der Kassenbons
75Data Warehouse Projects
The Business Case for a Data Warehouse - Example
III
Beispiel einer Anfrage Welche Umsätze sind in
den Jahren 1998 und 1999 in den Abteilungen
Kosmetik, Elektro und Haushaltswaren in den
Bundesländern Sachsen-Anhalt und Thüringen
angefallen ?
76Data Warehouse Projects
The Business Case for a Data Warehouse - Example
IV
77Data Warehouse Projects
The Business Case for a Data Warehouse - Example V
78Data Warehouse Projects
The Business Case - ROI
Data Warehousing, often described as the holy
grail that will lead companies to success
through a better understanding of their business,
is delivering on its promise Average Three
Year ROI Enterprise Data Warehouse ROI -
322 Discrete Data Warehouse ROI - 533
Source International Data Corporation
79Data Warehouse Projects
The Business Case for a Data Warehouse
80Data Warehouse Projects
The Business Case DWH
- A well rounded and complete Business Case should
include a picture of - the likely Benefits to the company
- an indication of the Costs of the solution both
initial and year on year - an indication of the Risks, together with any
risk mitigation (Minderung)
81Data Warehouse Projects
The Business Case DWH - Benefits
- Categorizing
- Tangible (greifbare) Benefits
- cost savings associated with the cost reduction
in OLTP - DWH will remove the need to update the old
mainframe - Intangible Benefits
- e.g. organization decisions making capabilities
being enhanced
82Data Warehouse Projects
The Business Case DWH - Benefits
- Categorizing by Objectives (Zielen)
- increased revenue (Einkuenfte)
- decreased costs
- Quantifying the Benefits
- Time
- reducing cycle time to perform and activity
- Quantity
- e.g. Reduced customer defection by 5 within 1
year to doubled profit - Quality
- e.g. Increased Staff satisfaction increased
customer satisfaction reduction in churn
(Beschwerde) savings in acquisition costs
83Data Warehouse Projects
The Business Case for a DWH - Costs
84Data Warehouse Projects
The Business Case for a DWH - Costs II
85Data Warehouse Projects
The Business Case for a DWH - Risks
- Business Environment
- political and cultural world within which the
company operates - dependencies to other companies (network,
merger, acquisitions) - corporate strategy changes
- departmental politics
- Effective sponsorship
- change of the organization itself brought about
by the Warehouse
86Data Warehouse Projects
The Business Case for a DWH - Risks
- Technical Environment
- new technologies vers old
- technical surprises
- lack of understanding the source system
- interfaces to other systems
- Project Risks
- resources ?!
- Inter project dependencies
Project Management !!!
87Data Warehouse Projects
Overwiev - Die Andersartigkeit des DW-Projektes
- Durch die Größe der Datenbasis müssen frühzeitig
Überlegungen der Datenbankadministration und
Performancesicherung mit einbezogen werden - Auch dem effizienten Import der Daten muss viel
Zeit gewidmet werden - Flexible Architektur nötig, da kein Unternehmen
seinen künftigen Informationsbedarf voraussehen - DW muss so aufgebaut werden, dass es sich
ständig verändern kann - Gefahr beim Wasserfall-Modell Paralyse durch
Analyse man wird nie mit analysieren fertig und
setzt somit nie um
88Data Warehouse Projects
Overwiev - Die Andersartigkeit des DW-Projektes
II
- Ein DW ist i.d.R. breit angelegt und umfaßt
meist große Datenbanken mit über 100 Gbyte - Fehler im System-/HW-Aufbau rächen sich
unmittelbar - Die Anforderungen an ein DW sind i.d.R. nur sehr
unvollständig definierbar und ändern sich zudem
im Laufe der Zeit - Damit steigt die Gefahr einer ständigen
Veränderung der Anforderungen ohne Fertigstellung
Paralyse durch Analyse - Oftmals werden im Zusammenhang mit einem DW auch
die Geschäftsprozesse überarbeitet - Zeitliche Dimension 18-24 Monate
89Data Warehouse Projects
Project Management Methods
- Why ?
- Success is composed of
- On time delivery, within budget costs
- contracted functionality delivered
- happy clients !
- Which ?
- E.g. Oracle Data Warehouse Method
- e.g. Roche Price Waterhouse Coopers Summit D
- In-house used Methods
90Data Warehouse Projects
Project Management - Tasks
- Control and Reporting
- determine scope and approach (Zweck) of the
project - manage change and control risks
- report progress status externally
- control the quality plan
- Work Management
- define, monitor and direct all work performed on
the project - financial view of the project
91Data Warehouse Projects
Project Management - Tasks II
- Resource Management
- helps to provide the project with right level of
staffing (Mitarbeiter) and skills - Quality Management
- implement quality measures to verify the project
meets the clients purpose - Configuration Management
- store, organize, track and control all documents
and deliverables - Computerized System Validation
92Data Warehouse Projects
Project Management - Phases
93Data Warehouse Projects
Project Management - Phases - Strategy
94Data Warehouse Projects
Project Management - Phases - Strategy II
- focus understanding the business goals and
initiatives - defining the purpose and objectives for the
total DW solution (vision, big picture) - key outputs defining the implementation and
infrastructure development - business case with measurable objectives
- DW architecture and technical architecture,
strategies for each component of DW - Project Plan
95Data Warehouse Projects
Project Management - Phases - Definition
96Data Warehouse Projects
Project Management - Phases - Definition II
- to define the scope and objectives for the
incremental development effort while complying
(vergleichen) with the enterprise vision - to create initial models
- to document data sources
- to define data quality
- to create technical architecture and DW
architecture for the scoped solution - tactical plans for addressing data acquisition,
data access, DW administration, Training, meta
data management
97Data Warehouse Projects
Project Management - Phases - Analysis
98Data Warehouse Projects
Project Management - Phases - Analysis II
- to formulate the detailed requirements for the
selected increment - focus is on the users information, data
acquisition and data access requirements for
business analysis and decision making - refresh cycles, data mappings
- to produce relational and/or multidimensional
modal as appropriate (angemessen) - requirements for hardware, software, network,
backup and recovery (credit application !)
99Data Warehouse Projects
Project Management - Phases - Design
100Data Warehouse Projects
Project Management - Phases - Design II
- to translate analysis phase requirements into
detailed desing specifications while taking into
account the technical architecture and available
technologies - data acquisition and load modules are designed,
data elements, levels of summarization and
granularity are validated, data integrity is
checked, metadata docuemented - data access, query, reporting components are
defined - using the logical models, detailed data
requirements data mappings, the physical
structures for relational/ multidimensional
metadata database objects are designed
101Data Warehouse Projects
Project Management - Phases - Build
102Data Warehouse Projects
Project Management - Phases - Build II
- to create and test
- the database structures, data acquisition
modules, DW administration tools, metadata
modules, data access modules, reports and queries
- test scripts
- to develop, integrate and test the increment
before it is prepared for the transition phase - user and operation guides, technical and
metadata references are produced - training database is developed, training
material are completed
103Data Warehouse Projects
Project Management - Phases - Transition
104Data Warehouse Projects
Project Management - Phases - Transition II
- to install the incremental solution
- to prepare the client personnel to use and
manage the solution - to go to production and begin managing the
growth and maintenance of the Warehouse - Monitoring
- user acceptance tests
105Data Warehouse Projects
Project Management - Phases - Discovery
106Data Warehouse Projects
Project Management - Phases - Discovery II
- to identify and plan for the next increment
- to select the next effort based on business need
and DW infrastructure need - to evaluate the implemented increment and
identify increment opportunities (Moeglichkeiten) - user/client involvement
- lessons learned
107Data Warehouse Projects
Project Management - Processes
108Data Warehouse Projects
Project Management - Roles
109Data Warehouse Projects
Business Requirements
Questions
Answers
Who defines the business benefit ?
The Business
Who derives the business benefit ?
The Business
Who holds the purse string ?
The Business
Who do we need to impress ?
The Business
Who needs a Data Warehouse ?
The Business !
IT ?
110Data Warehouse Projects
Business Requirements Definition Process
- defines the requirements
- clarifies the scope
- establishes the implementation roadmap
- with the direction of the client organization
- definition of strategic business goals and
initiatives - used to direct the strategies, purpose and goals
of the DWH solution
111Data Warehouse Projects
Business Requirements Definition Process II
- Early in the process
- the focus is on the enterprise aspect of the DW
solution - information requirements
- subject areas
- implementation roadmap
- business case
- Process continues
- scoping the solution to be developed and
delivered - identifying the clients information needs
- modeling the requirements
112Data Warehouse Projects
Business Requirements II
- Analyze the business NOT the data !
- Identify the business events that are of
interest - a single business event may result in a number
of transactional records - some key events may be masked (verdeckt) or not
recorded at all - the business meaning is critical
- business meaning may also enforce operational
requirements on the Warehouse
113Data Warehouse Projects
Business Requirements III
- Identify the types of users - to support their
needs effectively - Monitor
- status reports
- Manager
- overview
- Investigator
- identify meaning/reasons of anomalies, power
drilling - Innovator
- details, multi-step ananlysis
- Communicator
- identify, acquire and retain users
114Data Warehouse Projects
Solution Definition Strategies
115Data Warehouse Projects
Solution Definition Strategies II
116Data Warehouse Projects
Solution Definition Strategies III
117Data Warehouse Projects
Solution Definition Strategies IV
- Big Bang
- Independent Data Mart
- Incremental Data Warehouse top- down
- Incremental Data Warehouse bottom-up
- Migration
- Independent Data Mart
118Data Warehouse Projects
Solution Definition Strategies - Big Bang
- top-down big bang is a high risk
- extended time to achieve business benefits
- requirements will change during analysis
- longer and deeper valley of despair
- if the business is being re-engineered, the Data
Warehouse may not have management focus - but having a big picture before starting a DW
(vision) - Clients
- start-up (e-) business where IT is the key
enabler (Amazon.com) - organizations where information is seen as
critical - the foolish !
119Data Warehouse Projects
Solution Definition Strategies - Independent Data
Marts
- low entry costs
- fast to accrue (zufallen) business benefits
- Adopted easily be LOB (line of business)
- - islands of information - lack any synergy among
the subject area - - no high-level understanding of business needs
- - no future direction esteblished
- - no cross functional view of the business (no
single version of truth) - Clients
- immediate needs outweigh (ueberwiegen) potential
future benefits - powerful and dynamic LOB management
- smaller companies or budget held at LOB level
120Data Warehouse Projects
Solution Definition Strategies - Top-Down
Incremental
- provides relatively quick implementation
payback - significant lower risk than Big Bang
- achieves synergy among subject areas - one
version of truth - - more difficult to sell because of higher
up-front costs - Clients
- cross functional reporting seen as important
- strategic vision
- matrix management with an open view to
information - organizations that believe the press about DW
benefits - organizations that are trying to re-align
business IT
121Data Warehouse Projects
Solution Definition Strategies - Bottom-Up
Incremental
- proof of concept type of approach proves the
technical concept quickly - easier product lead sale
- - tenets (Grundsaetze) are completely compromised
- - high costs of re-engineering between increments
- - cultural rejection by the next LOB as
definitions are imposed (aufgezwungen) - Clients
- IT lead Data Warehouse project
- IT attempting to regain (zurueckgewinnen) or
maintain control - Nike IT culture - Just do it !
- concerns about overall risk benefit, fixed
price DW implementations
122Data Warehouse Projects
Solution Definition Strategies - DM-DW Migration
- client/user has matured through the use of
DMs, derived business value and moved on - sound (vernuenftig) approach to IT
- strong alignment business IT
- - Benefits are mainly in terms of organization
capability readiness - Clients
- external consulting used rather than internal IT
project - balance of power lies with the business not IT
- new senior appointment wants it this way
123Data Warehouse Projects
Meeting the Technical Challenge - Tenets
- Data Warehouse Tenets (Grundsaetze)
- Extensible
- possible to add new types of transactional data
as well as new levels of aggregations as
information change over time - Scalable
- DW may grow by an order of magnitude
(Groessenordnung) over time (transactions and
business) - Flexible
- flexible to support all types of access
(multidimensional, ad-hoc, drill-down)
124Data Warehouse Projects
Meeting the Technical Challenge - Tenets II
- Integrated
- any solution must be fully integrated with
existing systems and operational environments - data from multiple disparate systems
- Reliable (zuverlaessig)
- all data have to be accurate and consistent for
a given point in time - Manageable
- trade off (Kompromis) between the cost of
automating any solution and cost of managing a
system on a day to day basis - Accessible
- 24/7, information must be timely and represented
in a useful fashion
125Data Warehouse Projects
Meeting the Technical Challenge - Summary