Title: Oracle Warehouse Builder 11g
1(No Transcript)
2Oracle Warehouse Builder 11g
- Alfred Schlaucher
- Oracle Data Warehouse
3- Themen
- Oracle Komponenten für das Data Warehouse
- Anforderungen Data Warehouse und
Datenintegration - Oracle Warehouse Builder
- Data Quality Option
-
-
4Aufbau und Verwaltung von Data Warehouse-Umgebunge
n
Datenintegration schnelles Bereitstellen
DB-basiertes Laden Master Data ManagementETL-Opti
onSAP Zugriff
BI-Anwendungen Standard-Berichte Interaktive
BerichteData MiningKomplexe Analysen
5Oracle Komponenten im DWH-Einsatz
Oracle EE
Oracle Enterprise Edition
Datenintegration schnelles Bereitstellen
DB-basiertes Laden Master Data ManagementETL-Opti
onSAP Zugriff
RMAN
Diagnostic Pack
Tuning Pack
RAC
Repository (OWB)
Partition
BI-Anwendungen Standard-Berichte Interaktive
BerichteData MiningKomplexe Analysen
SAP Connect
OLAP
Gateways
6Oracle Warehouse Builder
- Design des kompletten Data Warehouse Systems
- Logisches Design und Beschreibungsinformationen
- Physisches Oracle Datenbank Design
- Fast alle Datenbankobjekte von Oracle 10g
- Bereitstellung der Datenbeschaffungsroutinen
- 100 SQL und 100 PL/SQL - Generierung
- Laufzeitkontrolle durch Runtime System
- Universelles Metadaten Repository
- Automatisiertes ETL durch Scriptsprache
- Data Quality / Data Profiling
- Gehört zu den am häufigsten benutzten ETL-Tools
7Es gibt 3 Hauptgründe für den Einsatz von OWB
- Performance
- Effizientere Warehouse Architekturen
- Preis
8Neue Anforderungen an Datenintegration und
Datenmanagement
9Datenintegrations- und Datenmanagementaufgaben
- Zusammenführen von Daten aus heterogenen Systemen
- Korrigieren von Daten
- Garantieren von Datenqualität
- Datenmigration von System zu System
- Harmonisieren von Datenbeständen
- Inhaltliches Angleichen
- Synchronisieren
- z. B. Abstimmung von verschiedenen Schlüsseln
- Zuliefern von Daten
- Benutzergerechtes Bereitstellen
- Verwalten von Datenbeständen
- z. B. Historisieren / Archivieren / ILM
10Lösungen der Vergangenheit
- Programmierung von Hand
- Zerstreute Programm-Sourcen
- Fehler bei der Entwicklung
- Unnötige Doppelarbeit
- Schlechte oder fehlende Dokumentation
- Schlechte Wartbarkeit
- Enorme Folgekosten
- Unkündbare Inselexperten
- Immer wieder Katastrophen
- im Echtbetrieb
11Vorteile durchGenerieren statt Programmieren
- Vermindern von Fehlern durch Handprogrammierung
- Tabellen- und Spaltennamen müssen nicht mehr
mühsam geschrieben werden - Steuerung vieler Entwicklungsschritte durch
Wizards - Automatische Steuerung von Ziel- und Quellschemen
- Automatische Validierung (z. B.
Typverträglichkeiten) - Debugging der Laderoutinen
- Laufzeitumgebung steht bereit
- Dokumentation
12Die Geschichte der ETL-Tools geht in Richtung
integrierter Werkzeuge
1992
1996
2000
2005
Datenbankbasierte ETL-Werkzeuge
Separate Engine-gestützteETL-Werkzeuge
Programm- generatoren
Handprogrammierung
13Schnittstellen zu Quell und Zielsystemen
(Ausschnitt)
FlatFile
Oracle (Remote)
XML
FlatFile
SAP Int.
Warehouse Datenbank
DB2 OS390, UDB Sybase, Informix, SQL-Server...
XML Port
FTP Port
Ext. Table
Streams
tcp
CDC
Access/Excel
Gateway
UTL_FILE
MessageBroker
XML
DB-Link
ODBC
DB-Link
Queue
Peoplesoft
Adapter
Queue
XML
Siebel
Tabellen
View
Sequenz
SQL Loader
Index
Cube
Webservices
MView
Function
Procedure
XML
FlatFile
eMail
any System
Knowledge Module (Q2/2008)
14(No Transcript)
15Graphische Entwicklung des Datenbank-basierten
ETL-Verfahrens mit OWB
A6
- Errortable-Verfahren
- Flashback-Verfahren
- Datenkomprimierung Faktor 2 4
- SQL
- Partition-Exchange-Load
- Streams
- Change Data Capture
- Transport Tablespace
- External Tables
- Downstream Capture
- Table Functions
- Advanced Q.
- Multi Table INSERT
- MERGE
16Das OWB Entwicklungs Szenario(Tool-Architektur)
17Datenbank-basiertes Laden
18Datenbank basiertes ETL
- SQL basiert, d. h. die Oracle Datenbank wird
ausgenutzt - Möglichkeit primär mengenbasierte Operationen
durchzuführen - Wesentlich höhere Performance
- Automatisiertes Datenbankgeregelte
Parallelisieren - Datenbankgestütztes Ressources - Management
- Unterstützung aller aktuellen Datenbank ETL
Funktionen wie - Multiple Inserts
- Merge (Insert/Update)
- Direct Path Load
- Table Functions
- Partition Exchange and Load
19Datenbank basiertes ETL
- Vollständige Hints Bibliothek
- Verwendung aller Datenbank Funktionen, z. B.
auch analytische Funktionen - Im Gegensatz zu den von 3. Herstellern
nachgebildeten z. T. unvollständigen Funktionen
(Beispiel SQL CASE, Decode) - Datennahes Entwickeln
- Leichtes performantes und mengenbasiertes Updaten
von Sätzen - Ausnutzen temporärere Strukturen
- Temp Tables
- Cache Tables
- Ausnutzen besonders schneller Tabellen Objekte
- Index Based Tables
- Direkter Zugriff auf Tabelleninhalte
20Datenbank - basiertes ETL
- Nähe zu Katalogstrukturen
- Alle Informationen stehen sofort zur Verfügung
- Komplett Definition aller physikalischen
Objekte im Data Warehouse - (Tables, Index, Materialised Views, Partitioning
...)
21Datenbank basiertes ETLim Zusammenhang mit OWB
- ETL - Integriertes Data Quality
- Data Cleansing / Data Profiling
- ETL Makro Bildung / Experts
- Integrierte datenbankbasierte Workflow Umgebung
- Web basiertes Auswerten von Metadaten und
Laufzeitergebnissen - Unterstützung der Datenbank Near Realtime
Funktionalität wie Queues, Streams, CDC, Web
Services
22OWB Einzelaspekte und Screens
23KomponentenOWB
24Hinterlegung fachlicher Beschreibungen
Zurück
25Analyse der Quelldaten - Data Profiling
Zrück
Zurück
26Das gesamte System modellieren
Zurück
27Datenmodelle entwerfen
Zurück
28Komplette Definition von Tabellen
Zurück
29Transformationen mit Mappings
30Zusätzliche Hilfsfenster des Mappingeditors
31Operatoren des Mappingeditors
Zurück
32Testdaten- generierung
Zurück
33Process-Editor
34Metadaten-Dependency-Manager
35Abhängigkeits- und Auswirkungsanalyse
Zurück
36Metadaten-Browser (Web)
37Job-Kontrolle im Web
38Reporting über stattgefundene Ladeläufe
Zurück
39Individuelle Listenreports über Metadaten
HTMLDB
Zurück
404 Schichten Prozessverwaltung
41Metadaten gestützte Steuerungslogik für das Data
Warehouse
A1
Repository
Steuertabellen
Workflow / BPEL
42Zusammenfassen von Mappings zu Prozessen
43Prozesssteuerung z. B. mit Schleifen und Variablen
44Weitere Infos
http//www.oracle.com/technology/products/warehous
e/index.html
Die neue Software OWB kann über OTN bezogen
werden. http//www.oracle.com/technology/software/
products/warehouse/index.html
45Data Quality Management
46Data Quality Management Prozess
47- Themen
- Oracle und Data Quality
- Data Quality
- Vorgehensweise bei der Datenqualitätsanalyse
- Exemplarische Analysen Cheers GmbH
- Zusammenfassung der Analyseergebnisse
-
48Datenqualität? Was ist das?Unsere Daten sind
doch sauber!
- Bis zu 20 der operativen Daten sind betroffen.
- Unternehmen finanzieren schlechte mit 30-50 der
IT-Ausgaben. - Über schlechte Daten redet man nicht, man
arrangiert sich.
49Die Kosten der schlechten Daten
50Ohne Daten kein Business Daten sind der
Treibstoff der Prozesse
Information Chain
Operative Prozesse
51Aspekte der Datenqualität
Korrekt
Stimmig
Vollständig
Dokumentiert
Brauchbarkeit der Daten!
Redundanzfrei
Aktuell
Verfügbar (Access)
Nützlich (TCO)
Handhabbar
52Beispiel Datenqualitätsproblem
- 5 Millionen Privatkunden-Kontaktdaten
- Davon 372112 unterschiedliche Berufe
- Wie wertvoll ist diese Art der Information?
- Kann damit eine Segmentierung für eine
Marketingkampagne gesteuert werden? - Datenmaterial lässt Rückschlüsse auf
dieGeschäftsprozesse zu!
53Versteckte Kosten durch schlechte Datenqualität
- Manuelles Nacharbeiten von Daten
- Beschwerden -gt Aufwand in Call Center
- Erhöhte Projektkosten bei Einführung neuer
Systeme - Bis 25 gestoppt, bis zu 60 Verzug aufgrund
falscher oder fehlender Daten - Verspätete Unternehmensberichte
- Verlorene Kunden durch schlechten Support
- Produktionsausfälle durch Störung in der Supply
Chain
54Data Profiling Hilfsmittel für viele Anforderungen
Wem hilft das Data Profiling?
55Ablauf Data Profiling Analyse
Ständige Kommunikationmit der Fachabteilung
Analysieren derDaten - Augenfällige
Erkenntnisse -gt der erste Schuss - Dinge,
die sofort auffallen -gt Domains / Pattern /
PK - Visuelles Analysieren -
Graphikeinsatz - Beziehungen analysieren
Regeln, die nicht abgedeckt werden und deren
Lösung - komplexe Lookup Beziehungen -
Rekursive Strukturen - Tupel übergreifende
Abhängigkeiten
Environment - Datenmengen - Rechner - Planung
notwendig
- Zurechtschneiden
- der Daten
- - Daten aufbrechen
- - Teilmengen bilden
- Referenzdaten zusammenführen
- - Sampling
- - Mehrfach - Profiling
- - Einsatz von ETL
Ableiten von Regeln und Korrekturen -
Automatisches Erkennen - Benutzerdefinierte
Regeln - Generieren von Korrekturmappings
ETL - Prozess - Mappings - Routinen -
Workflow - Metadatenrepository
Dokumentieren der Ergebnisse - Ergebnisblatt -
Definition Metadaten - Orga - Handbuch
Korrekte Daten
1
2
3
4
5
6
X
7
56Induktives und deduktives Vorgehen
- Wir wissen, vermuten Dinge die nicht stimmen
- Wir können sinnvolle Analysen aufgrund bekannter
Dinge ableiten - Wir lassen uns überraschen, was da noch kommt
- Wir stöbern in den Daten und
- entdecken Auffälligkeiten
- beginnen zu kombinieren
- stellen Hypothesen auf
- versuchen Zusammenhänge zu beweisen
Vermutungen verifizieren
Neues entdecken
57Data Profiling mit OWB
Methoden
Die operativen Daten
Feintuning zu den Analyse- methoden
Proto- kollierung laufende Analysen
Drill Down zu den operativen Daten
58Verständlichkeit des Datenmodells(z. B. Homonyme)
Kunden_Stamm
Kundenstatus P Privatkunde F Firmenkunde G
guter Kunde K kein Kunde
Produkte_Stamm
Produktstatus 1 Großhandelsware f.
Baumärkte 2 Produkte kaufbar über
Internet 3 Serviceleistung (Kredite und
Handwerksleistung)
59Schlüsselanalyse(Eindeutigkeit in den Stammdaten)
Doppelter Datensatz
Unterschiedliche Sätze, aber Schlüsselfeld
falsch gepflegt
Unterschiedliche Sätze, aber Feld wird nicht
genutzt
60Schlüsselanalyse(Eindeutigkeit in den
Bewegungsdaten)
61Beziehungsanalyse (Wer hängt an wem? Wer ist
isoliert?)
Child
Parent
n1
Artikel_Gruppe
Produkte_Stamm
Kardinalität
Waisen
Hilfsmittel Referential
62Kreisbeziehung(Irgendwann passen die Daten nicht
mehr zusammen)
Bestellung
Best_Position
???
Zahlung
Bestellnummer 30
Bestellnummer 30
Kundennummer 12
Kundennummer 21
Kunden_stamm
Kundennummer 12
63Analyse von Hierarchien
ARTIKELSPARTENNR 1 , 2 ,3
Artikelsparte
ARTIKELSPARTENNR 1,4,3
Artikel_Gruppe
ARTIKELGRUPPENNR 1,2,3,4,5,6,11,10,9,8,7
Produkte_Stamm
ARTIKELGRUPPENNR 100,1,6,2,5,4,7,3,10
64Hierarchie ARTIKEL_GRUPPE -gt ARTIKELSPARTE
65Beziehung PRODUKTE_STAMM -gt ARTIKEL_GRUPPE
66Vergleich der Wertebereiche von referenzierenden
Feldern
67Ergebnisse der Hierarchie- und Beziehungsanalyse
BI?
Umsatz pro Sparte? Umsatz pro Gruppe? Umsatz pro
Produkt? Werden korrekte Rechnungen
gestellt? Umsatz pro Kunde? Macht die
Kundenkarte Sinn?
Fehlerhafte Spartenkennzeichnung von Gruppen
Orphans
Falsche Statuskennzeichnungvon Finanzprodukten
Fehlerhafte Verschlüsselungvon Artikel- und
Produkten
Position
Bestellung
DoppelteProduktnummern
Fehlerhafte , nicht rechenbare Einzelpreisbezeich
nung
Doppelte Wertebelegung von Statuskennzeichnung
für Privat- und Firmenkunden.
Kunden-Stamm
68Suche nach redundanten Informationen(1.
Normalform)
Kunden_Stamm
Kundenstatus P Privatkunde F Firmenkunde G
guter Kunde K kein Kunde
Folge Alle Abfragen/Analysen über Privatkunden
sind damit nicht mehr sauber durchführbar.(Z.
B. Abfragen über die Wirkung der
Kundenkarte. Hilfsmittel Domainanalyse
69Functional Dependency
Abhängigkeit zwischen GESAMT_POS_PREIS und PREIS
Warum ist der hier 98,5
70Suche nach redundanten Informationen(3.
Normalform)
Hilfsmittel Beziehungsanalyse
Abhängigkeit zwischen GESAMT_POS_PREIS und PREIS
Warum ist der hier 98,5
71Prüfung der aufgestellten Geschäftsregeln
72Stammdatenregel Artikelnummer und Produktnummer
sind alternativ zu füllen. Ein Statusfeld steuert
mit
Korrekt Zusammen 100 (Alle Fälle erfasst)
Korrekt, muß 0 sein
Korrekt Es kann nur ein Wert gepflegt sein.
Korrekt, muß 0 sein
Korrekt, muß 0 sein
Korrekt, das sind die richtigen Werte
Korrekt, das sind richtige Werte
Problem kein Schlüsselfeld ist gepflegt
Korrekt, muß 0 sein
Korrekt Zusammen 100. (Alle Fälle erfasst)
Korrekt, muß 0 sein
Problem
Korrekt
73StammdatenbetrachtungIn einigen Fällen fehlen
die Einkaufpreise
?
74Nicht normiertes DatenmaterialMit solchen Daten
kann man nicht rechnen
Hilfsmittel Pattern-Analyse
75Weitere Infos
http//www.oracle.com/technology/products/warehous
e/index.html
Die neue Software OWB kann über OTN bezogen
werden. http//www.oracle.com/technology/software/
products/warehouse/index.html
76(No Transcript)