Datenbankauswertungen in gro - PowerPoint PPT Presentation

1 / 79
About This Presentation
Title:

Datenbankauswertungen in gro

Description:

Einf hrung: Probleme und Herangehensweise Sybase Adaptive Server IQ und IQM Prinzip- berblick Speicherungsstruktur und Indextypen IQ Multiplex Beispiele, Ergebnisse – PowerPoint PPT presentation

Number of Views:105
Avg rating:3.0/5.0
Slides: 80
Provided by: JBittner
Category:

less

Transcript and Presenter's Notes

Title: Datenbankauswertungen in gro


1
Datenbankauswertungen in großen Datenmengen-
Spaltenorientierte Datenbank
  • Einführung Probleme und Herangehensweise
  • Sybase Adaptive Server IQ und IQM
  • Prinzip-Überblick
  • Speicherungsstruktur und Indextypen
  • IQ Multiplex
  • Beispiele, Ergebnisse
  • Jürgen Bittner

2
Das gewöhnliche Performance-Problem
  • Ein Select braucht zu viel Zeit,... was tun ?
  • Schnellere Hardware ?
  • Überprüfen des Kommandos
  • Prüfen des Datenbank-Servers
  • Prüfen der Datenbank

3
Ein Select braucht zu viel Zeit,... was tun ?
  • Überprüfen des Kommandos
  • Liegt eine ungünstige (evt. vermeidbare)
    Formulierung vor ?
  • Besonderheiten der Hersteller sind zu beachten

4
Anfragebeispiel
Wieviele Gastronomie-Einrichtungen in Sachsen
haben kein Radeberger ?
  • SELECT COUNT (DISTINCT Einr)
  • FROM Absatz
  • WHERE Land SA AND
  • Typ G AND
  • Einr IS NOT IN (SELECT DISTINCT
    Einr
  • FROM Absatz
  • WHERE Land SA AND
  • Typ G AND
  • Prod Radeb)

SELECT COUNT (DISTINCT Einr) - AnzRadeb FROM
Absatz, (SELECT COUNT(DISTINCT Einr)
AS AnzRadeb FROM Absatz
WHERE Land SA AND
Typ G AND Prod
Radeb) WHERE Land SA AND Typ
G
  • SELECT COUNT (DISTINCT Einr)
  • FROM Absatz
  • WHERE Land SA AND
  • Typ G AND
  • Einr IS NOT IN (SELECT DISTINCT
    Einr
  • FROM Absatz
  • WHERE Land SA AND
  • Typ G AND
  • Prod Radeb)

5
Ein Select braucht zu viel Zeit,... was tun ?
  • Überprüfen des Kommandos
  • Liegt eine ungünstige (evt. vermeidbare)
    Formulierung vor ?
  • Besonderheiten der Hersteller sind zu beachten
  • Prüfen des Zugriffsplans Wurde ein nicht
    erwarteter Ablauf generiert ?
  • Index-Benutzung
  • Wurde ein wirkungsvoller Index nicht ausgewählt ?
  • Fehlt ein Index ?
  • Reihenfolge der Joins
  • Maßnahmen Diverse Eingriffe wie
  • Hints (Force Index, Parallelization, number of
    pages per read,...)
  • Zerlegung der Query in mehrere Schritte mit Hilfe
    temporärer Tabellen
  • Update statistics, u.ä.
  • Prüfen des Datenbank-Servers
  • Einschalten eines Performance-Monitors

6
Ein Select braucht zu viel Zeit,... was tun ?
  • Prüfen des Datenbank-Servers
  • Einschalten eines Performance-Monitors
  • Index-Benutzung
  • Prozessaktivität
  • Sperren
  • Cache-Benutzung
  • Task switches
  • Prüfen der Datenbank
  • Modifikation des Datenbank-Schemas
  • Anlegen weiterer Indizes
  • Einbauen von Aggregaten und anderen Redundanzen
  • Partitionierung
  • Häufig ergibt sich neues Konfliktpotential !

7
Tuning stößt häufig an Grenzen
  • Beispiele
  • Spezial-Queries legen das komplette System
    lahm.
  • Die Kapazität des Systems ist bereits bei
    irgendeiner Benutzer-Anzahl ausgeschöpft, es
    sollen aber zusätzliche, z.B. auch
    Intranet-Anwender unterstützt werden.
  • Die Datenmengen sind sehr groß.
  • Das Select wird von einem Endbenutzer-Werkzeug
    generiert.

8
Die grundlegende Entscheidung Isolieren der
Anfragen von den Transaktionen
9
Data Warehouse Architektur
Benutzer- Tool
RDBMS
Relationale DB
Data Staging (ETL)
Benutzer- Tool
Enterprise Data Warehouse
SW-Pakete
RDBMS
Benutzer- Tool
Altdaten
ROLAP
Benutzer- Tool
Externe Quellen
Warehouse Admin. Tools
Daten- Bereinigungs- Tool
MOLAP
unternehmen- weites/ zentrales Data Warehouse
Daten-Extraktion, Transformation und Laden
neu strukturierte (Architected) Data Marts
Quell- daten
10
Die Warnung
11
(No Transcript)
12
Bei sehr großen Datenmengen prinzipielle
Performanceprobleme
  • Beispielsituationen
  • Das Analysesystem steht erst ab 1100 Uhr
    morgens zur Verfügung.
  • Die Informationen sind immer auf dem Stand vom
    Vortag, benötigt werden aber Informationen, die
    max. 60 Minuten alt sind.
  • Das Data Warehouse speichert die
    Geschäftsvorgänge der letzten 6 Monate, benötigt
    werden aber die Trends über die letzten 2 Jahre
    oder mehr.

13
(Häufige) Probleme in Business Intelligence
Anwendungen
  • Antwortzeiten - sind zu lang
  • Flexibilität und komplexe Abfragen - mit
    ständiger Erweiterung der Anforderungen (Ad-Hoc
    SQL) sind sehr problematisch
  • Wachsende Nutzerzahl/ Datenmenge Performance
    sinkt und genügt nicht mehr den Anforderungen
  • Analyse auf Detaildatenebene - nicht alle Daten
    werden abgespeichert aufgrund der Größe des
    Datenbestandes ? Arbeit mit verdichteten Daten
  • Speicherung und Analyse von (sehr) großen
    Datenbeständen zu teuer in Speicher,
    Administration und Antwortzeit
  • Online-Loads - parallel zum Auswerten nicht
    (immer) möglich

14
Hohe Performance bei Datenbankauswertungen
  • Einführung Probleme und Herangehensweise
  • Sybase Adaptive Server IQ und IQM
  • Prinzip-Überblick
  • Speicherungsstruktur und Indextypen
  • IQ Multiplex
  • Beispiele, Ergebnisse

15
Der traditionelle RDBMS-Ansatz
Berechne den durchschnittlichen Absatz von
Radeberger in Gastronomie-Einrichtungen in
Sachsen je Monat der letzten 3 Jahre
SELECT AVG (Abs), SUM(Abs)/AnzGSA/36 FROM Absatz,
(SELECT COUNT(DISTINCT Einr) AS
AnzGSA FROM Absatz WHERE
Land SA AND Typ
G) WHERE Land SA AND Typ
G AND Prod Radeb
16
Das Problem Große Datenmengen
Berechne den durchschnittlichen Absatz von
Radeberger in Gastronomie-Einrichtungen in
Sachsen je Monat der letzten 3 Jahre
  • 360 Millionen Zeilen
  • 200 Bytes pro Zeile
  • 16K Seitengröße
  • 4.500.000 I/Os pro Table Scan werden benötigt,
    mit schneller Platte,
    d.h. 40MB/sec 30 Minuten !!!
  • Sehr teuer und unflexibel bei
    Ad-hoc-Anfragen

17
Vertikale Partitionierung
Sybase IQ Daten sind in Spalten statt in Zeilen
gespeichert.
18
Vertikale Partitionierung
Berechne den durchschnittlichen Absatz von
Radeberger in Gastronomie-Einrichtungen in
Sachsen je Monat der letzten 3 Jahre
Sybase IQ Es werden nur die relevanten Spalten
gelesen
  • Ergebnis im Beispiel
  • Reduzierung des Disk-I/O
  • auf maximal 5 (ohne einen Index zu benutzen)

19
Komprimieren der Daten
SQL Create table ABC yellow, blue,
red..magenta
  • Komprimieren in Zeilen bringt wenig wegen
    wechselnder Datentypen, sehr wirkungsvoll
    innerhalb einer Spalte
  • Dekomprimieren von Zeilen ist ineffizient (CPU
    overhead) weil meist nur ein Teil benötigt wird
  • Relative kleine Seitengröße bei OLTP bewirkt
    ungenutzten Platz
  • Bit-wise and bit-mapped sehr platzgünstig
  • Null values benötigen viel Platz in
    zeilen-orientierten DBMS
  • Zeilen-orientierte DBMS benötigen 4 - 10 mal mehr
    Speicherplatz als IQM

Db page 2-32KB
DB Page bis 2048 KB
20
Platten-Laufwerke
SQL Create table ABC yellow, blue,
red..magenta
  • Problem
  • kleine I/O Größe der zeilen-orientierten DBMS
  • 90 braucht die Platte zum Suchen
  • random I/O der zeilen-orientierten DBMS
  • 90 braucht die Platte zum Suchen
  • Suchzeiten verbessern sich nur langsam, CPUs
    schneller gt mehr Laufwerke pro CPU
  • Zeilen-orientiertes DBMS 10 Laufwerke pro CPU
    (bevorzugt kleine Platten 18-36GB)
  • IQ 0.5 -1 Laufwerke pro CPU (bevorzugt große
    Platten 73-180-320GB)
  • Zeilen-orientierte DBMS benötigen 10 20 mal
    mehr Laufwerke als IQM pro CPU

Db page 2-32KB
Db page bis 2048 KB
21
Datenkompression - Radikale Senkung von
Speicherbedarf und Wartung
INPUT DATA 1 TB Source Flat Files, ETL,
Replikation, ODS
22
Sybase IQ Praxisergebnisse Performance vs.
Oracle - (Kundenbeispiel Citibank)
Oracle Sybase IQ Durchschnittl.
3.1 Std. Antwortzeit Ladezeit 8.4
Std. Plattenplatz 47 GB Plattform
2-CPU Ausführen von sechs komplexen
Anfragen - Bankenanwendung (select customer ID,
group by product and account)
6.9 Min. 3.1 Std. 8 GB
1-CPU
23
Hohe Performance bei Datenbankauswertungen
  • Einführung Probleme und Herangehensweise
  • Sybase Adaptive Server IQ und IQM
  • Prinzip-Überblick
  • Speicherungsstruktur und Indextypen
  • IQ Multiplex
  • Beispiele, Ergebnisse

24
Index in RDBMS
  • am meisten angewendet balanced-tree (B)

25
4 Basis-Index-Typen und weitere Spezial-Typen
Bezeichnung
Abkürzung
Fast Projection
FP
Wird für jede Spalte grundsätzlich Verwendet,
Default Index
High Group
HG
Für UNIQUE und PRIMARY KEY notwendig
Low Fast
LF
High Non Group
HNG
CMP
Comparison Index
Word Index
WD
Join Index
JI
Date-, Time-, Datetime
Date,TIME,DTTM
26
Fast Projection (FP)
  • Die Daten einer Spalte werden komprimiert
    gespeichert, abhängig von Datentyp und
    Kardinalität.
  • Default Speicherung, die automatisch durch IQ
    realisiert wird und nicht entfernt werden kann
  • für alle Spalten notwendig für select list
    Spalten, string Suche, ad-hoc joins

SELECT Land FROM Landtabelle WHERE Land LIKE Sa
27
Fast Projection (FP)
  • Häufig wird dieser Default Index mit einem oder
    mehreren Indizes anderer IQ Index Typen
    verbunden.
  • benutzt bei wildcard string Suchez.B., LIKE
    sys
  • Günstig für Berechnungen z.B. SUM (A B)
  • Einzige Möglichkeit für Datentyp BIT
  • Spaltenbeispiele
  • Addresse
  • Name
  • Texte

28
Fast Projection (FP)
  • Subtype FP(1)

29
Fast Projection (FP)
  • Falls die Werteanzahl der Spalte lt 256 ist,
    werden die Daten der Spalte als Fast Projection
    FP(1) anstelle von FP gespeichert
  • 1-Byte look-up table
  • Der Server versucht beim Laden FP(1)
  • Setzt auf FP(2) nachdem 256 Werte erkannt wurden
  • Der Datenbank-Administrator kann die Kardinalität
    der Spalte in der create table syntax durch
    Benutzung des UNIQUE Parameters angeben

30
Fast Projection (FP)
  • Subtype FP(2)

31
Fast Projection (FP)
  • Falls die Werteanzahl der Spalte gt 256 und lt
    65.536 ist, werden die Daten der Spalte als FP(2)
    anstelle von FP gespeichert
  • 2-Byte look-up table
  • Setzt auf FP(3) nachdem 65.536 Werte erkannt
    wurden
  • Der Datenbank-Administrator kann die Kardinalität
    der Spalte in der create table syntax durch
    Benutzung des UNIQUE Parameters angeben

32
Low Fast (LF)
  • Bitmap Index einschl. B-tree, der für Spalten mit
    kleiner Kardinalität benutzt wird
  • Für jeden Spaltenwert ein Bitmap
  • Menge solcher Bitmaps für Bearbeitung fast aller
    Anfragen angewendet
  • Ideal für Spalten mit einer Kardinalität lt1500

SELECT FROM Absatz WHERE Prod Radeberger
33
Low Fast (LF)
  • wird angewendet bei folgenden Anfrageoperationen
  • Suchargumente in where-Klauseln
  • Joins
  • GROUP BY
  • ORDER BY
  • Spaltenbeispiele
  • Geschlecht
  • Ja/nein
  • Produktname
  • Land
  • Datum (falls lt 1500 verschiedene Werte)

34
Dramatische I/O-Reduzierung
Wieviele Männer sind in Kalifornien nicht
versichert?
35
High Non Group (HNG)
  • Bit-weiser Index, optimiert für Bereichs-Suche
    und Aggregations-Funktionen
  • Beispiel
  • SELECT SUM(Abs) FROM Absatz
  • (1 64) (0 32) (1 16) (6 8)
    (4 4) (3 2) (4 1) 154

36
High Non Group (HNG)
  • Nicht-werte-basierter Bitmap-Index
  • Ideal für Spalten, die benutzt werden in
  • Ranges
  • BETWEEN
  • SUM( ) und AVG( ) Funktionen
  • Spaltenbeispiele
  • Datum (falls gt 1500 verschiedene Werte)
  • Beträge
  • Mengen

37
High Group (HG)
  • Index für Daten mit hoher Kardinalität

38
High Group (HG)
  • Verbesserter B-tree Index zur Ausführung von
    und GROUP BY Operationen auf Spalten mit hoher
    Kardinalität
  • Für Spalten mit großer Anzahl eindeutiger Werte
    (gt1500)
  • Wird benutzt, wenn die Spalte an einem Join
    beteiligt ist
  • Spaltenbeispiele
  • Produkt Id
  • Mitarbeiter ID

39
Prinzipielle Herangehensweise bei derIndexierung
von Tabellen
40
Prinzipielle Herangehensweise bei derIndexierung
von Tabellen (Forts.)
41
4 Basis-Index-Typen und weitere Spezial-Typen
Bezeichnung
Abkürzung
Fast Projection
FP
Wird für jede Spalte grundsätzlich Verwendet,
Default Index
High Group
HG
Für UNIQUE und PRIMARY KEY notwendig
Low Fast
LF
High Non Group
HNG
CMP
Comparison Index
Word Index
WD
Join Index
JI
Date-, Time-, Datetime
Date,TIME,DTTM
42
Optimierte Speicher - / Indexstrukturen
  • Beispiel Abfrage
  • Berechne die Summe des Umsatzes, den
    durchschnittlichen Wert eines Verkaufs und die
    Anzahl der Verkäufe je Monat und Kunde für eine
    spezielle Produktart

SELECT Kunde.Name, Verkauf.Monat,
SUM(Verkauf.Wert), AVG(Verkauf.Wert),
Count(Verkauf.Verkauf_id) FROM Kunde,
Verkauf Where Kunde.Kunde_id Verkauf. Kunde_id
AND Verkauf.Produkt_Name LIKE anzug AND
Verkauf.Jahr 2000 GROUP BY Verkauf.Monat,
Kunde.Name
43
Optimierte Speicher - / Indexstrukturen
SELECT Kunde.Name, Verkauf.Monat,
SUM(Verkauf.Wert), AVG(Verkauf.Wert),
Count(Verkauf.Verkauf_id) FROM Kunde,
Verkauf Where Kunde.Kunde_id Verkauf. Kunde_id
AND Verkauf.Produkt_Name LIKE anzug AND
Verkauf.Jahr 2000 GROUP BY Verkauf.Monat,
Kunde.Name
2 Fast Projection Indizes für die Projektion
1 High Non Group Index für die Aggregatbildung
4 High Group Indizes für die Aggregatbildung,
die Join-Verarbeitung und das Gruppieren pro
Kunde 2 Low Fast Indizes für die Suchbedingung
und das Gruppieren auf Monatsebene
1 Word Index für Zeichenkettensuche
44
Beispiel
SELECT AVG (Abs), SUM(Abs)/AnzGSA/36 FROM Absatz,
(SELECT COUNT(DISTINCT Einr) AS
AnzGSA FROM Absatz WHERE
Land SA AND Typ
G) WHERE Land SA AND Typ
G AND Prod Radeb
1 High Non Group Index für die Aggregatbildung
1 High Group Index für die Aggregatbildung 3
Low Fast Indizes für die Suchbedingung
45
Vertikale Partitionierung
Berechne den durchschnittlichen Absatz von
Radeberger in Gastronomie-Einrichtungen in
Sachsen je Monat der letzten 3 Jahre
Sybase IQ Es werden nur die relevanten Spalten
gelesen
  • Ergebnis im Beispiel
  • Reduzierung des Disk-I/O
  • auf maximal 5 (ohne einen Index zu benutzen)

46
Vertikale Partitionierung
Berechne den durchschnittlichen Absatz von
Radeberger in Gastronomie-Einrichtungen in
Sachsen je Monat der letzten 3 Jahre
SELECT AVG (Abs), SUM(Abs)/AnzGSA/36 FROM Absatz,
(SELECT COUNT(DISTINCT Einr)
AS AnzGSA FROM Absatz
WHERE Land SA AND
Typ G) WHERE Land SA AND
Typ G AND Prod Radeb
Sybase IQ Es werden nur die relevanten Spalten
gelesen
  • Ergebnis im Beispiel
  • Reduzierung des Disk-I/O
  • auf max. 2

47
Eurostat wide table 10 Mio rows
48
Eurostat Horizontale Partitionierung
49
Eurostat Vertikale Partitionierung
50
Eurostat In IQ-M
In IQ 757 FP, 45 HG, 512 LF, 103 HNG 1417
index
51
Sybase IQ und überprüfte Einsparungen bei
Plattenspeicher
Sybase IQ DATA COMPRESSION Beispiele Geladene Rohdaten Sybase IQ komprimiert Erwartete Datenexplosion bei anderen Anbietern
Sun DWH Reference Architecture(InfoSizing August 2007) 1 PB 260 TB 3 PB bis 7 PB
Sun DWH Reference Architektur(InfoSizing June 2004) 155 TB 55 TB 500 TB bis 1,000 TB
Telefonica 70TB 15 TB 210 TB bis 490 TB
comScore Networks 40 TB 16 TB 120 TB bis 280 TB
Health Insurance Review Agency 27 TB 12 TB 81 TB bis 189 TB
Samsung Card 15 TB 7 TB 45 TB bis 105 TB
Nielsen Media Research 12 TB 12 TB 36 TB bis 84 TB
Large Credit Card Company 10 TB 4 TB 30 TB bis 70 TB
52
Hohe Performancebei Datenbankauswertungen
  • Einführung Probleme und Herangehensweise
  • Sybase Adaptive Server IQ und IQM
  • Prinzip-Überblick
  • Speicherungsstruktur und Indextypen
  • IQ Multiplex
  • Beispiele, Ergebnisse

53
Skalierbarkeit
Starte klein und wachse mit Sybase IQ
Multiplex Konfiguration
  • Starten mit einem Server
  • Hinzufügen von CPUs u.Speicher nach Bedarf
  • Multiplexing ermöglicht es,weitere Server und
    CPUs hinzuzufügen
  • dabei kein bis minimalerVerlust an
    Skalierbarkeit
  • die 1000ste CPU wirdso gut wie die erste
    CPUperformen

Fiber Channel Storage Area Network
  • Terabytes an Festplatten können ins SAN
    eingefügt werden
  • IQ-M wird diese effektiv
  • nutzen

Skaliert wie ein Grid
54
Skalierbarkeit
Nachgewiesen im Labor und bei Kunden

Anwender
500
Users
400
400
98
360
320
300
280
240
200
200
400 User Antw-Zeit 31.6 sec Erhöhung 1.9
(0.6 sec)
160
40 User Antw-Zeit 31 sec
120
100
80
40
31.6 sec
Knoten
31 sec
0
1
2
3
4
5
6
7
8
9
10
Workload Each user executing random sequence of
(TPC/H-like) queries (Source HP Lab in San
Bruno, CA)
55
Skalierbarkeit
Einfache Administration und implizite
Hochverfügbarkeit
SKALIERBARKEIT Nach hinzufügen eines Knotens
KEIN globaler Lock Manager nötig KEINE
Datenumverteilung erforderlich KEINE Änderungen
im Schema SEHR geringe I/O Contention
Fiber Channel Storage Area Network
Skaliert wie ein Grid
56
Technische Limits
Geeignet für sehr große Datenbanken
  • Datenbankgröße Betriebssystemabhängig
  • Maximal 192 PByte
  • Anzahl Tabellen pro Datenbank 4.293.918.719
  • Zeilen pro Tabelle 248
  • Tabellen/ Views in einer Query 512
  • Feldgröße für Long Varchar oder Long Binary
  • IQ Page Größe 128K bis zu 512 TB
  • IQ Page Größe 512K bis zu 1 PB
  • Größe einer Page 64 KB bis 512 KB
  • Anzahl Spalten pro Tabelle 45.000

57
Speicherung ALLER relevanten Daten in EINEM
System
  • Internet
  • (E-mail und
  • Dokumente)
  • Anwender können weiter ihren bisherigen Email
    Client nutzen können aber auch auf das System
    zugreifen
  • Dokumente
  • Bilder
  • Video
  • Audio
  • Fax
  • Datei und DB Backup
  • Andere Daten
  • Partnerlösung
  • Dokumente und E-mail Clients
  • ( Optional )
  • DW
  • Transaktionen
  • Sybase
  • IQ
  • Weitere Daten können in der Lösung nach Bedarf
    hinzugefügt werden

58
Sun Reference Warehouse ArchitectureJuli 2007 -
weltgrößtes DWH
  • Die Sun Data Warehouse Referenz Architektur,
    bestehend aus SolarisTM 10 OS, Sybase IQ und
    BMMsoft DataFusionTM mit einem Sun SPARC
    Enterprise M9000 Server erbrachte folgende
    wichtige Ergebnisse
  • Es wurden ein 1 PByte transaktionale Rohdaten (6
    Trillionen Sätze mit Kursdaten von Börsen) in ein
    voll indexiertes Starschema geladen
  • Es wurde eine Ladegeschwindigkeit von 285
    Milliarden Sätze pro Tag (3 Millionen Sätze pro
    Sekunde) erzielt
  • Es wurde eine 85-ige Datenkompression bei der
    Speicherung von einem PByte transaktionaler
    Rohdaten erreicht diese Daten belegten weniger
    als 260 TByte Plattenplatz im System
  • Es zeigte eine durchschnittliche Ready-Time von
    kleiner zwei Sekunden nach dem Hinzufügen von
    neuen Daten in das Data Warehouse
  • Es wurde die Hälfte der T (Transaktional)
    Daten mit über 72 Terabyte an EDM (Emails,
    Dokumente und Multimedia) Daten ersetzt Aufbau
    eines 572 TByte großen Data Warehouse mit EDMT
    Daten
  • Es wurde eine Ladegeschwindigkeit von 26 TByte
    pro Tag beim Aufbau eines Data Warehouse mit 185
    Millionen Dokumenten (Emails, Attachements und
    andere unstrukturierte Dokumente) erreicht
  • Es wurde eine Ladegeschwindigkeit von zwei
    Millionen Emails pro Stunde und 6 Millionen
    Dokumente pro Stunde erreicht dabei wurden
    weniger als 7 der verfügbaren CPU Leistung
    benötigt
  • Audit show show

59
Sun DWH Reference Architecture
  • Reference Architecture
  • Ein Sun SPARC Enterprise M9000 Server mit
    Solaris 10
  • Drei Sun StorageTek 6540 Storage Arrays
    verbunden mit dem Server über Fiber Channel
  • Sybase IQ 12.7 Enterprise Edition
  • BMMsoft DataFusion für die Verwaltung
    unstrukturierter Daten und Emails

Hauptspeichernutzung
  • Sybase IQ Writer nutzte 64 Cores (mit zusammen
    128 Threads) und 100 GB Hauptspeicher
  • 45 GB Hauptspeicher für den Sybase IQ Ladeprozess
    und als Cache für Teile der geladenen Dateien
  • Der BMMsoft DataFusion Ladeserver nutzte 64
    Cores (mit zusammen 128 Threads) und 40 GB
    Hauptspeicher
  • 20 GB Hauptspeicher für Solaris 10 zur
    Optimierung von Swapping und Paging
  • Quelle Sun Data Warehouse Reference Architecture
    for Structured and Unstructured Data,
  • InfoSizing, August 20, 2007

60
Hohe Performance bei Datenbankauswertungen
  • Einführung Probleme und Herangehensweise
  • Sybase Adaptive Server IQ und IQM
  • Prinzip-Überblick
  • Speicherungsstruktur und Indextypen
  • IQ Multiplex
  • Beispiele, Ergebnisse

61
Online-Archiv auf Basis Sybase IQ
Sybase ASE und heterogene Umgebungen
CICS Trx
IBM MVS (z/OS) DB2(CICS) DB2(IMS) DB
2(DRDA) IDMS IMS VSAM
PLACE_ORDER
Direct Connect
TABLE
KUNDE
Applikation
TABLE
ODBC AS/400 Informix
Microsoft Oracle DB2/UDB

ORDER
ASE CIS
Direct Connect
TABLE
Technologische Grundlagen Component Integration
Services von Sybase ASE Proxy Tabellen
Union in Views Instead-of-Trigger (ASE
15.0.2) Transparent für SQL
VERTRAG
TABLE
ORDER_ HISTORY
Archiv Sybase IQ
Physik. Speicherung/ Logik Proxy Tabelle
62
Partnerlösungen (Auswahl)
  • PBS (Deutschland)
  • SAP BI Archivlösung
  • Rent-a-Brain (Deutschland)
  • iMarc-Emailarchivierung
  • Dokumentenarchivierung
  • BMMSoft (USA)
  • Email/-/ Dokumentenarchivierung

63
PBS CBW NLS IQ Introduction
PBS CBW NLS IQ for Sybase IQ is a powerful and
complete Nearline Storage Solution for SAP
Business Intelligence
SAP BI
Sybase IQ
Administration/Monitoring
SAP NLS Data ArchivingProcess (DAP)
PBS CBW NLS IQ Interface
Load Data
Access Queries, Reload, ...
Read Data
server
CBW NLS IQ Infrastrutcure (without adk components)
64
CBW-Architektur mit NLS und Sybase IQ
65
Kompressionen InfoCubes - Kundenbeispiel
InfoCube Größe arch. Daten Größe Daten in Sybase IQ Kompression auf
INDIA03 9.042.943.028 Bytes 691.322.880 Bytes 8
INDIA21 1.944.346.768 Bytes 81.305.600 Bytes 4
FAKT01 59.532.053.152 Bytes 6.299.435.008 Bytes 11
FAKT21 4.617.352.608 Bytes 247.070.720 Bytes 5
FAKTP02 831.113.280 Bytes 63.963.136 Bytes 8
ERG002 19.097.371.560 Bytes 1.046.978.560 Bytes 5
0FIAR_C02 480.045.888 Bytes 45.178.880 Bytes 9
0FIAR_C03 7.932.706.440 Bytes 963.600.384 Bytes 12
66
Query Markthierarchie Speed (I)
Query
M_INDIA01/WEB1_M_INDIA01_MARHIE_ZJVJB Kundenhierarchie über Attribut KDUNIQUE 2003 2007 Anzahl Datensätze 17 Mio.
Zugriffsart Sybase IQ Oracle DB mit Aggregaten Oracle DB ohne Aggregate
Primärliste 16 s 71 s 416 s
  • Sybase IQ (16s)
  • Oracle mit Aggregaten (71s -gt Faktor 4)
  • Oracle ohne Aggregate (416s -gt Faktor 26)
  • Zeit s

67
Query Fakturen Speed (I)
Query
Query M_FAKT01/STD_M_FAKT01_ASS_PC Fakturaauswertung 12.2007 Anzahl Datensätze 57 Mio.
Zugriffsart Sybase IQ Oracle DB mit Aggregaten Oracle DB ohne Aggregate
Primärliste 12 s 164 s nach 2000 s abgebrochen
  • Sybase IQ (12s)
  • Oracle mit Aggregaten (164s -gt Faktor 14)
  • Oracle ohne Aggregate (abgebrochen)
  • Zeit s

68
Erfahrungsbericht Fazit Kundeninstallation
  • Speed
  • Bis zu 14 x schnellere Antwortzeiten
  • Kompression
  • Kompression der Archivdaten bis zu 95
  • Administration
  • Keine Index- keine Aggregat- Modellierung

69
Mehr als 1500 Kunden
  • Erfolgreich etablierte und schnell wachsende
    Kundenbasis
  • Mehr als 3000 Kundenprojekte bei mehr als 1500
    Kunden weltweit

70
Analysten
  • GartnerGartner Data Warehouse Magic Quadrant
    Position Challenger
  • IDCWir haben beobachtet und darauf gewartet,
    dass Firmen, die Datenbanken implementieren, sich
    vermehrt für Sybase IQ und seine einzigartige
    Tabellen- und Indexstruktur entscheiden. Denn
    diese sichert eine beeindruckende Performance bei
    komplexen Abfragen auf großen Data Warehouses.
    Gemessen an den Markterfolgen der letzten Jahre
    scheint es so, dass der Markt endlich begriffen
    hat.
  • Carl Olofson, Research Vice President
  • Information Management and Data Integration
    Software ResearchIDC 2007

71
Telekommunikations-DB
1.200.000 Zeilen
24
100.000
12
72
72
Voraussetzungen und Laden
73
Anfragebeispiele
74
Anfragebeispiele
75
Anfragebeispiele
76
Anfragebeispiele
77
Anfragebeispiele
78
Anfragebeispiele
79
EDS Report IQM vs konventionelles RDBMS
80
Suns iForce Enterprise Data Warehouse Reference
Architecture
  • Basiert auf Sybase Adaptive Server IQ Multiplex
    mit 156 CPUs und 160 GB RAM
  • Ergebnisse
  • 48,2 Terabyte Rohdaten korrespondieren mit 22
    Terabyte Speicherverbrauch
  • 5-160 Millionen Records werden täglich geladen in
    lt 1h
  • Konkurrenz zwischen Laden und Anfragen der
    gleichen Tabelle bringt nur 6,9 Verlangsamung
  • Bis zu 1000 x schnellere Analyse-Laufzeiten
  • 80 weniger Installationsaufwand
  • Unterstützt Tausende Anwender gleichzeitig

81
Kunden in Deutschland (Auszug)
11 Internet AG Bertelsmann Music Group EMI
Electrola RTL Television Allianz-Dresdner
Bausparkasse Dresdner Bank Vodafone D2
GmbH DekaBank Deutsche Bank Citibank DEVK
Allgemeine Versicherungen AG Risk
Consulting Raiffeisen Hauptgenossenschaft
Nord Müller (Drogeriemärkte) European Southern
Observatory
Write a Comment
User Comments (0)
About PowerShow.com