Title: Seminar im Sommersemester 2005
1Seminar im Sommersemester 2005 DATA WAREHOUSING
Data MiningChristian KnappeFachrichtung
WirtschaftsinformatikFriedrich-Schiller-Universit
ät JenaFakultät für Mathematik und
InformatikLehrstuhl für Datenbanken und
InformationssystemeLehrstuhlinhaber Prof. Dr.
Klaus KüspertBetreuung Dipl. Inf. Thomas Müller
2- Inhalt
- Einführung und Motivation
- Daten und Technik
- Was ist Data Mining?
- Data Mining im Überblick
- DM und Data Warehousing
- DM vs. OLAP
- Was leistet DM?
- Anwendungsgebiete
- Prozessmodelle im DM
- KDD als Ausgangspunkt?
- DM - Teil des Ganzen
- CRISP-DM als moderne Referenz
- Weitere Vorgehensweisen
- Anwendungsübergreifend dank PMML
3- Einführung und Motivation
- Daten und Technik
- Hohes Datenaufkommen
- Daten werden in riesigen Datenbanken gesammelt
- Manuelle Auswertung kaum noch möglich
http//www.dbs.informatik.uni-muenchen.de/Lehre/K
DD/index.html
4- Einführung und Motivation
- Daten und Technik
- Leistungsfähige Hardware
- steigende Geschwindigkeit
- steigende Kapazität
- relativ kostengünstig
Grafik und mehr Hans Moravec http//www.frc.ri.c
mu.edu/users/hpm/
5- Einführung und Motivation
- Daten und Technik
- - Komplexe Strukturen
- Von Matt LoneyZDNet31. Januar 2005, 0937 Uhr
- Die Zahlen an sich sind schon überwältigend
- - Über vier Milliarden Webseiten, jede mit
durchschnittlich 10 KByte, alle komplett
indiziert - Bis zu 2000 Rechner in einem Cluster - Über 30
Cluster - Ein Petabyte Daten pro Cluster - Oberfläche in 104 Sprachen, unter anderem in
Klingonisch und Tagalogisch - Kontinuierlicher Durchsatz von 2 Gbit/s in einem
Cluster - Die Erwartung, dass pro Tag in jedem der
größeren Cluster zwei Rechner ausfallen ()
Urs Hölzle, Google VP of Engineering
6- Einführung und Motivation
- Was ist Data Mining?
- 2 Sichtweisen HaKa2000
- DM als Teil eines Gesamtprozesses (KDD)
- Relativ begrenzte Sicht auf DM
- Meist technisch
- DM als Gesamtprozess (moderne Definition)
- DM synonym für KDD
- CRISP-DM als Beispiel
- DM als Synergie aus Verfahren, Methoden und
Vorgehensweise
7- Einführung und Motivation
- Was ist Data Mining?
- Definitionsansätze
- Data mining is a problemsolving methodology
that finds a logical or mathematical
description, eventually of a complex nature, of
patterns and regularities in a set of
data.DeFo95 - Data mining is a multidisciplinary field,
drawing work from areas including database
technology, articial intelligence, machine
learning, neural networks, statistics, pattern
recognition, knowledge based systems, knowledge
acquisition, information retrieval, high
performance computing, and data
visualization.HaKa2000
8- Data Mining im Überblick
- DM und Data Warehousing
- Datengrundlage aus Data Warehouse TCC
- Unt. Datenquellen werden im Data Warehouse
integriert - Teile des DW (logisch oder physisch) werden für
das Data Mining genutzt
9- Data Mining im Überblick
- DM und Data Warehousing
- Data Mining auch ohne Data Warehouse TCC
- DW ist nicht zwangsläufig Voraussetzung für DM
- Unt. Datenquellen können auch direkt in einen
Data Mart überführt werden
- Fazit
- Wahl je nach Anwendungsproblem und -umgebung
- Aufwand Nutzen Fragestellung
10- Data Mining im Überblick
- DM vs. OLAP
- induktiv vs. deduktiv TCC
- OLAP
- Ausgehend von Hypothese
- Verifizierung der Hypothese durch Anfragen auf
den Daten - Problematisch bei vielen Variablen
- Data Mining
- Daten werden genutzt um Hypothesen aufzustellen
- Findet evtl. Ansätze die Analyst nicht bedacht
hätte
- Fazit
- Beide Vorgehensweisen können sich ergänzen
- DM findet Hypothesen per OLAP können diese
verifiziert werden
11- Data Mining im Überblick
- Was leistet DM?
- Most Common Data Mining Tasks 1 Larose2005
- Description (Beschreibung)
- Beschreibung von Mustern und Trends in Daten
- Transparenz der Muster (Einfachheit)
- Intuitive Interpretation und Erklärung möglich
- Classification (Klassifikation)
- Nominale Zielvariable (Kategorie)
- Neues Objekt wird entsprechend klassifiziert
(einer Kategorie zugeordnet) - Klassifikationsregel wird auf Trainingsdaten
erlernt - Estimation (Schätzungen)
- Ähnlich Classification, jedoch ist Zielvariable
numerisch - Punktschätzungen, Intervallschätzungen, lineare
Regression, multiple Regression
12- Data Mining im Überblick
- Was leistet DM?
- Most Common Data Mining Tasks 2 Larose2005
- Prediction (Vorhersage)
- Spezielle Ausprägung von Classification und
Estimation - Ergebnisse liegen in der Zukunft
- Clustering (Gruppenbildung)
- Gruppierung der Daten
- Innerhalb der Gruppen kleinstmögliche Differenz
- Zwischen den Gruppen größtmögliche Differenz
(Abstand) - Association (Verbindung/Kontakt/Zusammenarbeit)
- Aufdecken von Beziehungen zwischen Attributen
- Welche Attribute hängen zusammen
13- Data Mining im Überblick
- Anwendungsgebiete DF95
- Chemie und Pharmazie
- Entwicklungsprozess ist stark auf Suche
ausgerichtet - Feldforschung
- Im Einzelhandel
- Marktsegmentierungen
- Kundenanalysen
- Marketingaktionen
14- Data Mining im Überblick
- Anwendungsgebiete DF95
- Finanzwesen
- Kundenmanagement
- Vorhersage von Finanzentwicklungen
- Remotely sensed Data (Messtechnik)
- Größter Datenumfang
- Mustererkennung
- Und weitere?
15- Prozessmodelle im DM
- KDD als Ausgangspunkt
- Knowledge Discovery in (large) Databases
- Fayyad, Piatetsky-Shapiro Smyth 1996
- Knowledge Discovery in Databases (KDD) ist der
Prozess der (semi-) automatischen Extraktion von
Wissen aus Datenbanken, welches - gültig (im statistischen Sinn),
- bisher unbekannt (nicht explizit, kein
Allgemeinwissen) und - potentiell nützlich ist. (für eine gegebene
Anwendung)
16- Prozessmodelle im DM
- DM als Teil des Ganzen
- Fokussieren
- Beschaffung der Daten
- Verwaltung der Daten
- Selektion relevanter Daten
- Transformation
- Ableitung neuer Merkmale
- Selektion relevanter Merkmale
- Evaluation
- Bewertung der Interessantheit durch den Nutzer
- Statistische Prüfung der Modelle
- Vorverarbeitung
- Datenintegration
- Konsistenzprüfung
- Data Mining
- Suche nach Mustern bzw. Modellen (techn. Def.)
17- Prozessmodelle im DM
- CRISP-DM als moderne Referenz
- Ein einheitlicher Standard
- CRoss- Industrie Standart Process for Data
Mining - Seit 1997 Konsortium aus Data Mining Anbietern
und Nutzern - DaimlerChrysler AG, Germany
- OHRA Verzekering en Bankk Groep B.V.,
Netherlands - NCR Systems Engineering Copenhagen , Denmark
- SPSS Inc. seit 1998 über Integral Solutions
Limited, UK - Europäische Union im Rahmen des ESPRIT-Programms
18- Prozessmodelle im DM
- CRISP-DM als moderne Referenz
- Data Mining Lebenszyklus
- Phasenorientiert
- Iteratives Vorgehen möglich
- Zielorientiert
http//www.crisp-dm.org/index.htm
19- Prozessmodelle im DM
- Weitere Vorgehensweisen
- SAS benutzt SEMMA
- Sample
- Explore
- Modify
- Model
- Assess
- SPSS bedient sich der 5 As
- Assess
- Access
- Analyze
- Act
- Automate
20- Anwendungsübergreifend dank PMML
- Predictive Modelling Markup Language
- Modellbeschreibungssprache (Definition eines
Modells) - Bietet einheitlichen Standard
- Einfache Weitergabe und Nutzbarkeit der Modelle
- XML- Basiert
- http//www.dmg.org/index.html
21Literatur
1 Daniel T. Larose Discovering Knowledge in
Data, An Intoduction in Data Mining Verlag Wiley
2005 2 J. Han, M. Kamber Data Mining Concepts
and Techniques Verlag Morgan Kaufmann Publishers
2000 3 Two Crows Cooperation Introduction to
Data Mining and Knowledge Discovery Third
Edition 1999 4 K. M. Decker, S. Focardi
Technology Overview A report on Data Mining
CSCS-ETH 1995