- PowerPoint PPT Presentation

About This Presentation
Title:

Description:

berblick Datacleaning Gliederung Definition Datacleaning Workflow Data Analyse Data Profiling Datamining Distanzmetriken Verfahren zur Duplikatenerkennung ... – PowerPoint PPT presentation

Number of Views:26
Avg rating:3.0/5.0
Slides: 12
Provided by: Bjr96
Category:

less

Transcript and Presenter's Notes

Title:


1
Ãœberblick Datacleaning
2
Gliederung
  • Definition
  • Datacleaning Workflow
  • Data Analyse
  • Data Profiling
  • Datamining
  • Distanzmetriken
  • Verfahren zur Duplikatenerkennung
  • Literaturquellen

3
Definition
  • DatacleaningData cleaning, also called data
    cleansing or scrubbing, deals with detecting and
    removing errors and inconsistencies from data in
    order to improve the quality of data.
  • Eduard Rahm and Hong Do. Data cleaning
    Problems and current approaches. 2000

4
Datacleaning Workflow
  • Data Analysis
  • Analyse des Datenbestandes
  • Gewinnung von zusätzlichen Metadaten (Data
    Profiling)
  • Beispiele
  • Min/Max Werte für bestimmte Attribute
  • Verteilungen für Attributwerte
  • Erkennung von Stringmustern z.B. bei Adressen,
    Telefonnummern
  • Erkennung nicht explizit als unique
    gekennzeichneter Attribute
  • Erkennen von Funktionalen Abhängigkeiten (Data
    Mining)
  • Beispiele
  • Preis Menge Stückpreis
  • Bestelldatum Lieferdatum Rechnungsdatum
  • Bereinigung der Daten (Data Cleaning)
  • Wiederholung der Schritte 1 und 2 bis ein
    akzeptables Ergebnis erreicht wurde.
  • Im ETL Prozess folgt dann die Daten Integration
    in das Datawarehouse

5
Nutzung der Metadaten des Data Profiling
  • Min/Maxwerte können zum Erkennen von Ausreißern
    verwendet werden
  • Zusätzliche Unique Attribute können zur Erkennung
    von Duplikaten genutzt werden
  • Ausprägungen des Attributes lt Datensätze ?
    Duplikate vorhanden
  • Erkannte Stringmuster werden zum Schemamatching
    und Instancematching benötigt
  • Beispiel
  • Muster 1(Adresse) PLZ, Straße, Hausnummer
  • Muster 2(Adresse) Straße, Hausnummer, PLZ
  • Matching (Pseudocode)

6
Distanzmetriken
  • Werden genutzt um die Ähnlichkeit von Datensätzen
    zu bestimmen
  • Grund in den meisten Fällen handelt es sich
    nicht um vollständige Duplikate sondern um fuzzy
    duplicates
  • Beispiele
  • Editierdistanz
  • Jaro Winkler Distanzmetrik
  • Tokenbasierte Distanzmetriken
  • Bei Ãœberführung der Attribute eines Datensatzes
    in einen Zahlenvektor
  • Euklidische Distanz
  • Manhattan Distanz
  • Beliebige andere Distanzmaße

7
Compact Set und Sparse Neighborhood
  • Compact Set
  • eine Menge S von Tupeln einer Relation R ist ein
    Compact Set, wenn gilt. (Compact Set)
  • Zusätzlich muss das Sparse Neighborhood
    Kriterium
  • erfüllt sein.

8
Context Attraction Principle
  • Eine weitere Möglichkeit Duplikate zu
    charakterisieren
  • Context Attraction Principle
  • 1. wenn zwei Representationen das selbe Objekt
    beschreiben, existiert eine hohe
    Wahrscheinlichkeit, dass sie über verschiedene
    Relationen, implizit oder explizit, innerhalb der
    Datenbank stark verbunden sind.
  • 2. wenn zwei Representationen dagegen
    verschiedene Objekte beschreiben wird ihre
    Verbindung über diese Relationen im Gegensatzt
    dazu nur schwach sein.
  • Verwendung eines Attributed Relational Graphs
    (ARG)
  • ARG wird erstellt und über Graphpartitionsalgorith
    men geteilt
  • Problem Domainwissen unbedingt von Nöten
  • Vor allem zur Gewichtung der Kanten des ARG

9
Datentransformation
  • Grund
  • Heterogene Quellen mit heterogenen Schemata für
    ähnliche Daten
  • Um die Daten effektiv bereinigen zu können,
    müssen sie vereinheitlicht werden
  • Im ETL-Prozess kommt noch die dadurch ermöglichte
    gemeinsame Speicherung hinzu
  • zum größten Teil über User Defined Functions oder
    Views in den Quelldatenbanken realisiert
  • Vorteil
  • hohe Performanz
  • Wiederverwendbarkeit
  • Verringert Redundanz im ETL-Prozess

10
Einordnung in den ETL - Prozess
Der ETL Prozess Data Analyse gehört zur
Extractionphase Duplikatenerkennung und
Bereinigung sind Teil der Integration Phase
11
Literatur
  • Surajit Chaudhuri, Venkatesh Ganti, and Rajeev
    Motwani. Robust identication of fuzzy duplicates.
    Proceedings of the 21st International Conference
    on Data Engineering (ICDE 2005), 2005.
  • Eduard Rahm and Hong Do. Data cleaning Problems
    and current approaches.2000.
  • Zhaoqi Chen, Dmitri V. Kalashnikov, and Sharad
    Mehrotra. Exploiting relationships for object
    consolidation. IQIS, 2005.
Write a Comment
User Comments (0)
About PowerShow.com