Datamining - PowerPoint PPT Presentation

1 / 17
About This Presentation
Title:

Datamining

Description:

FernUniversit t in Hagen Datamining hnlichkeitssuche auf Zeitreihen Bernd Puchinger b.g.puchinger_at_gmx.de bersicht Einordnung in das Themengebiet Datamining ... – PowerPoint PPT presentation

Number of Views:114
Avg rating:3.0/5.0
Slides: 18
Provided by: fern50
Category:

less

Transcript and Presenter's Notes

Title: Datamining


1
FernUniversität in Hagen
  • Datamining
  • Ähnlichkeitssuche auf Zeitreihen
  • Bernd Puchinger
  • b.g.puchinger_at_gmx.de

2
Ãœbersicht
  • Einordnung in das Themengebiet Datamining
  • Ähnlichkeitssuche
  • Zeitreihen
  • Anwendungen
  • Effiziente Ähnlichkeitssuche auf Zeitreihennach
    Rakesh Agrawal, Christos Faloutsos, Arun N. Swami
  • Fouriertransformation
  • R-Tree
  • Suche auf Teil-Zeitreihen

3
Datamining
  • Eine von vielen Definitionen Datamining ist ...
  • ... die Anwendung (mathematischer) Methoden
  • auf einen üblicherweise großen Datenbestand,
  • mit dem Ziel der Mustererkennung.
  • Wikipedia - Die freie Enzyklopädie (Hrsg.)
  • Wikipedia DVD-Ausgabe vom 20. September 2006
  • Artikel Data-Mining

4
Techniken und Methoden
  • Entscheidungs- und Klassifikationsbäume
  • Neuronale Netze
  • Rule-Induction
  • Clustering und Ähnlichkeitssuche
  • k-Means-Clustering
  • k-Nearest-Neighbours
  • Range-Query

5
Zeitreihen
6
Agrawal, Faloutsos, Swami
  • Erlaubt
  • Range-Queries
  • All-Pairs-Queries
  • Restriktionen
  • äquidistante Zeitreihen
  • identischer Länge
  • Keine Suche auf Teil-Zeitreihen
  • Grundidee
  • Abbildung der Zeitreihen auf Frequenz-Spektrenmit
    tels Diskreter Fourier-Transformation
  • Indizierung anhand von drei bis fünf Frequenzen
    mit einem R-Tree

7
Fourieranalyse Basis
8
Fourieranalyse Fourierreihen
9
Fourieranalyse Ähnlichkeit
10
Fourieranalyse Rauschen
11
Fourieranalyse Folgerungen
  • Ähnliche Zeitreihen ? Ähnliche Spektren
  • Niedrige Frequenzen sind signifikant
  • auch bei braunem Rauschen
  • Störungen (weißes) Rauschen
  • damit ist (als Ãœberlagerung) immer zu rechnen
  • weißes Rauschen ist Worst Case
  • ? Verwendung der niedrigen Frequenzen zur
    Indizierung der Zeitreihen möglich!
  • ? Es kann zu false alerts im Index kommen Es
    kann nicht zu false dismissals kommen

12
R-Tree Bounding Boxes
  • Ursprünglich real-räumliche ausgedehnte Objekte
  • Nutzung minimaler Bounding-Boxes
  • Ãœbertragung auf
  • Feature-Räume (ggf. multi-dimensional)
  • Punkte als degenerierte Objekte

13
R-Tree Index
  • Bounding Boxes um Objekt-Gruppen
  • Gruppierung nachminimalen
  • Flächen
  • Ãœberschneidungen
  • ...
  • Hierarchisch, d.h.Gruppen von Gruppen
  • ? Baum-Struktur
  • Suche nur in Zweigen, deren Bounding Box das
    gesuchte Objekt umfasst

14
R-Tree Suche
  • Suche nur in Zweigen, deren Bounding Box ...
  • das gesuchte Objekt vollständig umfasst
  • sich mit dem Suchbereich überschneidet

15
R-Tree Updates
  • Aufwände für
  • Berechnung der minimalen Bounding Boxesüber den
    gesamten Zugriffspfad
  • Zuordnung zu Gruppen
  • Reorganisation der Gruppen
  • bei überfüllten Knoten
  • bei degenerierter Gruppierung
  • ? Tradeoff zwischen
  • Such-Beschleunigung und
  • Update-Verzögerung
  • Hier liegen Unterschiede zwischen Mitgliedern
    derR-Tree Familie

16
Agrawal, Faloutsos, Swami
  • Einfügen einer Zeitreihe
  • Diskrete Fourier-Transformation durchführen
  • Eintrag im R-Tree
  • Range-Query zu einer Anfrage-Zeitreihe
    durchführen
  • Diskrete Fourier-Transformation durchführen
  • Suche im R-Tree nach TreffernKann false alarms
    enthalten
  • PostprocessingBerechnung der wahren Distanz
    anhand der Zeitreihen
  • ErgebnisListe von Zeitreihen, die in der Range
    liegen

17
Fortentwicklungen
  • Zeitreihen unterschiedlicher Länge /
    Abtast-RateResampling
  • Abfrage auf Teil-Zeitreihen
  • Indizierung
  • Minimale Länge für Abfrage-Zeitreihen festlegen
    length
  • Fenster der Länge lenght über die Zeitreihen
    bewegen
  • ? Traces von Punkten im Feature-Raum
  • Teil-Traces als ausgedehnte Objekte im R-Tree
    indiziert
  • Suche
  • Länge length ? Einfache Suche im Index
  • Länge größer length ? Prefix-Suche
    (ineffektiv) ? Multi-Suche auf
    Teil-Stücke mit reduzierter
    Range Ergebnis Vereinigungsmenge
Write a Comment
User Comments (0)
About PowerShow.com