Maschinelles Lernen - PowerPoint PPT Presentation

About This Presentation

Title:

Maschinelles Lernen

Description:

Title: PowerPoint Presentation Author: Georg Dorffner Last modified by: GD Created Date: 10/10/2002 6:06:26 PM Document presentation format: On-screen Show – PowerPoint PPT presentation

Number of Views:199

Avg rating:3.0/5.0

Slides: 27

Provided by: Georg431

Category:

more less

Transcript and Presenter's Notes

Title: Maschinelles Lernen

1
Kapitel 6 Unüberwachtes Lernen
2
Clustering

Gegeben eine Menge von Punkten (Beispielen),
ungelabelt (i.e. Klasse unbekannt)
Gesucht eine Menge von Clustern
(Cluster-Zentren), die die Daten möglichst gut
beschreiben (Vektorquantisierung)
? minimiere(Summe der Abstände zu allen
Zentren, quadratischer Quantisierungsfehler)

3
K-means Clustering

Gradientenverfahren
Neues Cluster-Zentrum ist Mittelwert der Punkte
im Cluster
Mehrere Iterationen notwendig

4
Clustering als NC Competitive Learning

Architektur wie Perceptron

winner-take-all
Gewinner lernt (Instar Regel)

5
Geometrische Interpretation
?Matlabgtdemosgtneural networksgtother demosgtchapter
14gtcompetitive learning

Gewichtsvektoren und Inputs sind Punkte im Raum

Gewinner wählen finde nähesten Gewichstvektor

Instar Ziehe Gewichtsvektor zu Input hin

Resultat Gruppen in den Daten werden gefunden

stochastische Variante von k-means!

6
Eigenschaften

Clustering nach k-means ist Gausssches
Clustering (symmetrische Streuung)
Aufteilung des Raumes Voronoi Tesselation
Mögliche Probleme
Lokale Minima(bei schlechter Initialisierung)
Verzerrung durch Ausreisser

7
Gaussian Mixtures als Clustering
?Netlabgtdemgmm1.m

Clustering wird als Dichteschätzung betrachtet
Anschreibbar wie Klassifikationsproblem
EM-Algorithmus (max. Likelihood)

Gewichteter Mittelwert, analog zu k-means
8
Vorteile der GMM

Vorteile
Probabilitischer Rahmen
Zugehörigkeit zu Clustern angebbar(Posterior)
Ausgeprägtheit von Clustern bestimmbar
Modellauswahl möglich (anhand der
Likelihood)k-means optimale Anzahl der Clusters
nicht leicht bestimmbar

9
Erweiterungen
?Netlabgtdemgmm3.m, demgmm4.m

Erweiterung auf beliebige Gauss-Verteilungen
möglich
K-means entspricht Mahalonobis
Distanz(berücksichtigt Varianzen innerhalb der
Cluster)

10
Nicht-Gausssches Clustering

Nur als Mixture von Gaussschen Zentren
beschreibbar
Wenn natürliche Cluster gefunden werden sollen
Nur parametrisch möglich (d.h. Form der Cluster
bekannt)
Ansonsten Identifikationsproblem

11
Andere Formen des Clustering

Andere Distanz-(Ähnlichkeits-)Maßez.B.
Manhattan-Distanz, Ranking
Andere Fehler-(Kriteriums-)Funktionenz.B.
Kohäsion innerhalb des Clusters, Entropie
Hierarchisches Clustering
Dendrogramme
ART mit verschiedenenVigilanzen

12
Selforganizing Maps (SOM)

Kohonen (1981, 1990)

Nachbarschaft definiert

Wie CL winner-take-all, Instar
Aber Nachbarn lernen mit

Nachbarschaftsfunktion, wird im Laufe des
Trainings Kleiner (Stabilisierung)
13
SOM Geometrische Interpretation
?Vienet2gtuebung4.exe Matlabgtdemosgt2dim.
selforganizing map
3x3 SOM

Topologische Beziehung der Clusters bleibt
weitgehend bestehen
Benachbarte Units entsprechen benachbarten
Clustern
Datenraum wird auf die 2-dim. Struktur abgebildet
(Karte)
Dient zur Visualisierung hochdimensionaler Daten
2-dim. Struktur wird in den hochdimensionalen
Raum eingepasst - Projektion

14
Beispiel politische Konflikte
?http//websom.hut.fi

Daten Konflikte und Vermittlungsversuche seit
1945 (Bercovitch Langely 1993)
6 Dimensionen
Dauer
Politische Macht A
Politische Macht B
Politische Rechte B
Initiator
Vermittlunsgerfolg
2 dim. Visualisierung

15
SOM

Durch schlechte Initaliseriung kann k-means zu
sub-otpimalen Lösungen führen (lokales Minimum)
SOM durch Mitziehen der Nachbarn wird der
Datenraum besser abgedeckt (lokale Minima können
vermieden werden)
Zusätzlich
Topologische Beziehung
Mehr Zentren in Bereichen hoher Dichte

16
Multidimensionale Skalierung

Aufgabe Bilde hochdimensionale (n-d) Daten auf
niedrige Dimensionalität (k-d) ab, sodaß Abstände
zwischen den Punkten annähernd gleich bleiben
(Dimensionsreduktion)
Funktioniert gut, wenn Daten auf k-dim.
Mannigfaltigkeit liegen (z.B. gekrümmte Fläche)

17
SOM als MDS

MDS entspricht dem Prinzip der topologischen
Erhaltung in der SOM
? SOM ist Clustering MDS (mit Verzerrung abh.
von Dichte)!

18
Topologische Darstellung

Zwischenzustände durch Gewichtung mittels Distanz
zu Zentren
Ausgeprägte Grenzen darstellbar (U-Map, Ultsch)

19
Alternative Sammon Mapping

Minimiere Differenz aller Abstände
Nachteil hoher Berechnungsaufwand
Lösung zuerst Clustering, dann Sammon Mapping
(weniger Punkte) Flexer 1996
Aber Gleiche Probleme mit lokalen Minima wie
k-means

20
Probleme der SOM

Keine probabilistische Beschreibung
Konvergenz nicht garantiert
Es gibt keine Fehlerfunktion, die minimiert wird!
Clustering und MDS beeinflussen einander (beides
kann suboptimal sein)
Es ist schwer abschätzbar, ob SOM gut ist oder
nicht
? Empfehlung
SOM nur zur Visualisierung einsetzen!(nicht zum
Clustering oder für überwachte Probleme)
Genau überlegen, was Kriterium ist Alternativen
suchen

21
Generative Topographic Mapping (GTM)
?Netlabgtdemgtm1.m, demgtm2.m

Bishop et al. (1996)
Nichtlineares Mapping von einer Gitterstruktur
auf eine Gaussian Mixture(z.B. durch MLP)
GMM mit Randbedingungen
Probabilistische Formulierung, umgeht viele der
Probleme der SOM

Aus Bishop et al. (1996), Neural Computation
10(1), 215-235
22
Praktische Aspekte

Auch für unüberwachte Verfahren gelten im
wesentlichen die 7 Schritte
Sichtung (Ausreißer)
VorverarbeitungSkalierung der Merkmale
beeinflusst die Distanz? Normalisierung
Merkmalsselektionirrelevante Merkmalekönnen
Clusteringerschweren

23
Kreuzvalidierung für unüberwachtes Lernen

Modellschätzung mittels Kreuzvalidierungbei
k-means problematischbei GMM Likelihood-Funktion
als Fehlerfunktion (Loss-Funktion)

24
Kombination von überwachtem mit unüberwachtem
Lernen

Unüberwachte Verfahren alleine eignen sich nur
für unüberwachte Probleme!
Bei überwachtem Problem (gelabelte Daten) kann
unüberwachtes Verfahren eingesetzt werden als
Initialisierung
Vorstrukturierung
Beispiele
SOM oder GTM als Initialisierung eines RBFN
Learning Vector Quantization
ARTMAP

25
Learning Vector Quantization (LVQ)

Kohonen (1990)Ordne Units Klassen zu
? nearest neighbor Verfahren mit
Vektorquantisierung (nicht jeder Trainingspunkt
gespeichert)
Vergleichbar mit Dichteschätzung der
class-conditionals

hinbewegen, wenn richtige Klasse
wegbewegen, wenn falsche Klasse
26
Zusammenfassung

Unüberwachte neuronale Netz-Verfahren reihen sich
ebenfalls nahtlos in die Statistik
Competitive Learning k-means
GMM als probabilistisches Clusteringverfahren
SOM als Multidimensionale Skalierung
Clustering, aber mit Problemen

Write a Comment

User Comments (0)