Title: Maschinelles Lernen
1Kapitel 6 Unüberwachtes Lernen
2Clustering
- Gegeben eine Menge von Punkten (Beispielen),
ungelabelt (i.e. Klasse unbekannt) - Gesucht eine Menge von Clustern
(Cluster-Zentren), die die Daten möglichst gut
beschreiben (Vektorquantisierung) - ? minimiere(Summe der Abstände zu allen
Zentren, quadratischer Quantisierungsfehler)
3K-means Clustering
- Gradientenverfahren
- Neues Cluster-Zentrum ist Mittelwert der Punkte
im Cluster - Mehrere Iterationen notwendig
4Clustering als NC Competitive Learning
- Architektur wie Perceptron
- winner-take-all
- Gewinner lernt (Instar Regel)
5Geometrische Interpretation
?Matlabgtdemosgtneural networksgtother demosgtchapter
14gtcompetitive learning
- Gewichtsvektoren und Inputs sind Punkte im Raum
- Gewinner wählen finde nähesten Gewichstvektor
- Instar Ziehe Gewichtsvektor zu Input hin
- Resultat Gruppen in den Daten werden gefunden
- stochastische Variante von k-means!
6Eigenschaften
- Clustering nach k-means ist Gausssches
Clustering (symmetrische Streuung) - Aufteilung des Raumes Voronoi Tesselation
- Mögliche Probleme
- Lokale Minima(bei schlechter Initialisierung)
- Verzerrung durch Ausreisser
7Gaussian Mixtures als Clustering
?Netlabgtdemgmm1.m
- Clustering wird als Dichteschätzung betrachtet
- Anschreibbar wie Klassifikationsproblem
- EM-Algorithmus (max. Likelihood)
Gewichteter Mittelwert, analog zu k-means
8Vorteile der GMM
- Vorteile
- Probabilitischer Rahmen
- Zugehörigkeit zu Clustern angebbar(Posterior)
- Ausgeprägtheit von Clustern bestimmbar
- Modellauswahl möglich (anhand der
Likelihood)k-means optimale Anzahl der Clusters
nicht leicht bestimmbar
9Erweiterungen
?Netlabgtdemgmm3.m, demgmm4.m
- Erweiterung auf beliebige Gauss-Verteilungen
möglich - K-means entspricht Mahalonobis
Distanz(berücksichtigt Varianzen innerhalb der
Cluster)
10Nicht-Gausssches Clustering
- Nur als Mixture von Gaussschen Zentren
beschreibbar - Wenn natürliche Cluster gefunden werden sollen
Nur parametrisch möglich (d.h. Form der Cluster
bekannt) - Ansonsten Identifikationsproblem
11Andere Formen des Clustering
- Andere Distanz-(Ähnlichkeits-)Maßez.B.
Manhattan-Distanz, Ranking - Andere Fehler-(Kriteriums-)Funktionenz.B.
Kohäsion innerhalb des Clusters, Entropie - Hierarchisches Clustering
- Dendrogramme
- ART mit verschiedenenVigilanzen
12Selforganizing Maps (SOM)
- Wie CL winner-take-all, Instar
- Aber Nachbarn lernen mit
Nachbarschaftsfunktion, wird im Laufe des
Trainings Kleiner (Stabilisierung)
13SOM Geometrische Interpretation
?Vienet2gtuebung4.exe Matlabgtdemosgt2dim.
selforganizing map
3x3 SOM
- Topologische Beziehung der Clusters bleibt
weitgehend bestehen - Benachbarte Units entsprechen benachbarten
Clustern - Datenraum wird auf die 2-dim. Struktur abgebildet
(Karte) - Dient zur Visualisierung hochdimensionaler Daten
- 2-dim. Struktur wird in den hochdimensionalen
Raum eingepasst - Projektion
14Beispiel politische Konflikte
?http//websom.hut.fi
- Daten Konflikte und Vermittlungsversuche seit
1945 (Bercovitch Langely 1993) - 6 Dimensionen
- Dauer
- Politische Macht A
- Politische Macht B
- Politische Rechte B
- Initiator
- Vermittlunsgerfolg
- 2 dim. Visualisierung
15SOM
- Durch schlechte Initaliseriung kann k-means zu
sub-otpimalen Lösungen führen (lokales Minimum) - SOM durch Mitziehen der Nachbarn wird der
Datenraum besser abgedeckt (lokale Minima können
vermieden werden) - Zusätzlich
- Topologische Beziehung
- Mehr Zentren in Bereichen hoher Dichte
16Multidimensionale Skalierung
- Aufgabe Bilde hochdimensionale (n-d) Daten auf
niedrige Dimensionalität (k-d) ab, sodaß Abstände
zwischen den Punkten annähernd gleich bleiben
(Dimensionsreduktion) - Funktioniert gut, wenn Daten auf k-dim.
Mannigfaltigkeit liegen (z.B. gekrümmte Fläche)
17SOM als MDS
- MDS entspricht dem Prinzip der topologischen
Erhaltung in der SOM - ? SOM ist Clustering MDS (mit Verzerrung abh.
von Dichte)!
18Topologische Darstellung
- Zwischenzustände durch Gewichtung mittels Distanz
zu Zentren - Ausgeprägte Grenzen darstellbar (U-Map, Ultsch)
19Alternative Sammon Mapping
- Minimiere Differenz aller Abstände
- Nachteil hoher Berechnungsaufwand
- Lösung zuerst Clustering, dann Sammon Mapping
(weniger Punkte) Flexer 1996 - Aber Gleiche Probleme mit lokalen Minima wie
k-means
20Probleme der SOM
- Keine probabilistische Beschreibung
- Konvergenz nicht garantiert
- Es gibt keine Fehlerfunktion, die minimiert wird!
- Clustering und MDS beeinflussen einander (beides
kann suboptimal sein) - Es ist schwer abschätzbar, ob SOM gut ist oder
nicht - ? Empfehlung
- SOM nur zur Visualisierung einsetzen!(nicht zum
Clustering oder für überwachte Probleme) - Genau überlegen, was Kriterium ist Alternativen
suchen
21Generative Topographic Mapping (GTM)
?Netlabgtdemgtm1.m, demgtm2.m
- Bishop et al. (1996)
- Nichtlineares Mapping von einer Gitterstruktur
auf eine Gaussian Mixture(z.B. durch MLP) - GMM mit Randbedingungen
- Probabilistische Formulierung, umgeht viele der
Probleme der SOM
Aus Bishop et al. (1996), Neural Computation
10(1), 215-235
22Praktische Aspekte
- Auch für unüberwachte Verfahren gelten im
wesentlichen die 7 Schritte - Sichtung (Ausreißer)
- VorverarbeitungSkalierung der Merkmale
beeinflusst die Distanz? Normalisierung - Merkmalsselektionirrelevante Merkmalekönnen
Clusteringerschweren
23Kreuzvalidierung für unüberwachtes Lernen
- Modellschätzung mittels Kreuzvalidierungbei
k-means problematischbei GMM Likelihood-Funktion
als Fehlerfunktion (Loss-Funktion)
24Kombination von überwachtem mit unüberwachtem
Lernen
- Unüberwachte Verfahren alleine eignen sich nur
für unüberwachte Probleme! - Bei überwachtem Problem (gelabelte Daten) kann
unüberwachtes Verfahren eingesetzt werden als - Initialisierung
- Vorstrukturierung
- Beispiele
- SOM oder GTM als Initialisierung eines RBFN
- Learning Vector Quantization
- ARTMAP
25Learning Vector Quantization (LVQ)
- Kohonen (1990)Ordne Units Klassen zu
- ? nearest neighbor Verfahren mit
Vektorquantisierung (nicht jeder Trainingspunkt
gespeichert) - Vergleichbar mit Dichteschätzung der
class-conditionals
hinbewegen, wenn richtige Klasse
wegbewegen, wenn falsche Klasse
26Zusammenfassung
- Unüberwachte neuronale Netz-Verfahren reihen sich
ebenfalls nahtlos in die Statistik - Competitive Learning k-means
- GMM als probabilistisches Clusteringverfahren
- SOM als Multidimensionale Skalierung
Clustering, aber mit Problemen