Title: Maschinelles%20Lernen
1Kapitel 2 Klassifikation
2Ein einfacher Fall
- Ein Feature, Histogramme für beide Klassen(z.B.
Glukosewert, Diabetes ja/nein) - Keine perfekte Trennung möglich
- Entscheidung Schwellwert
- Frage Wo setze ich ihn am besten hin?
3Der allgemeine Fall Bayessches Theorem
- Ann Daten fallen in k Klassen,
- wähle für eine Beobachtung xj die
Wahrscheinlichste aus
4Der optimale Klassifikator
- Klassifikation wähle die Klasse i mit der
höchsten a-posteriori Wahrscheinlichkeit - Erzielt das bestmögliche Resultat
- Bayessche Formel erleichtert das Problem, da
Wahrscheinlichkeiten auf der rechten Seite meist
leichter zu bestimmen sind - Da p(x) für alle Klassen gleich ist, kann es oft
weggelassen werden
5Einschub Wahrscheinlichkeitsdichten
- Für diskrete Variablen (endliche Werte)
Wahrscheinlichkeit,z.B. P(ci) - Für kontinuierliche Variablen nicht möglich
P(xj)0 - Stattdessen Wahrscheinlichkeitsdichtefunktion
p(x)p(xj) ... Dichte an diesem Punkt (kann
größer als 1 sein) - Wahrscheinlichkeit, dass x in einem kleinen
Intervall liegt - Dichte kann wie Wahrscheinlichkeit behandelt
werden
6Beispiel 1 Variable, 2 Klassen
- Annahme in beiden Klassen sind Beobachtungen
normalverteilt
- Entscheidungsgrenze Schnittpunkt der beiden
Kurven
- Multiplikation mit a-priori Wahrscheinlichkeiten
Entscheidungsgrenze verschiebt sich
- Durchdividieren durch Summe ergibt
Wahrscheinlichkeit für Klasse
7Beispiel 2 Variablen, 2 Klassen
- 2-dim. Gaussverteilungen
- Lineare Entscheidungsgrenze
8Klassifikatoren
- Problem Dichteverteilungen meist unbekannt
- Lösung
- Schätzen der Verteilungen
- Schätzen der Entscheidungsgrenze
- Schätzen von DiskriminanzfunktionenWähle für
jede Klasse Fkt. gi(x)Klasse ci, wenn
gi(x)gtgj(x) für alle j?iz.B.
Keine Wahrscheinlichkeiten mehr
9Diskriminanzfunktionen für Normalverteilungen
- Streuung in alle Richtungen gleich (sphärisch)
- Log-Fkt. Und multiplikative Faktoren ändern
nichts an Größenverhältnis - Quadratische Funktion
- Entscheidungsgrenze g1(x)g2(x), auch
quadratisch
wenn ?1 ?2 linear
10Visualisierung Normalverteilungen
11Allgemeiner Ansatz Diskriminanzanalyse
- Lineare Diskriminanzfunktionentspricht dem
Perceptron mit 1 Output Unit pro Klasse - Quadratisch linearentspricht einer
Vorverarbeitung der Daten,Parameter (w,v) noch
immer linear
12Der Schritt zum neuronalen Netz
- Allgemein linearbeliebige Vorverarbeitungsfunk
tionen, lineare Verknüpfung - Neuronales NetzNN implementiert adaptive
Vorverarbeitungnichtlinear in Parametern (w)
MLP
RBFN
13Beispiel XOR
- (0 0) ? 0(1 0) ? 1(0 1) ? 1(1 1) ? 0
- ? Exklusives Oder
- 4. Muster ist Summe des 2. und 3. (lineare
Abhängigkeit) - Punkte lassen sich durch keine Gerade trennen
14Hidden Units
- Zwei Perceptrons nichtlineare Transferfunktion
- Schwellwertfunktion bricht lineare Abhängigkeit
15Beliebige Klassifikationen
- Jede Hidden Unit teilt Raum in 2 Hälften
- Output Units wirken wie AND
- Sigmoide verlaufende Bereiche
16Beispiel MLP
- MLP mit 5 Hidden und 2 Output Units
- Lineare Transferfunktion am Output
- Quadratischer Fehler
17MLP zur Diskriminanzanalyse
- MLP (und RBFN) ist direkte Erweiterung
klassischer Modelle - Stärke beliebige nichtlineare Diskriminanzfunktio
nen - Hidden Units Adaptive Vorverarbeitung des Inputs
- Form der Diskriminanzfunktion außerhalb der
Entscheidungsgrenze belanglos - Perceptron ist identisch mit linearer
Diskriminanzanalyse
18Alternativer Ansatz Schätzung der Verteilungen
- Beim Ansatz mittels Diskriminanzfunktionen geht
ein wesentlicher Aspekt verloren
Wahrscheinlichkeiten der Klassenzugehörigkeit - ? mehr an Bayes halten, Dichtefunktion
schätzen(vor allem p(xci)) - Parametrisch Form ist bekannt, weniger Parameter
zu schätzen - Nichtparametrisch Form ist unbekannt,
theoretisch beliebig
19Parametrisch Maximum Likelihood (ML)
- Ann. Verteilung hat eine bestimmte, analytisch
beschreibbare Form (z.B. Normalverteilung) mit
Parametern ? (z.B. Zentrum und Weite) - Likelihood
- Entspricht der Wahrscheinlichkeit, dass Daten
beobachtet werden, wenn die Verteilung richtig
ist - ML Finde jenes ?, das die Beobachtungen am
wahrscheinlichsten macht Maximiere L(?) - Vor Beobachtungen (Daten) sind unabhängig
voneinander
Menge aller Datenpunkte
20Beispiel eindimensionale Normalverteilung
- Vereinfachung (ähnlich wie zuvor)logarithmieren,
Vorzeichen ändern, Konstante weglassen,
minimieren?minimiere die negative log-Likelihood
- Minimierung 1. Ableitung auf 0 setzen
Erwartetes Ergebnis Mittelwert und Varianz
21Likelihood-Funktionen für die Normalverteilung
- L(?) für Punkte 1, 2 und 3, ?1
- L(?) für Punkte 1, 2 und 3, ? 1
(wieder Gauss-Fkt.)
- L(?) für einen Punkt 1,? 1
? ML nicht immer sinnvoll!
22Nichtparametrisch Parzen-Windows
- Wenn Form beliebig, keine Likelihood angebbar
- Wähle einen kleinen (Hyper-)Würfel, zähle wieviel
Punkte drin liegen (ki)Geschätzte Dichte
Volumen
- Wenn n??, Vi?0, dann immer genauer
- Entspricht einem normalisiertenHistogramm
23Der Fluch der Dimensionalität
- (Bellman 1961)bei nichtparametrischen Fällen
steigt die Anzahl der benötigten Beispiele
exponentiell mit der Dimensionalität des Input! - Parzen
- wenn Fenster klein, muss es noch genügend
Beispiele enthalten - je mehr Dimensionen, desto dünner gesät
- ? möglichst wenige Inputs, viele Daten
24Semiparametrisch Gaussian Mixtures (GMM)
- Nähere beliebige Verteilung durch eine Mischung
von Normalverteilungen an - Gleiches Prinzip wie bei neuronalen Netzen
- Maximum Likelihood
? -logL, Gradientenverfahren
25Beispiel
26MLP zur Klassifikation
- Beweis existiertMLP nähert die a-posteriori
Wahrscheinlichkeit an - Aktivierungsfunktion Softmax(eigene
Fehlerfunktion notwendig siehe später) - A-priori WahrscheinlichkeitenVerteilungen im
Trainingsset
27Die Softmax-Funktion
- Erzwingt, dass Outputs als Wahrscheinlichkeiten
interpretierbar sind - Bezug zum Bayesschen Theorem
- Spezialfall Sigmoide Funktionnur 2 Klassen, 1
Output Unit durchdividieren
Wenn Expontentialverteilung ? SoftmaxNettoinput
ist log. von Dichte
28Warum Wahrscheinlichkeiten?
- Mehr Information
- Ablehnung von unsicheren Fällen Performanz
steigt, aber einige Fälle unentscheidbar - Einfache Berücksichtigung von anderen a-priori
Wahrscheinlichkeiten - Berücksichtigung von Kosten für Fehler
- Verknüpfung mit anderen Quellen
29NN als semiparametrische Methoden
- SemiparametrischForm relative beliebig, aber
dennoch durch Anzahl der Hidden Units
(Modellkomplexität) beschränkt - Fluch der Dimension abgeschwächt, aber immer noch
gegeben Bedarf steigt ungefähr quadratisch - ? NN haben gute Eigenschaften, wenn Dichten
unbekannt, aber immer noch giltwenige Inputs,
viele Daten!
30Nachtrag k-nearest neighbor
- Speichere alle Trainingssätze mit zugehöriger
Klasse - Neuer Fall wähle die k nähesten Trainingsfälle,
nimm Klasse, die am häufigsten vorkommt - Duda Hart 1974Nearest Neighbor (k1) hat
maximal den doppelten Fehler des bayesoptimalen
Klassifizierers (für große Fallzahl) - ? kann als Benchmark verwendet werden
- Approximiert auch die a-priori Wahrscheinlichkeit
direkt - nichtparametrisch
k4 3 Klasse 21 Klasse 1 ? Klasse 2(posterior
¾)
31Zusammenfassung
- NN sind semiparametrische Methoden zur
Klassifikation - Lt. Bayes sind Wahrscheinlichkeiten angebbar,
bringt mehr Information - Es existieren gleichmächtige Alternativen (z.B.
GMM) - Nearest Neighbor als Benchmark