Maschinelles%20Lernen - PowerPoint PPT Presentation

About This Presentation
Title:

Maschinelles%20Lernen

Description:

Title: PowerPoint Presentation Author: Georg Dorffner Last modified by: GD Created Date: 10/10/2002 6:06:26 PM Document presentation format: On-screen Show – PowerPoint PPT presentation

Number of Views:137
Avg rating:3.0/5.0
Slides: 32
Provided by: Georg394
Category:

less

Transcript and Presenter's Notes

Title: Maschinelles%20Lernen


1
Kapitel 2 Klassifikation
2
Ein einfacher Fall
  • Ein Feature, Histogramme für beide Klassen(z.B.
    Glukosewert, Diabetes ja/nein)
  • Keine perfekte Trennung möglich
  • Entscheidung Schwellwert
  • Frage Wo setze ich ihn am besten hin?

3
Der allgemeine Fall Bayessches Theorem
  • Ann Daten fallen in k Klassen,
  • wähle für eine Beobachtung xj die
    Wahrscheinlichste aus

4
Der optimale Klassifikator
  • Klassifikation wähle die Klasse i mit der
    höchsten a-posteriori Wahrscheinlichkeit
  • Erzielt das bestmögliche Resultat
  • Bayessche Formel erleichtert das Problem, da
    Wahrscheinlichkeiten auf der rechten Seite meist
    leichter zu bestimmen sind
  • Da p(x) für alle Klassen gleich ist, kann es oft
    weggelassen werden

5
Einschub Wahrscheinlichkeitsdichten
  • Für diskrete Variablen (endliche Werte)
    Wahrscheinlichkeit,z.B. P(ci)
  • Für kontinuierliche Variablen nicht möglich
    P(xj)0
  • Stattdessen Wahrscheinlichkeitsdichtefunktion
    p(x)p(xj) ... Dichte an diesem Punkt (kann
    größer als 1 sein)
  • Wahrscheinlichkeit, dass x in einem kleinen
    Intervall liegt
  • Dichte kann wie Wahrscheinlichkeit behandelt
    werden

6
Beispiel 1 Variable, 2 Klassen
  • Annahme in beiden Klassen sind Beobachtungen
    normalverteilt
  • Entscheidungsgrenze Schnittpunkt der beiden
    Kurven
  • Multiplikation mit a-priori Wahrscheinlichkeiten
    Entscheidungsgrenze verschiebt sich
  • Durchdividieren durch Summe ergibt
    Wahrscheinlichkeit für Klasse

7
Beispiel 2 Variablen, 2 Klassen
  • 2-dim. Gaussverteilungen
  • Lineare Entscheidungsgrenze

8
Klassifikatoren
  • Problem Dichteverteilungen meist unbekannt
  • Lösung
  • Schätzen der Verteilungen
  • Schätzen der Entscheidungsgrenze
  • Schätzen von DiskriminanzfunktionenWähle für
    jede Klasse Fkt. gi(x)Klasse ci, wenn
    gi(x)gtgj(x) für alle j?iz.B.

Keine Wahrscheinlichkeiten mehr
9
Diskriminanzfunktionen für Normalverteilungen
  • Streuung in alle Richtungen gleich (sphärisch)
  • Log-Fkt. Und multiplikative Faktoren ändern
    nichts an Größenverhältnis
  • Quadratische Funktion
  • Entscheidungsgrenze g1(x)g2(x), auch
    quadratisch
    wenn ?1 ?2 linear

10
Visualisierung Normalverteilungen
11
Allgemeiner Ansatz Diskriminanzanalyse
  • Lineare Diskriminanzfunktionentspricht dem
    Perceptron mit 1 Output Unit pro Klasse
  • Quadratisch linearentspricht einer
    Vorverarbeitung der Daten,Parameter (w,v) noch
    immer linear

12
Der Schritt zum neuronalen Netz
  • Allgemein linearbeliebige Vorverarbeitungsfunk
    tionen, lineare Verknüpfung
  • Neuronales NetzNN implementiert adaptive
    Vorverarbeitungnichtlinear in Parametern (w)

MLP
RBFN
13
Beispiel XOR
  • (0 0) ? 0(1 0) ? 1(0 1) ? 1(1 1) ? 0
  • ? Exklusives Oder
  • 4. Muster ist Summe des 2. und 3. (lineare
    Abhängigkeit)
  • Punkte lassen sich durch keine Gerade trennen

14
Hidden Units
  • Zwei Perceptrons nichtlineare Transferfunktion
  • Schwellwertfunktion bricht lineare Abhängigkeit

15
Beliebige Klassifikationen
  • Jede Hidden Unit teilt Raum in 2 Hälften
  • Output Units wirken wie AND
  • Sigmoide verlaufende Bereiche

16
Beispiel MLP
  • MLP mit 5 Hidden und 2 Output Units
  • Lineare Transferfunktion am Output
  • Quadratischer Fehler

17
MLP zur Diskriminanzanalyse
  • MLP (und RBFN) ist direkte Erweiterung
    klassischer Modelle
  • Stärke beliebige nichtlineare Diskriminanzfunktio
    nen
  • Hidden Units Adaptive Vorverarbeitung des Inputs
  • Form der Diskriminanzfunktion außerhalb der
    Entscheidungsgrenze belanglos
  • Perceptron ist identisch mit linearer
    Diskriminanzanalyse

18
Alternativer Ansatz Schätzung der Verteilungen
  • Beim Ansatz mittels Diskriminanzfunktionen geht
    ein wesentlicher Aspekt verloren
    Wahrscheinlichkeiten der Klassenzugehörigkeit
  • ? mehr an Bayes halten, Dichtefunktion
    schätzen(vor allem p(xci))
  • Parametrisch Form ist bekannt, weniger Parameter
    zu schätzen
  • Nichtparametrisch Form ist unbekannt,
    theoretisch beliebig

19
Parametrisch Maximum Likelihood (ML)
  • Ann. Verteilung hat eine bestimmte, analytisch
    beschreibbare Form (z.B. Normalverteilung) mit
    Parametern ? (z.B. Zentrum und Weite)
  • Likelihood
  • Entspricht der Wahrscheinlichkeit, dass Daten
    beobachtet werden, wenn die Verteilung richtig
    ist
  • ML Finde jenes ?, das die Beobachtungen am
    wahrscheinlichsten macht Maximiere L(?)
  • Vor Beobachtungen (Daten) sind unabhängig
    voneinander

Menge aller Datenpunkte
20
Beispiel eindimensionale Normalverteilung
  • Vereinfachung (ähnlich wie zuvor)logarithmieren,
    Vorzeichen ändern, Konstante weglassen,
    minimieren?minimiere die negative log-Likelihood
  • Minimierung 1. Ableitung auf 0 setzen

Erwartetes Ergebnis Mittelwert und Varianz
21
Likelihood-Funktionen für die Normalverteilung
  • L(?) für Punkte 1, 2 und 3, ?1
  • L(?) für Punkte 1, 2 und 3, ? 1

(wieder Gauss-Fkt.)
  • L(?) für einen Punkt 1,? 1

? ML nicht immer sinnvoll!
22
Nichtparametrisch Parzen-Windows
  • Wenn Form beliebig, keine Likelihood angebbar
  • Wähle einen kleinen (Hyper-)Würfel, zähle wieviel
    Punkte drin liegen (ki)Geschätzte Dichte

Volumen
  • Wenn n??, Vi?0, dann immer genauer
  • Entspricht einem normalisiertenHistogramm

23
Der Fluch der Dimensionalität
  • (Bellman 1961)bei nichtparametrischen Fällen
    steigt die Anzahl der benötigten Beispiele
    exponentiell mit der Dimensionalität des Input!
  • Parzen
  • wenn Fenster klein, muss es noch genügend
    Beispiele enthalten
  • je mehr Dimensionen, desto dünner gesät
  • ? möglichst wenige Inputs, viele Daten

24
Semiparametrisch Gaussian Mixtures (GMM)
  • Nähere beliebige Verteilung durch eine Mischung
    von Normalverteilungen an
  • Gleiches Prinzip wie bei neuronalen Netzen
  • Maximum Likelihood

? -logL, Gradientenverfahren
25
Beispiel
  • Class-conditionals
  • Posterior
  • Entscheidungsgrenze

26
MLP zur Klassifikation
  • Beweis existiertMLP nähert die a-posteriori
    Wahrscheinlichkeit an
  • Aktivierungsfunktion Softmax(eigene
    Fehlerfunktion notwendig siehe später)
  • A-priori WahrscheinlichkeitenVerteilungen im
    Trainingsset

27
Die Softmax-Funktion
  • Erzwingt, dass Outputs als Wahrscheinlichkeiten
    interpretierbar sind
  • Bezug zum Bayesschen Theorem
  • Spezialfall Sigmoide Funktionnur 2 Klassen, 1
    Output Unit durchdividieren

Wenn Expontentialverteilung ? SoftmaxNettoinput
ist log. von Dichte
28
Warum Wahrscheinlichkeiten?
  • Mehr Information
  • Ablehnung von unsicheren Fällen Performanz
    steigt, aber einige Fälle unentscheidbar
  • Einfache Berücksichtigung von anderen a-priori
    Wahrscheinlichkeiten
  • Berücksichtigung von Kosten für Fehler
  • Verknüpfung mit anderen Quellen

29
NN als semiparametrische Methoden
  • SemiparametrischForm relative beliebig, aber
    dennoch durch Anzahl der Hidden Units
    (Modellkomplexität) beschränkt
  • Fluch der Dimension abgeschwächt, aber immer noch
    gegeben Bedarf steigt ungefähr quadratisch
  • ? NN haben gute Eigenschaften, wenn Dichten
    unbekannt, aber immer noch giltwenige Inputs,
    viele Daten!

30
Nachtrag k-nearest neighbor
  • Speichere alle Trainingssätze mit zugehöriger
    Klasse
  • Neuer Fall wähle die k nähesten Trainingsfälle,
    nimm Klasse, die am häufigsten vorkommt
  • Duda Hart 1974Nearest Neighbor (k1) hat
    maximal den doppelten Fehler des bayesoptimalen
    Klassifizierers (für große Fallzahl)
  • ? kann als Benchmark verwendet werden
  • Approximiert auch die a-priori Wahrscheinlichkeit
    direkt
  • nichtparametrisch

k4 3 Klasse 21 Klasse 1 ? Klasse 2(posterior
¾)
31
Zusammenfassung
  • NN sind semiparametrische Methoden zur
    Klassifikation
  • Lt. Bayes sind Wahrscheinlichkeiten angebbar,
    bringt mehr Information
  • Es existieren gleichmächtige Alternativen (z.B.
    GMM)
  • Nearest Neighbor als Benchmark
Write a Comment
User Comments (0)
About PowerShow.com