Title: Folie 1
1Multivariate Analysemethoden
Vorlesung
Multivariate Distanz Multivariate
Normalverteilung Minimum Distance Classifier
Bayes Classifier
Günter Meinhardt Johannes Gutenberg Universität
Mainz
2 Klassifikation
Multivariate Klassifikation
Ziele
- Einordnen von Fällen (Versuchspersonen,
Beobachtungen) in Gruppen aufgrund ihrer
Werte in mehreren Meßvariablen.
- Maßgeblich für die Zuordnung zu eine Gruppe ist
a) die Wahrscheinlichkeit des Auftretens des
Falles in der Ziel- gruppe (falls
ermittelbar) oder b) die Distanz des Falles vom
charakteristischen Wert der Gruppe (Prototyp,
Zentroid)
Methoden
- Deskriptive Methoden Bestimmung von
Distanzen und Wahrscheinlichkeiten auf dem
Set der beobachteten Meßvariablen
- Analytische Methoden Bestimmung von
Distanzen und Wahrscheinlichkeiten auf trans-
formierten Meßvariablen mit dem Ziel, die
Separation von Gruppen zu maximieren
(Diskriminanzanalytische Methoden)
- Weitere Kriterien sind Kosten von
Fehlklassifikationen und die a- priori
Wahrscheinlichkeit von Gruppen (Allg.
Likelihood-Ratio und Bayes-Klassifikation)
3Iso-Distanz Konturen in 2D Klassifikation
Iso-Distanz-Konturen in 2D
Kreis
Kreis mit Radius c Alle Punkte auf dem
Kreisbogen haben euklidischen Abstand c zum
Kreismittelpunkt
c
y
x
- Der Kreis ist die Grundform der Iso-Distanz
Kontur im zweidimen- sionalen Raum (p 2). - Er entspricht im Variablenraum einer
Iso-Distanz-Kontur für 2 unkorrelierte
(orthogonale) Variablen mit derselben Skalierung.
4Iso-Distanz Konturen in 2D Klassifikation
Ellipse Skalierung
Ellipse mit Ellipsenradius c Alle Punkte auf dem
Ellipsenbogen haben, auf Standardskala normiert,
denselben Abstand c zum Mittelpunkt
y
x
v
Standardskala
u
5Iso-Distanz Konturen in 2D Klassifikation
Ellipse Translation
Translation zum Punkt (x0,y0) ändert an dieser
Eigenschaft nichts
v
Standardskala
Standard- Transformation
u
6Iso-Distanz Konturen in 2D Klassifikation
Die Invarianz der Distanz im neuen
Koordinatensystem mit geneigten Achsen
(Korrelation der Variablen) ist über eine
Rotation der Koordinaten (anticlock) erklärt
Standard-Ellipse Neigung Korrelation r
Koordinaten Korrelierte Achsen
Mit der Transformation
v
u
erfüllen alle Ellipsenpunkte
Tafel cos a
7Iso-Distanz Konturen in 2D Klassifikation
Ellipsen sind in kartesischen Koordinaten
unpraktisch zu zeichnen. Man geht über zur
Darstellung in Polarkoordinaten.
Standard-Ellipse Zeichen-Routine
kartesisch
polar
Es gelten die Transformationen
Zum Zeichnen muß die Ellipsengleichung als
Gleichung in Polarkoordinaten (Vektorlänge in
Abhängigkeit des Winkels a) umgeschrieben werden
8Iso-Distanz Konturen in 2D
Von der Darstellung in Polarkoordinaten kann
einfach in kartesische Koordinaten
zurückgerechnet werden (Setzen der Ellipsenpunkte)
Standard-Ellipse Zeichen-Routine
Setze
damit
Verfahren
1. Variiere a von p bis p ( ein Kreisumlauf).
2. Für jeden Winkel a berechne q tan-1(a).
3. Berechne dann
4. Berechne damit r.
5. Berechne dann x,y
Excel-Sheet
9Multivariate Normalverteilung Klassifikation
1 D-Normal Verteilung
Die Funktion
hat Fläche
Die auf die Fläche 1 normierte Funktion
heißt Normalverteilung (Gauss-Verteilung). Mit
ihr sind Wahrscheinlichkeiten als
Flächen- Anteile für z - Standardvariablen
definierbar.
(Standard-NV)
Kurzübung
10Mahalanobisdistanz Klassifikation
p-variater Fall
Man bemerke daß
ist.
Man habe nun nicht eine, sondern p Variablen
(jeder Messpunkt ist ein p- dimensionaler
Vektor und der Zentroid ist ein p- dimensionaler
Vektor)
mit Zentroid
Mahalanobis- Distanz
Excel-Beispiel 2D
11Multivariate Normalverteilung Klassifikation
p D-Normal Verteilung
Die Funktion
hat Volumen
Die auf Volumen 1 normierte Funktion
heißt multivariate Normalverteilung (multivariate
Gauss-Verteilung). Mit ihr sind
Wahrscheinlichkeiten als Anteile des
Gesamtvolumens eines p-dimensionalen Ellipsoids
definiert.
Die in ihrem Argument auftretende
Mahalanobis-Distanz erfüllt die Bedingung
mit a einem zu setzenden alpha-Fehler Niveau.
Alle Mahalanobisdistanzen D, die diese Bedingung
erfüllen, erzeugen Konturen gleicher
Wahrscheinlichkeit (iso-probability contours) mit
P 1- a in der multivariaten Normalverteilung.
12Multivariate Normalverteilung Klassifikation
2 D-Normal Verteilung
Die multivariate Normalverteilung mit p 2
Variablen (bivariate Normalverteilung) hat die
Form
Die im Argument auftretende Mahalanobis-Distanz
definiert eine Ellipse im zweidimensionalen Raum
für jede Konstante c
Diese ist eine Iso-Probability-Contour im obigen
Sinne (s. multivariate NV, vorherige Folie)
Tafelbetrachtung
13Multivariate Normalverteilung Klassifikation
Bivariate Normalverteilung mit p 2 Variablen
und Korrelation r 0.6
2 D-Normal Verteilung
Density-Plot
Contour-Plot
x2
P0.95
P0.75
P0.5
P0.25
x1
Ellipsen gleicher Wahrscheinlichkeit und
zugehöriges Distanzmaß (quadrierte
Mahalanobis-Distanz)
Excel-Übung
14Iso-Distanz Konturen in 2D
NV-2D-Ellipse Zeichen-Routine
(NV-Ellipse)
3. Berechne dann
Und es gilt
a)
a läuft von p bis p ( ein Kreisumlauf)
Verfahren
b)
c)
Excel-Sheet
15Multivariate Normalverteilung Klassifikation
p D-Normal Verteilung
Die Ellipsen der Form
sind zentriert in
und haben Hauptachsen
mit Eigenwertbedingung
Eine Eigenwertzerlegung der Varianz-Kovarianz
Matrix liefert somit die Hauptachsen des p-
variaten Ellipsoids der multivariaten
Normalverteilung
Beispiel 2D
Länge
Länge
16Minimum Distance Classifier Klassifikation
MDC
Mit der Mahalanobisdistanz für eine Beobachtung
zum Zentroid
der Gruppe cj
definiere die Regel
Gruppiere in Gruppe ci, wenn gilt
MDC-Regel
Die Performance des MDC läßt sich mit großen
Stichproben für die k Gruppen mit einer
Konfusions-Matrix bewerten
allocated to group
Häufigkeit zur Einordnung von Fall (Zeile) in
Gruppe (Spalte)
17Minimum Distance Classifier Klassifikation
Confusion-matrix
Korrekte Klassifizierungen sind die Häufigkeiten
auf der Diagonalen
Hits
Mit den Zeilensummen
und N der Summe aller Häufigkeiten gilt
Erwartete Häufigkeiten bei Zufall (anteilige
Gleichverteilung)
(erwartete Zellhäufigkeit)
mit pj der A-priori Wahrscheinlichkeit der Gruppe
cj
pj kann ggf. aus den empirischen Gruppenstärken
über pj hi/N geschätzt werden, wenn keine
Information über die A-priori Wahrscheinlichkeite
n vorliegt.
18Minimum Distance Classifier Klassifikation
Erwartete Confusion-matrix
Dann ist
die erwartete Hit-Häufigkeit.
Mit
Hits
ist ho normalverteilt über die Approximation der
Binomialverteilung
Erwartete Häufigkeiten bei Zufall (anteilige
Gleichverteilung)
wenn
gilt.
Dann testet der z- Test
die Hitrate des MDC gegen den Zufall.
19Bayesian Classifier Klassifikation
A-priori Wahr- scheinlichkeit der Gruppen
Man habe Information über die A-priori
Wahrscheinlichkeiten der Gruppen cj
nach ihrer
Dann liefert eine Klassifikation der Beobachtung
A-posteriori WK
A-posteriori Wahrscheinlichkeit
eine korrektere Zuordnung als nur nach der
kürzesten Distanz zum Gruppenzentroid.
Regel
Max-Aposteriori WKn Classifier
Gruppiere in Gruppe ci, wenn gilt
Normalverteil-ungsannahme
Um die A-posteriori WKn zu berechnen, muss für
die Likelihood- Funktionen die Annahme der
multivariaten Normalverteilung gelten.
20Bayesian Classifier Klassifikation
Likelihoods
Mit der multivariaten Normalverteilung haben die
Likelihoods die Form
A-posteriori WK
mit
der quadrierten Mahalanobisdistanz zum
Gruppenzentroid
Klassifikations- Raum
Der Klassifikationsraum ist durch alle Gruppen
vollständig partitioniert.
Es gilt
Und wegen der Disjunktheit
Normalverteil-ungsannahme
21Bayesian Classifier Klassifikation
Likelihoods
Da
(Def. der bedingten Wahrscheinlichkeit), folgt
Satz der totalen WK
Und damit
Satz von Bayes
der Satz von Bayes für die A-posteriori WK der
Gruppe ci, gegeben die multivariate Beobachtung
Normalverteil-ungsannahme
Die approximative Gültigkkeit der multivariaten
NV kann durch Q-Q-Plot Methoden überprüft werden.