Folie 1 - PowerPoint PPT Presentation

About This Presentation
Title:

Folie 1

Description:

Dazu m ssen wir uns die M glichkeiten vor Augen f hren: (K = Kopf; W = Wappen) WWW, WWK, WKW, KWW, WKK, KWK, KKW und KKK Wir haben folglich 8 M glichkeiten, ... – PowerPoint PPT presentation

Number of Views:119
Avg rating:3.0/5.0
Slides: 118
Provided by: Klau50
Category:
Tags: folie

less

Transcript and Presenter's Notes

Title: Folie 1


1
schlecht
gut
2
Unterschiede messen
Median ist der Punkt, bei dem die eine Hälfte der
Werte oberhalb und die andere unterhalb dieses
Punktes liegt
Median
Mean
0 1 2 3 4
5 6 7 8 9
10
Der Mittelwert wird berechnet durch die Summe
aller Werte geteilt durch dieAnzahl der Werte
3
Mathematisch wird die Berechnung desMittelwertes
so dargestellt
ausgesprochen X Strich oder x quer ist das
Symbol für den Mittelwert
?
dies ist der griechische Großbuchstabe für Sigma
und das sog.Summenzeichen, d.h. alle Messwerte
müssen addiert werden
xi
dieses Zeichen steht für sämtliche Einzelmesswerte
n
und n steht schließlich für die Anzahl der
durchgeführten Messungen
4
Unterschiede messen
  • Zwei weit verbreite, einfache Methoden
  • Zwischen zwei Klassen unterscheiden Gut ?
    Schlecht
  • Zwischen vier (oder einer anderen Anzahl von)
    Perzentilen unterscheiden

5
1
  • Rangreihe
  • Einfache Aussage über Reihenfolge
  • Hohe Reliabilität, etwa durch Paarvergleich
  • Keine Informationen über Abstände
  • Vergleichbarkeit nur bei identischen Ns

2
3
4
5
6
7
8
6
  • Quartile
  • Grobe Aussage über die Stellung in einer
    Reihe
  • Hohe Reliabilität, weil recht simpel
  • Sehr grobe Informationen über Abstände
  • Einfache Vergleichbarkeit über verschiedene
    Bereiche hinweg

1
2
3
4
5
6
7
8
7
Werte Quartil Prozentrang
30 4 100,00
28 4 90,00
21 3 80,00
16 3 70,00
12 3 60,00
11 2 50,00
6 2 40,00
5 2 30,00
1 1 20,00
0 1 10,00
  • Prozentrang (RANG)
  • Aussage über die Stellung in einer Reihe
  • Reliabilität von der Messung abhängig
  • Keine Informationen über Abstände
  • Einfache Vergleichbar- keit über verschiedene
    Bereiche hinweg

8
Werte Relativer Prozentrang
30 100,00
28 93,33
21 70,00
16 53,33
12 40,00
11 36,67
6 20,00
5 16,67
1 3,33
0 ,00
  • Relativer Prozentrang
  • (100Wert)/MaxWert
  • Genaue Aussage über die Stellung in einer
    Reihe
  • Reliabilität von der Messung abhängig
  • Informationen über Abstände
  • Einfache Vergleichbar- keit über verschiedene
    Bereiche hinweg

9
(No Transcript)
10
Werte Rel. Z-Werte Note
30 100,00 1,59844 2
28 93,33 1,41039 2
21 70,00 ,75221 3
16 53,33 ,28208 3
12 40,00 -,09403 4
11 36,67 -,18805 4
6 20,00 -,65818 4
5 16,67 -,75221 4
1 3,33 -1,12831 5
0 ,00 -1,22234 5
11
Unterschiede messen
Keine Variation vorhanden
12
Unterschiede messen
In welchem Maß ist Variation vorhanden?
Erste Ebene Spannbreite (R für range) R Xmax
Xmin
13
Unterschiede messen
In welchem Maß ist Variation vorhanden?
Zweite Ebene Summe der quadrierten Fehler
(Abweichungen)
2
?
(
)
xi
-

n - 1
Mean
14
Unterschiede messen
In welchem Maß ist Variation vorhanden?
Dritte Ebene Standardabweichung
v
2
?
(
)
xi
-
s
n - 1
Mean
15
Unterschiede messen
In welchem Maß ist Variation vorhanden?
Vierte Ebene z-TransformationAbstand jeder
Messung zum Mittelwert, geteilt durch die
Standardabweichung
xi
X
-
z
sx
Mean0
Mean0
Alle Mittewerte werden Null, die Abstände werden
standardisiert die relative Lage jeder Messung
kann verglichen werden
16
(No Transcript)
17
(leicht hinkender Vergleich) Sie wollen
verschieden formatige, verschieden große Bilder
auf eine Seite bringen
18
(leicht hinkender Vergleich) Sie wollen
verschieden formatige, verschieden große Bilder
auf eine Seite bringen
19
Mittelwerte 64,55

49,26 Std.-Abw. 11,623

29,831
20
Wirkung der Z-Transformation
21
Mit Hilfe dieser Grafik wird erkennbar, was die
Prozentränge im Unterschied zu den
Z-standardisierten Werten angeben
Am linken Rand sind dieRohwerte abgetragen, am
oberen Rand dieProzentränge und am unteren
Rand diez-standardisierten Werte.Wie
ersichtlich, hat derhöchste Rohwert
denProzentrang 100 und denZ-Wert 3. Der
niedrigsteRohwert hingegen denProzentrang 1,25
und denZ-Wert -2.
22
Prozentränge
(N 300)
Rohwert Fälle f cum f cum f PR
80
..
..
5 25 25 98
4 18 18 73 24,3 24
3 19 19 55 18,3 18
2 15 15 36 12,0 12
1 12 12 21 7,0 7
0 9 9 9 3,0 3
300 100 9 x
23
sog. Absoluter Rangwert 1. Rang 2. Rang/2
1,5
Werte mal 100/Max-Wert 2100 200/30 6,66666
Relative Rangfolge in 20 100 1,5 x
Z-Transformation
24
(No Transcript)
25
(No Transcript)
26
(No Transcript)
27
(No Transcript)
28
(No Transcript)
29
(No Transcript)
30
(No Transcript)
31
(No Transcript)
32
(No Transcript)
33
(No Transcript)
34
(No Transcript)
35
(No Transcript)
36
Umwandlung eines numerischen Wertes in einen
kategorialen Wert
37
Gült. N Mittelw. Median Minimum Maximum Stdabw.
WRITING 80 99,82004 99,56863 93,51375 109,1118 3,377652
Deskriptive Statistik (School perfomance)

38
Mittelwert Arithmetisches Mittel Summe aller
beobachteten Merkmalswerte dividiert durch
die Anzahl der Beobachtungen Median (auch
Zentral- oder 50 Wert) Der Median ist der
Wert für den gilt, dass 50 aller Werte
größer oder gleich sind. Der Median
halbiert die Stichprobenverteilung
39
Gült. N Mittelw. Median Minimum Maximum Stdabw.
WRITING 90 121,5067 100,1944 93,51375 410,0000 66,48269
Deskriptive Statistik (School perfomance)
40
Gült. N Mittelw. Median Minimum Maximum Stdabw.
WRITING 80 99,82004 99,56863 93,51375 109,1118 3,377652
Gült. N Mittelw. Median Minimum Maximum Stdabw.
WRITING 90 121,5067 100,1944 93,51375 410,0000 66,48269
41
(No Transcript)
42
Umwandlung eines numerischen Wertes in einen
kategorialen Wert
43
Gült. N Mittelw. Median Minimum Maximum Stdabw.
WRITING 80 99,82004 99,56863 93,51375 109,1118 3,377652
Deskriptive Statistik (School perfomance)

44
Mittelwert Arithmetisches Mittel Summe aller
beobachteten Merkmalswerte dividiert durch
die Anzahl der Beobachtungen Median (auch
Zentral- oder 50 Wert) Der Median ist der
Wert für den gilt, dass 50 aller Werte
größer oder gleich sind. Der Median
halbiert die Stichprobenverteilung
45
Gült. N Mittelw. Median Minimum Maximum Stdabw.
WRITING 90 121,5067 100,1944 93,51375 410,0000 66,48269
Deskriptive Statistik (School perfomance)
46
Gült. N Mittelw. Median Minimum Maximum Stdabw.
WRITING 80 99,82004 99,56863 93,51375 109,1118 3,377652
Gült. N Mittelw. Median Minimum Maximum Stdabw.
WRITING 90 121,5067 100,1944 93,51375 410,0000 66,48269
47
(No Transcript)
48
Gruppenzugehörigkeit A
Gruppenzugehörigkeit B
Gruppenzugehörigkeit C
49
Gibt es Muster in der Verteilung?
50
(No Transcript)
51
(No Transcript)
52
(No Transcript)
53
Kelchlänge Kelchbreite Blattlänge Blattbreite Iristyp
1 5 3,3 1,4 0,2 Setosa
2 6,4 2,8 5,6 2,2 Virginic
3 6,5 2,8 4,6 1,5 Versicol
4 6,7 3,1 5,6 2,4 Virginic
5 6,3 2,8 5,1 1,5 Virginic
6 4,6 3,4 1,4 0,3 Setosa
7 6,9 3,1 5,1 2,3 Virginic
8 6,2 2,2 4,5 1,5 Versicol
9 5,9 3,2 4,8 1,8 Versicol
10 4,6 3,6 1 0,2 Setosa
11 6,1 3 4,6 1,4 Versicol
12 6 2,7 5,1 1,6 Versicol
13 6,5 3 5,2 2 Virginic
14 5,6 2,5 3,9 1,1 Versicol
15 6,5 3 5,5 1,8 Virginic
16 5,8 2,7 5,1 1,9 Virginic
17 6,8 3,2 5,9 2,3 Virginic
18 5,1 3,3 1,7 0,5 Setosa
19 5,7 2,8 4,5 1,3 Versicol
20 6,2 3,4 5,4 2,3 Virginic
21 7,7 3,8 6,7 2,2 Virginic
22 6,3 3,3 4,7 1,6 Versicol
23 6,7 3,3 5,7 2,5 Virginic
24 7,6 3 6,6 2,1 Virginic
25 4,9 2,5 4,5 1,7 Virginic
Fisher (1936) Irisdaten Länge und Breite von
Blättern und Kelchen für 3 Iristypen
Durch was unterscheidensich die drei Iristypen?

54
CART(classificationand regression trees)
  • Kategoriale Werte (gut/schlecht)
  • Metrische Werte (1, 2, 3, 4, ..)Nominale,
    Ordinale Werte

Split Welche Variable trennt am besten bei
welchem Wert?
55
(No Transcript)
56
(No Transcript)
57
(No Transcript)
58
(No Transcript)
59
(No Transcript)
60
(No Transcript)
61
(No Transcript)
62
(No Transcript)
63
(No Transcript)
64
(No Transcript)
65
(No Transcript)
66
(No Transcript)
67
(No Transcript)
68
(No Transcript)
69
(No Transcript)
70
(No Transcript)
71
Fehlklassifikationsmatrix Lernstichprobe
(Irisdat) Matrix progn. (Zeile) x beob. (Spalte)
Lernstichprobe N 150
Klasse - Setosa Klasse - Versicol Klasse - Virginic
Setosa 0 0
Versicol 0 4
Virginic 0 2
Prognost. Klasse x Beob. Klasse n's (Irisdat)
Matrix progn. (Zeile) x beob. (Spalte)
Lernstichprobe N 150

Klasse - Setosa Klasse - Versicol Klasse - Virginic
Setosa 50 0 0
Versicol 0 48 4
Virginic 0 2 46
72
Split-Bedingung (Irisdat) Split-Bedingung je
Knoten
Split - Konst. Split - Variable
1 -2,09578 Blattlänge
2
3 -1,64421 Blattbreite



73
(No Transcript)
74
(No Transcript)
75
(No Transcript)
76
  • Zwei, von vielen Problemen
  • Feature Choise
  • Overfitting, Underfitting

77
  • Zwei, von vielen Problemen
  • Feature Choise
  • Overfitting, Underfitting

78
Kategoriale Splits
b
a
Bivariate Splits
lt 0,5
gt 0,5
Multivariate Splits
lt 0,5
gt 0,5, lt 1,8
gt 1,8
79
Wie kann man dieses Problem lösen? Etwa mit
Hilfe einer sog. Kreuzvalidierung
Alle Daten
Teilmenge
Anwendung auf andere Teilmenge
Analyse und Modellbildung
80
Daten
Trainings-daten
Daten teilen
Validierungs-daten
Modell-bewertung
81
Vierter Schritt Wovon ist gut oder schlecht
abhängig? Güte der erreichten Aufklärung
überprüfen
82
(No Transcript)
83
Practical Significance
Statistical Significance
84
Practical Significance
50 Datensatz
Datensatz
Modell/Zusammenhang
50 Datensatz
Statistical Significance
Modell/Zusammenhang Zufall?
Zufall
Modell/Zusammenhang gt/lt Zufall?
Was, wenn keinZusammenhang?
85
Zusammenfassung der behandelten methodischen
Ansätze
Eine bislang unbehandelte Frage lautet Wie
aussagekräftig sind die jeweils gewonnenen
Befunde?
86
Folgende Hypothese soll geprüft werden H0
Person A besitzt keine hellseherischen
Fähigkeiten H1 Person A verfügt über
hellseherische Fähigkeiten Unter welchen
Bedingungen kann H0 bestätigt/verworfen
werden? Unter welchen Bedingungen kann H1
bestätigt/verworfen werden?Es gibt
Konventionen, die als Grundlage der
Entscheidunggenutzt werden können/sollten Das
Signifikanzniveau.
Irrtumswahrscheinlichkeit Bedeutung Symbolisierung
p gt 0,05 nicht signifikant ns
p lt 0,05 signifikant
p lt 0,01 sehr signifikant
p lt 0,001 höchst signifikant
87
Wie groß ist die Wahrscheinlichkeit dreimal
Kopf zu erhalten, wenn drei mal eine Münze
geworfen wird? Dazu müssen wir uns die
Möglichkeiten vor Augen führen (K Kopf W
Wappen) WWW, WWK, WKW, KWW, WKK, KWK, KKW und
KKK Wir haben folglich 8 Möglichkeiten, davon
erfüllt eine unsere Bedingung. Die
Wahrscheinlichkeit p ist demnach 1/8 oder 0,125.
88
Wahrscheinlichkeit p bei drei Würfen
89
Wie groß ist die Wahrscheinlichkeit viermal
Kopf zu erhalten, wenn vier mal eine Münze
geworfen wird? Dazu erneut die Möglichkeiten (K
Kopf W Wappen) W W W W K K K K W W K K K W
K W W W W K K K K W W K K W W K W K W W K W K K W
K K K W W W K W W K W K K K W W KK W W W W K K
K Wir haben folglich 16 Möglichkeiten, davon
erfüllt eine unsere Bedingung. Die
Wahrscheinlichkeit p ist demnach 1/16 oder
0,0625.
90
Signifikanzstufen
Irrtumswahrscheinlichkeit Bedeutung Symbolisierung
p gt 0,05 nicht signifikant ns
p lt 0,05 signifikant
p lt 0,01 sehr signifikant
p lt 0,001 höchst signifikant
91
Ein Wert von p 0.05 besagt unter der
Annahme,dass kein Effekt existiert, dass
vereinfacht aus-gedrückt, puristische Methodiker
mögen mit derStirn runzeln bei dieser
Stichprobengröße einmindestens so großer Effekt
nur in 5 allervergleichbar angelegter Studien
beobachtet werdenkann.
Rost 2007, 81
92
Irrtumswahrscheinlichkeit Ein p 0,03
bedeutet Die Wahrscheinlichkeit, dass unter der
Annahme, die Nullhypothese sei richtig, das
gegebeneUntersuchungsergebnis oder ein noch
extremeresauftritt, beträgt 0,03 oder 3.
Signifikanzstufen
p lt 0,05 signifikant
p lt 0,01 sehr signifikant
p lt 0,001 höchst signifikant
93
Ergebnis einer hypothetischen Studie, in der die
Ausbildung von Paaren verglichen wird (aus
Sedlmeier Renkewitz 2008, 370)
Partner Partnerin Vorzeichen
Studium Realschule
Gymnasium Realschule
Realschule Gymnasium -

-


-



Es finden sichsomit 7 positiveVorzeichen. Ist
das Ergebnisauf dem 5Niveau signifikant? Wie
hoch ist dieWahrscheinlichkeitfür 0, 1, 2
etc.positive Vorzeichen?
Vorzeichentest nach Fischer
94
(No Transcript)
95
  • Wenn, wie im vorliegenden Fall, von zehn Paaren
    sieben einpositives Vorzeichen aufweisen
    (Bildungsabschluss des männlichen Partners höher
    als der des weiblich), dann liegt die
    Wahrscheinlichkeit dafür
  • 0,1
  • 1,0
  • 4,4
  • 11,7
  • 17,2
  • Es wäre gemäß der Konvention also falsch,
    darausirgendwelche Schlussfolgerungen zu ziehen,
    weil ns.

96
Erstellen einer einfachen Probedatei mit
folgendem Inhalt
97
Bei zwei Beobachtungen pro Schulform ergeben
sich damit 3 mal 8 24 Kombinationsmöglichkeiten

? Schulform Abschluss
1 1 0
2 1 0

3 1 1
4 1 1

5 1 1
6 1 0

7 1 0
8 1 1

98
Die Wahrscheinlichkeit p ist demnach für eine
Abweichung von einem Fall bei sechs
Beobachtungen 01/06 entspricht der
Wahrscheinlichkeit vom 8/24 p 0,33333
99
(No Transcript)
100
(No Transcript)
101
(No Transcript)
102
(No Transcript)
103
(No Transcript)
104
(No Transcript)
105
(No Transcript)
106
(No Transcript)
107
(No Transcript)
108
N 80
109
N 4
110
N 8
111
N 16
112
(No Transcript)
113
N 80
114
N 4
115
N 4
116
N 8
117
N 16
Write a Comment
User Comments (0)
About PowerShow.com