Title: Folie 1
1schlecht
gut
2Unterschiede messen
Median ist der Punkt, bei dem die eine Hälfte der
Werte oberhalb und die andere unterhalb dieses
Punktes liegt
Median
Mean
0 1 2 3 4
5 6 7 8 9
10
Der Mittelwert wird berechnet durch die Summe
aller Werte geteilt durch dieAnzahl der Werte
3Mathematisch wird die Berechnung desMittelwertes
so dargestellt
ausgesprochen X Strich oder x quer ist das
Symbol für den Mittelwert
?
dies ist der griechische Großbuchstabe für Sigma
und das sog.Summenzeichen, d.h. alle Messwerte
müssen addiert werden
xi
dieses Zeichen steht für sämtliche Einzelmesswerte
n
und n steht schließlich für die Anzahl der
durchgeführten Messungen
4Unterschiede messen
- Zwei weit verbreite, einfache Methoden
- Zwischen zwei Klassen unterscheiden Gut ?
Schlecht - Zwischen vier (oder einer anderen Anzahl von)
Perzentilen unterscheiden
51
- Rangreihe
- Einfache Aussage über Reihenfolge
- Hohe Reliabilität, etwa durch Paarvergleich
- Keine Informationen über Abstände
- Vergleichbarkeit nur bei identischen Ns
2
3
4
5
6
7
8
6- Quartile
- Grobe Aussage über die Stellung in einer
Reihe - Hohe Reliabilität, weil recht simpel
- Sehr grobe Informationen über Abstände
- Einfache Vergleichbarkeit über verschiedene
Bereiche hinweg
1
2
3
4
5
6
7
8
7Werte Quartil Prozentrang
30 4 100,00
28 4 90,00
21 3 80,00
16 3 70,00
12 3 60,00
11 2 50,00
6 2 40,00
5 2 30,00
1 1 20,00
0 1 10,00
- Prozentrang (RANG)
- Aussage über die Stellung in einer Reihe
- Reliabilität von der Messung abhängig
- Keine Informationen über Abstände
- Einfache Vergleichbar- keit über verschiedene
Bereiche hinweg
8Werte Relativer Prozentrang
30 100,00
28 93,33
21 70,00
16 53,33
12 40,00
11 36,67
6 20,00
5 16,67
1 3,33
0 ,00
- Relativer Prozentrang
- (100Wert)/MaxWert
- Genaue Aussage über die Stellung in einer
Reihe - Reliabilität von der Messung abhängig
- Informationen über Abstände
- Einfache Vergleichbar- keit über verschiedene
Bereiche hinweg
9(No Transcript)
10Werte Rel. Z-Werte Note
30 100,00 1,59844 2
28 93,33 1,41039 2
21 70,00 ,75221 3
16 53,33 ,28208 3
12 40,00 -,09403 4
11 36,67 -,18805 4
6 20,00 -,65818 4
5 16,67 -,75221 4
1 3,33 -1,12831 5
0 ,00 -1,22234 5
11Unterschiede messen
Keine Variation vorhanden
12Unterschiede messen
In welchem Maß ist Variation vorhanden?
Erste Ebene Spannbreite (R für range) R Xmax
Xmin
13Unterschiede messen
In welchem Maß ist Variation vorhanden?
Zweite Ebene Summe der quadrierten Fehler
(Abweichungen)
2
?
(
)
xi
-
s²
n - 1
Mean
14Unterschiede messen
In welchem Maß ist Variation vorhanden?
Dritte Ebene Standardabweichung
v
2
?
(
)
xi
-
s
n - 1
Mean
15Unterschiede messen
In welchem Maß ist Variation vorhanden?
Vierte Ebene z-TransformationAbstand jeder
Messung zum Mittelwert, geteilt durch die
Standardabweichung
xi
X
-
z
sx
Mean0
Mean0
Alle Mittewerte werden Null, die Abstände werden
standardisiert die relative Lage jeder Messung
kann verglichen werden
16(No Transcript)
17(leicht hinkender Vergleich) Sie wollen
verschieden formatige, verschieden große Bilder
auf eine Seite bringen
18(leicht hinkender Vergleich) Sie wollen
verschieden formatige, verschieden große Bilder
auf eine Seite bringen
19Mittelwerte 64,55
49,26 Std.-Abw. 11,623
29,831
20Wirkung der Z-Transformation
21Mit Hilfe dieser Grafik wird erkennbar, was die
Prozentränge im Unterschied zu den
Z-standardisierten Werten angeben
Am linken Rand sind dieRohwerte abgetragen, am
oberen Rand dieProzentränge und am unteren
Rand diez-standardisierten Werte.Wie
ersichtlich, hat derhöchste Rohwert
denProzentrang 100 und denZ-Wert 3. Der
niedrigsteRohwert hingegen denProzentrang 1,25
und denZ-Wert -2.
22Prozentränge
(N 300)
Rohwert Fälle f cum f cum f PR
80
..
..
5 25 25 98
4 18 18 73 24,3 24
3 19 19 55 18,3 18
2 15 15 36 12,0 12
1 12 12 21 7,0 7
0 9 9 9 3,0 3
300 100 9 x
23 sog. Absoluter Rangwert 1. Rang 2. Rang/2
1,5
Werte mal 100/Max-Wert 2100 200/30 6,66666
Relative Rangfolge in 20 100 1,5 x
Z-Transformation
24(No Transcript)
25(No Transcript)
26(No Transcript)
27(No Transcript)
28(No Transcript)
29(No Transcript)
30(No Transcript)
31(No Transcript)
32(No Transcript)
33(No Transcript)
34(No Transcript)
35(No Transcript)
36Umwandlung eines numerischen Wertes in einen
kategorialen Wert
37Gült. N Mittelw. Median Minimum Maximum Stdabw.
WRITING 80 99,82004 99,56863 93,51375 109,1118 3,377652
Deskriptive Statistik (School perfomance)
38Mittelwert Arithmetisches Mittel Summe aller
beobachteten Merkmalswerte dividiert durch
die Anzahl der Beobachtungen Median (auch
Zentral- oder 50 Wert) Der Median ist der
Wert für den gilt, dass 50 aller Werte
größer oder gleich sind. Der Median
halbiert die Stichprobenverteilung
39Gült. N Mittelw. Median Minimum Maximum Stdabw.
WRITING 90 121,5067 100,1944 93,51375 410,0000 66,48269
Deskriptive Statistik (School perfomance)
40Gült. N Mittelw. Median Minimum Maximum Stdabw.
WRITING 80 99,82004 99,56863 93,51375 109,1118 3,377652
Gült. N Mittelw. Median Minimum Maximum Stdabw.
WRITING 90 121,5067 100,1944 93,51375 410,0000 66,48269
41(No Transcript)
42Umwandlung eines numerischen Wertes in einen
kategorialen Wert
43Gült. N Mittelw. Median Minimum Maximum Stdabw.
WRITING 80 99,82004 99,56863 93,51375 109,1118 3,377652
Deskriptive Statistik (School perfomance)
44Mittelwert Arithmetisches Mittel Summe aller
beobachteten Merkmalswerte dividiert durch
die Anzahl der Beobachtungen Median (auch
Zentral- oder 50 Wert) Der Median ist der
Wert für den gilt, dass 50 aller Werte
größer oder gleich sind. Der Median
halbiert die Stichprobenverteilung
45Gült. N Mittelw. Median Minimum Maximum Stdabw.
WRITING 90 121,5067 100,1944 93,51375 410,0000 66,48269
Deskriptive Statistik (School perfomance)
46Gült. N Mittelw. Median Minimum Maximum Stdabw.
WRITING 80 99,82004 99,56863 93,51375 109,1118 3,377652
Gült. N Mittelw. Median Minimum Maximum Stdabw.
WRITING 90 121,5067 100,1944 93,51375 410,0000 66,48269
47(No Transcript)
48Gruppenzugehörigkeit A
Gruppenzugehörigkeit B
Gruppenzugehörigkeit C
49Gibt es Muster in der Verteilung?
50(No Transcript)
51(No Transcript)
52(No Transcript)
53Kelchlänge Kelchbreite Blattlänge Blattbreite Iristyp
1 5 3,3 1,4 0,2 Setosa
2 6,4 2,8 5,6 2,2 Virginic
3 6,5 2,8 4,6 1,5 Versicol
4 6,7 3,1 5,6 2,4 Virginic
5 6,3 2,8 5,1 1,5 Virginic
6 4,6 3,4 1,4 0,3 Setosa
7 6,9 3,1 5,1 2,3 Virginic
8 6,2 2,2 4,5 1,5 Versicol
9 5,9 3,2 4,8 1,8 Versicol
10 4,6 3,6 1 0,2 Setosa
11 6,1 3 4,6 1,4 Versicol
12 6 2,7 5,1 1,6 Versicol
13 6,5 3 5,2 2 Virginic
14 5,6 2,5 3,9 1,1 Versicol
15 6,5 3 5,5 1,8 Virginic
16 5,8 2,7 5,1 1,9 Virginic
17 6,8 3,2 5,9 2,3 Virginic
18 5,1 3,3 1,7 0,5 Setosa
19 5,7 2,8 4,5 1,3 Versicol
20 6,2 3,4 5,4 2,3 Virginic
21 7,7 3,8 6,7 2,2 Virginic
22 6,3 3,3 4,7 1,6 Versicol
23 6,7 3,3 5,7 2,5 Virginic
24 7,6 3 6,6 2,1 Virginic
25 4,9 2,5 4,5 1,7 Virginic
Fisher (1936) Irisdaten Länge und Breite von
Blättern und Kelchen für 3 Iristypen
Durch was unterscheidensich die drei Iristypen?
54CART(classificationand regression trees)
- Kategoriale Werte (gut/schlecht)
- Metrische Werte (1, 2, 3, 4, ..)Nominale,
Ordinale Werte
Split Welche Variable trennt am besten bei
welchem Wert?
55(No Transcript)
56(No Transcript)
57(No Transcript)
58(No Transcript)
59(No Transcript)
60(No Transcript)
61(No Transcript)
62(No Transcript)
63(No Transcript)
64(No Transcript)
65(No Transcript)
66(No Transcript)
67(No Transcript)
68(No Transcript)
69(No Transcript)
70(No Transcript)
71Fehlklassifikationsmatrix Lernstichprobe
(Irisdat) Matrix progn. (Zeile) x beob. (Spalte)
Lernstichprobe N 150
Klasse - Setosa Klasse - Versicol Klasse - Virginic
Setosa 0 0
Versicol 0 4
Virginic 0 2
Prognost. Klasse x Beob. Klasse n's (Irisdat)
Matrix progn. (Zeile) x beob. (Spalte)
Lernstichprobe N 150
Klasse - Setosa Klasse - Versicol Klasse - Virginic
Setosa 50 0 0
Versicol 0 48 4
Virginic 0 2 46
72Split-Bedingung (Irisdat) Split-Bedingung je
Knoten
Split - Konst. Split - Variable
1 -2,09578 Blattlänge
2
3 -1,64421 Blattbreite
73(No Transcript)
74(No Transcript)
75(No Transcript)
76- Zwei, von vielen Problemen
- Feature Choise
- Overfitting, Underfitting
77- Zwei, von vielen Problemen
- Feature Choise
- Overfitting, Underfitting
78Kategoriale Splits
b
a
Bivariate Splits
lt 0,5
gt 0,5
Multivariate Splits
lt 0,5
gt 0,5, lt 1,8
gt 1,8
79Wie kann man dieses Problem lösen? Etwa mit
Hilfe einer sog. Kreuzvalidierung
Alle Daten
Teilmenge
Anwendung auf andere Teilmenge
Analyse und Modellbildung
80Daten
Trainings-daten
Daten teilen
Validierungs-daten
Modell-bewertung
81Vierter Schritt Wovon ist gut oder schlecht
abhängig? Güte der erreichten Aufklärung
überprüfen
82(No Transcript)
83Practical Significance
Statistical Significance
84Practical Significance
50 Datensatz
Datensatz
Modell/Zusammenhang
50 Datensatz
Statistical Significance
Modell/Zusammenhang Zufall?
Zufall
Modell/Zusammenhang gt/lt Zufall?
Was, wenn keinZusammenhang?
85Zusammenfassung der behandelten methodischen
Ansätze
Eine bislang unbehandelte Frage lautet Wie
aussagekräftig sind die jeweils gewonnenen
Befunde?
86Folgende Hypothese soll geprüft werden H0
Person A besitzt keine hellseherischen
Fähigkeiten H1 Person A verfügt über
hellseherische Fähigkeiten Unter welchen
Bedingungen kann H0 bestätigt/verworfen
werden? Unter welchen Bedingungen kann H1
bestätigt/verworfen werden?Es gibt
Konventionen, die als Grundlage der
Entscheidunggenutzt werden können/sollten Das
Signifikanzniveau.
Irrtumswahrscheinlichkeit Bedeutung Symbolisierung
p gt 0,05 nicht signifikant ns
p lt 0,05 signifikant
p lt 0,01 sehr signifikant
p lt 0,001 höchst signifikant
87Wie groß ist die Wahrscheinlichkeit dreimal
Kopf zu erhalten, wenn drei mal eine Münze
geworfen wird? Dazu müssen wir uns die
Möglichkeiten vor Augen führen (K Kopf W
Wappen) WWW, WWK, WKW, KWW, WKK, KWK, KKW und
KKK Wir haben folglich 8 Möglichkeiten, davon
erfüllt eine unsere Bedingung. Die
Wahrscheinlichkeit p ist demnach 1/8 oder 0,125.
88Wahrscheinlichkeit p bei drei Würfen
89Wie groß ist die Wahrscheinlichkeit viermal
Kopf zu erhalten, wenn vier mal eine Münze
geworfen wird? Dazu erneut die Möglichkeiten (K
Kopf W Wappen) W W W W K K K K W W K K K W
K W W W W K K K K W W K K W W K W K W W K W K K W
K K K W W W K W W K W K K K W W KK W W W W K K
K Wir haben folglich 16 Möglichkeiten, davon
erfüllt eine unsere Bedingung. Die
Wahrscheinlichkeit p ist demnach 1/16 oder
0,0625.
90Signifikanzstufen
Irrtumswahrscheinlichkeit Bedeutung Symbolisierung
p gt 0,05 nicht signifikant ns
p lt 0,05 signifikant
p lt 0,01 sehr signifikant
p lt 0,001 höchst signifikant
91Ein Wert von p 0.05 besagt unter der
Annahme,dass kein Effekt existiert, dass
vereinfacht aus-gedrückt, puristische Methodiker
mögen mit derStirn runzeln bei dieser
Stichprobengröße einmindestens so großer Effekt
nur in 5 allervergleichbar angelegter Studien
beobachtet werdenkann.
Rost 2007, 81
92Irrtumswahrscheinlichkeit Ein p 0,03
bedeutet Die Wahrscheinlichkeit, dass unter der
Annahme, die Nullhypothese sei richtig, das
gegebeneUntersuchungsergebnis oder ein noch
extremeresauftritt, beträgt 0,03 oder 3.
Signifikanzstufen
p lt 0,05 signifikant
p lt 0,01 sehr signifikant
p lt 0,001 höchst signifikant
93Ergebnis einer hypothetischen Studie, in der die
Ausbildung von Paaren verglichen wird (aus
Sedlmeier Renkewitz 2008, 370)
Partner Partnerin Vorzeichen
Studium Realschule
Gymnasium Realschule
Realschule Gymnasium -
-
-
Es finden sichsomit 7 positiveVorzeichen. Ist
das Ergebnisauf dem 5Niveau signifikant? Wie
hoch ist dieWahrscheinlichkeitfür 0, 1, 2
etc.positive Vorzeichen?
Vorzeichentest nach Fischer
94(No Transcript)
95- Wenn, wie im vorliegenden Fall, von zehn Paaren
sieben einpositives Vorzeichen aufweisen
(Bildungsabschluss des männlichen Partners höher
als der des weiblich), dann liegt die
Wahrscheinlichkeit dafür - 0,1
- 1,0
- 4,4
- 11,7
- 17,2
- Es wäre gemäß der Konvention also falsch,
darausirgendwelche Schlussfolgerungen zu ziehen,
weil ns.
96Erstellen einer einfachen Probedatei mit
folgendem Inhalt
97Bei zwei Beobachtungen pro Schulform ergeben
sich damit 3 mal 8 24 Kombinationsmöglichkeiten
? Schulform Abschluss
1 1 0
2 1 0
3 1 1
4 1 1
5 1 1
6 1 0
7 1 0
8 1 1
98Die Wahrscheinlichkeit p ist demnach für eine
Abweichung von einem Fall bei sechs
Beobachtungen 01/06 entspricht der
Wahrscheinlichkeit vom 8/24 p 0,33333
99(No Transcript)
100(No Transcript)
101(No Transcript)
102(No Transcript)
103(No Transcript)
104(No Transcript)
105(No Transcript)
106(No Transcript)
107(No Transcript)
108N 80
109N 4
110N 8
111N 16
112(No Transcript)
113N 80
114N 4
115N 4
116N 8
117N 16