Title: SPSS-cursus inleiding statistiek
1SPSS-cursusinleiding statistiek
2SPSS-cursusinleiding statistiek
3Statistiek
- Waarschijnlijkheidsrekening
- Statistiek
4Waarschijnlijkheidsrekening
- uit het bekende kansen op uitkomsten berekenen
- kans op munt
- kans op 3 munt bij 10 worpen
- bekende
- de werkelijkheid populatie of universum
- een hypothese (veronderstelling over
werkelijkheid)
5Populatie
- Eindige populatie
- alle nederlandse vrouwen
- alle studenten Geneeskunde in Groningen
- Oneindige populatie
- alle mogelijke worpen met een munt
6Populatie
- (verdeling) is bekend
- hoeveel nederlandse vrouwen en hun kenmerken
- bijv. leeftijdsverdeling
- hoeveel studenten Geneeskunde en hun kenmerken
- bijv. verhouding vrouw/ man
- mits munt eerlijk evenveel kans op kruis of munt
7Steekproef
- een willekeurige trekking uit de populatie
(aselect) - 100 nederlandse vrouwen
- 20 studenten Geneeskunde
- 10 worpen met een munt
8Waarschijnlijkheidsrekening
- kans dat 12 (van de 100) vrouwen ouder 60 zijn
- kans dat er minstens 15 (van 20) vrouwelijke
studenten zijn - kans op minstens 8 (van 10) keer munt
9Statistiek
- beschrijvende/ inferentiële statistiek (schatten
en toetsen) - beschrijvende statistiekwat vind je in de
steekproef? tellen (aantallen, gemiddelden,
grafieken, ...) - aantal vrouwen
- gemiddelde leeftijd
- staafdiagram kruis/ munt bij 10 worpen
- scatterplot leeftijd/ waardering
10Statistiek
- inferentiële statistiek (schatten en toetsen)op
grond van uitkomsten in de steekproef parameters
in de populatie schatten en conclusies trekken - 12 van nederlandse vrouwen is ouder dan 60
- er studeren in Groningen meer vrouwen Geneeskunde
dan mannen - de munt is eerlijk
11Statistiek
- Schatten
- uit uitkomsten van een steekproef schatting maken
van de werkelijkheid (populatie)
12Statistiek
- gevonden 12 vrouwen ouder dan 60, hoeveel vrouwen
zullen in de populatie ouder 60 zijn?
(puntschatting P(vgt60) 0,12) - gevonden 15 vrouwelijke studenten, wat is
verhouding man/ vrouw in de populatie?
(P(v)0,75) - gevonden 8 keer munt, kans op munt ?
(P(munt)0.80)
13Statistiek
- bij ander steekproef (toevallig bepaald!)andere
uitkomst20 van de 100 ouder dan 60
P(vgt60)0,2010 vrouwelijke studenten
P(v)0,50 4 keer munt
P(munt)0,40
14Statistiek
- Puntschatting met onzekerheid (standaarddeviatie
(SD), spreiding,interval) - P(vgt60) 0,12 SD0,03
- P(v)0,75 SD0,10
- P(munt)0,8 SD0,13
15Schatting
- Conclusie
- Ik denk dat de fractie vrouwen gt 60 jaar in de
populatie 0,12 is (puntschatting), maar deze
fractie kan best (met 95 waarschijnlijkheid)
liggen tussen 0,06 en 0,18 (puntschatting ? 2
SD)
16Toetsen van hypothesen
- Hypothese veronderstelling over werkelijkheid
(populatie) - munt is eerlijk P(munt) P(kruis)
- minder mannelijke dan vrouwelijke studenten
Geneeskunde
17Stel hypothese
- Stel Nulhypothese (H0) op
- P(munt) P(kruis) 0,5
- P(vrouw) P(man) 0,5
- P(vrouwgt60) 0,2
- Stel Alternatieve hypothese vast (Ha)(situatie
als H0 niet waar is) - P(munt) gt 0,5
- P(vrouw) ? 0,5
- P(vrouwgt60) gt 0,2
18Bepaal kansverdeling onder H0
- waarschijnlijkheidsrekening bij
steekproefgrootte - P(0 munt), P(1 munt), , P(10 munt)
als P(munt) 0,5 - P(0 vrouw), P(1 vrouw), , P(20 vrouw)
als P(vrouw) 0,5
19Trek steekproef
- Trek een aselecte steekproef uit de populatie
- Doe de waarnemingen (tellen, meten, )
20Bepaal kans op gevonden uitkomst
- Dit heet Overschrijdingskans
- Gevonden 8 keer munt
- P(? 8 munt) 0,055 berekening?
- Let op 8, 9, 10 alle bij Ha (P(munt)gt0,5)
- Zou dit kunnen als H0 waar is?
- Ja, de kans is 0,055 !
21Wat vind je van de uitkomst?
- Acht je uitkomst redelijk als H0 waar is?
- Of past uitkomst beter bij Ha?
22Fout I en fout II
- werkelijkheid H0 Ha
- uitkomst H0
- Ha
OK
Fout II
Fout I
OK
23Significantieniveau
- Geef vooraf aan welke kans je redelijk vindtdit
is een keus van de onderzoeker! - 0,05 gebruikelijke significantieniveau
- 0,01 kleinere kans om H0 ten onrechte te
verwerpen, grotere om hem ten onrechte niet te
verwerpen
24 Verwerpen van H0
- als P(uitkomst) lt significantieniveauverwerp
H0, neem Ha aan - anders neem H0 aan
25Conclusie
- P(gevonden vrouw) 0,03
- bij H0 P(vrouw)0,5
- Significantieniveau is 0,05
- Resultaat is significant
- Er zijn niet evenveel vrouwen als mannen
261-zijdig / 2-zijdig toetsen
- Ho is is gelijk aan
- Ha kan zijn
- is ongelijk aan
2-zijdig - is groter dan (of kleiner dan) 1-zijdig
271-zijdig / 2-zijdig toetsen
- 1-zijdig als je tevoren een verwachting hebt over
het alternatief als H0 wordt verworpenBijvoorbeel
d het toedienen van een medicatie om de bloeddruk
te verlagen.Het is slechts interessant als dit
tot verlaging leidt (mits er iets
verandert).Hiervoor moet je een theorie hebben.
281-zijdig / 2-zijdig toetsen
- 2-zijdig als de richting bij verwerpen van H0
niet is te voorspellen.Bijvoorbeeld of vrouwen
beter op een trainingsprogramma reageren dan
mannen.
29 1-zijdig / 2-zijdig toetsen
SD
Overschr.
Overschr
Gem.
301-zijdig / 2-zijdig toetsen
- De verdeling van een toetsingsgrootheid, bijv.
het verschil in gemiddelde leeftijd - Bij 2-zijdig moet je kijken of de waarde van de
toetsingsgrootheid valt in het linker of rechter
staartje, samen een kans van 0,05 (als dat
significantieniveau is)Bij een normale verdeling
zijn de grenzen gt 1,96 en lt -1,96
311-zijdig / 2-zijdig toetsen
- Bij 1-zijdig kijk je in 1 staartje (bijv.
rechts) het gebied omvat dat aan die ene kant
een kans 0,05Bij een normale verdeling is de
grens gt 1,645
32Keus methode
- kansverdeling variabelen
- meetniveau variabelen
- verschil of verband
- steekproef opzet
33Kansverdeling
- De kansverdeling beschrijft de kansen op
uitkomsten - De totale kans, alle uitkomsten samen, 1
- Je hebt continue en discrete kansverdelingen
34Kansverdeling
- Discreet
- slechts bepaalde uitkomsten mogelijk
- man of vrouw
- blauwe, bruine, grijze, groene ogen
- aantal mensen
- elke uitkomst heeft bepaalde kans, andere
uitkomsten onmogelijk, kans 0
35Kansverdeling
- Continu
- alle uikomsten zijn mogelijk
- de getallenrechte, van - oneindig tot oneindig
- snelheid
- afstand
- tijd
36Kansen continu
- Bij continue verdeling kans op uitkomst in
interval - Kans uitkomst lt a 0,05
- Kans op uitkomst gt b 0,20
- Kans op uitkomst tussen a en b 0,75
37 Normale verdeling
SD
Overschr.
Overschr
Gem.
38Kansverdeling
- Bijv. (continue) Normale verdeling (oppervlak
1) - Hoe hoger, hoe groter kans, kans bij gemiddelde
groot, staart klein - De vorm is bepaald
- Plaats en breedte wordt bepaald door Parameters
gemiddelde en SD
39Kansverdeling
- Populatie griekse letters, steekproef
gewone letters - Gemiddelde ? resp. m
- SD ? resp. s
- Corr. Coëff. ? resp. R
- Er zijn ook verdelingen die niet door parameters
worden bepaald parametervrij (non parametric)
40Meetniveau
- Nominaal
- discrete uitkomsten zonder volgorde
- man, vrouw
- oogkleur
- typologie ziekten
41Meetniveau
- Ordinaal
- discrete uitkomsten met volgorde
- verschil uitkomsten onbepaald slecht/ matig
versus matig/ voldoende - slecht/ matig/ voldoende/ goed
- leeftijdsklassen lt20, 20-40, gt40
42Meetniveau
- Interval
- representatie van continue verdeling
- verschil uitkomsten bepaald 5-4 6-5
- tijd in seconden
- afstand in mm
- score op IQ-test
43Meetniveau
- Ratio
- als interval
- met absoluut nulpunt
- temperatuur Celsius Interval
- afstand in meters Ratio
44Centrale tendentie
- Interval (Ratio) gemiddelde
- Ordinaal mediaan
(middelste waarde, 50) - Nominaal - (PM frequenties, modus)
45Spreiding
- Interval (ratio) standaarddeviatie (SD)
- Ordinaal interkwartielenrange
(25 - 75) - Nominaal - (PM frequenties, modus)
46Toetsen op verschil
- 2 onafhankelijke steekproeven
- interval niveau
- Normale verdeling
- Student t-toets
47 Normale verdeling
SD
SD
gem 1.
gem 2.
48Student t-toets onafh. steekpr.
- zijn gemiddelden gelijk (H0) ?
- twee varianten
- varianties gelijk (equal)
- varianties ongelijk (unequal)
49Toetsen op verschil
- 2 onafhankelijke steekproeven
- interval niveau, geen Normale verdeling
- of ordinaal niveau
50Mann-Whitney U-toets
- zijn medianen gelijk (H0) ?
- gemiddelde rangnummers
- U statistic
- standaardnormale benadering U
51Gepaarde waarnemingen
- aan een individu zijn 2 waarnemingen
- bijv. test voor en na training
- is er verschil?
- per individu voor en na vergelijken,verschil per
individu - middelen over de steekproef
52 Toetsing
- Ho geen verschil
- Ha 1 of 2-zijdige verandering
- interval Student t-toets match
- ordinaal Wilcoxon symm. toets
53Samenhang variabelen
- (relatie, verband, correlatie)
- H0 geen samenhang
- Ha wel samenhangpositief groot met
grootnegatief groot met klein
54Samenhang interval
waardeer
positieve samenhang
leeftijd
55Samenhang interval
waardeer
geen samenhang
leeftijd
56Samenhang
- Bij geen samenhang correlatie ? 0
- Perfect positief ?
1 - Perfect negatief ?
- 1 - Significantie bepalen, H0 ? 0
- R ook sterktemaat
57Samenhang
- interval - interval Pearson
(product-moment) - interval - ordinaal Spearman
(rangorde) - ordinaal - ordinaal Spearman
- nominaal - nominaal Chi2 of Kendall tau
58Samenhang
- als variabele verschillend niveauis laagste
bepalend
59Start SPSS
60Chi2
- GESLACHT by OPLEID
- OPLEID
- Row
- 1 2 3 Total
- GESLACHT 1 18 8 1 27
- 66,7 29,6 3,7 58,7
- 2 7 9 3 19
- 36,8 47,4 15,8 41,3
- Column 25 17 4 46
- Total 54,3 37,0 8,7 100,0
61Chi2
- Chi-Square Value DF Sign.
- Pearson 4,64810 2 ,09788
- Likelihood Ratio 4,71664 2 ,09458
- Mantel-Haenszel test for 4,54068 1 ,03310
- linear association
- Minimum Expected Frequency - 1,652
- Cells with Expected Frequency lt5- 2 OF 6(33,3)
- Number of Missing Observations 0
62Chi2
- Ho geen relatie geslacht - opleid
- dan verdeling opleid man vrouw totaal 54,3 -
37,0 - 8,7 (verwachting) - vergelijk gevonden verdelingen
- 66,7 - 29,6 - 3,7 resp.
- 36,8 - 47,4 - 15,8
- hiermee
63Chi2
- (grote) verschillen leiden tot verwerpen H0
- Maat Pearson Sign. 0.09788
- NS op niveau 0,05
- Eis omdat uitkomsten (aantallen) discreet en
Chi2 continu, is voor goede benadering nodig
max. 20 cellen verwachting lt5
64Chi2
- In dit geval 33,3 cellen te klein.
- Dan codes samenvoegen, bijv. opleid laag /
middenhoog
65Staafdiagram aantallen van categorieën hoogte
aantal
Histogram aantallen in klassen oppervlakte
aantal
Kans aantal munt, N10
Leeftijdsverdeling
66Scatterplot leeftijd - waardering
67Binomiale verdeling
- Uitkomst is Succes (vrouw gt 60) of niet
- Binomiale verdeling
- N pogingen N 100
- X Successen X 12
- Succeskans p X/N 0,12
- SD (p(1-p)/N) ½ (0,120,88/100) ½
- 0,0325
68Kans op x successen
- Uitkomst is Succes of niet
- Binomiale verdeling
- Succeskans p
- N pogingen
- Kans dat x van N succes zijn
69Kansverdeling
H0
Ha
70Kansverdeling
lt H0
gtlt Ha gt
71Formule
-
- P(xX p N) pX (1-p)N-X
- p0.5
- N10
- X8
N X
72Berekening
-
- 45
- 0.5 8 0.0039
- 0.5 2 0.25
- 45 0.0039 0.25 0.0439
10 8
10 2
109 2 1
73Berekening
-
- 10
- 0.5 9 0.00195
- 0.5 2 0.5
- 10 0.00195 0.5 0.00975
10 9
10 1
10 1
74Berekening
-
- 1
- 0.5 10 0.000975
- 0.5 0 1
- 1 0.000975 1 0.000975
10 10
10 0
75Berekening
- 0.0439 8
- 0.00975 9
- 0.000975 10
-
- 0.00546