Title: Chi-i-anden Test
1Chi-i-anden Test
- Repetition
- Goodness of Fit
- Uafhængighed i Kontingenstabeller
2Chi-i-anden Test
- Chi-i-anden test omhandler data, der har form af
antal eller frekvenser. - Antag, at n observationer kan inddeles i k
kategorier. - Lad Oi være antallet af observationer, der falder
i den ite kategori. - Lad Ei være det forventede antal obser-vationer
ite kategori under antagelse af, at en given H0
hypotese er sand.
3Chi-i-anden Teststørrelse
- Oi er faktiske antal observationer i ite
kategori og Ei er det forventede antal
observationer under H0. - Chi-i-anden teststørrelsen er givet ved
- Når stikprøvestørrelsen vokser og k fastholder,
så nærmer X2 sig en Chi-i-anden fordeling. - Bemærk For at chi-i-anden approksimationen er
god skal alle Ei være mindst 5, dvs. vi forventer
mindst 5 observationer i hver kategori.
4Chi-i-anden Test for Goodness of Fit
- Vi opstiller en hypotese om at data x1,,xn er en
stikprøve fra en bestemt fordeling, fx.
multinomial- eller normalfordelingen. - Vi bestemmer, hvordan hvert xi tilhører en af k
kategorier. - Under antagelse af at H0 er sand udregner vi hvor
mange xier vi forventer falder i den jte
kategori, Ej. - Via X2-teststørrelsen sammenligner vi dette med
det faktiske observerede antal Oi.
5Goodness of Fit Multinomial fordelingen
- Multinomial fordelingen er en udvidelse af
binomial fordelingen. - For multinomial fordelingen gælder
- at en observation kan falde i en af k forskellig
kategorier. - sandsynligheden for at en observation falder i
den ite kategori er pi. - summen af pierne er 1.
- Konsekvens Har vi n observationer, så er det
forventede antal observationer i den ite
kategori Einpi.
6Goodness of Fit Multinomial
Nul-hypotesen og alternativ hypotesen H0
Sandsynligheden for hændelserne H1, H2...,Hk er
givet ved p1,p2,...,pk H1
Sandsynligheden for de k hændelser er ikke
specificeret ved nul-hypotesen.
H0 Antag ens sandsynligheder, p1 p2 p3 p4
0.25 og n80 Preference Tan Brown Maroon Black To
tal Observed 12 40 8 20 80 Expected(np) 20 20
20 20 80 (O-E) -8 20 -12 0 0
H0 afvises på signifikansniveau 0.01.
7Goodness of Fit Multinomial
- SPSS Analyze ? Nonparametric Tests ? Chi-square
- Hvis de expected counts er forskellige, så kan
de indsættrs her
8Goodness of Fit Multinomial
- SPSS
- Observede og forventede counts
- Teststørrelse og p-værdi
9Goodness of Fit Normalfordeling
- Hypotese Data x1,,xn, følger en en standard
normalfordeling (N(0,s2) ). - Ide Vi inddeler normalfordelingen i k bidder.
- Vi udregner sandsynligheden for at standard
normalfordelt tal falder i den jte bid. - Dernæst kan vi genbruge multinomal eksemplet.
10Goodness of Fit Normalfordeling
- Vi anvender følgende inddeling -1, -0.44, 0,
0.44 og 1. - Vi har da 6 kategorier
- 1. kategori Z -1
- 2. kategori -1 lt Z -0.44
- 3. kategori -0.44 lt Z 0
- 4. kategori 0 lt Z 0.44
- 5. kategori 0.44 lt Z 1
- 6. kategori 1 lt Z
- Hvad er sandsynligheden for at Z er i 5.
kategori? - Det samme som P0.44 lt Z 1 Areal af 5.
område i figuren 0,1713. (Kan findes vha.
tabel)
11Goodness of Fit Normalfordeling
- Vi kan bestemme sandsynligheden pi for den ite
kategori. - Vi har da 6 sandsynligheder
- 1. kategori p1 0,1578
- 2. kategori p2 0,1713
- 3. kategori p3 0,1700
- 4. kategori p4 0,1700
- 5. kategori p5 0,1713
- 6. kategori p6 0,1578
- Har vi n observationer, forventer vi Einpi
observationer i den ite kategori. - Vi kan nu udregne X2 teststørrelsen.
12Kontingenstabeller
- Hidtil Følger en kategorisk variabel en given
fordeling? - Nu Er to kategoriske variable uafhængige?
- Fx uafhængighed mellem følgende to kategoriske
variable - Jobtype (4 kategorier, Uden, Lavt-, mellem og
højtlønnet) - Helbred (5 kategorier meget dårligt til meget
godt) - Værktøj Kontingenstabeller (cross-tabs)
- I en kontingenstabel er hver celle et antal /
frekvens.
13Kontingenstabeller
- Kontingstabellen består af r rækker og c
kolonner. - Første kategoriske variabel (Helbred) har c
kategorier. - Anden kategoriske variabel (Jobtype) har r
kategorier.
Celle (3,4)
- Oij er antallet af observationer (personer), hvor
Helbred er tilhører ite Helbreds-kategori og
Jobtype jte Jobtype.
14Kontingenstabel
- Ri er rækketotalen, dvs. totale antal
observationer af Jobtype i. - P( i ) P( Jobtype i ) Sandsynlighed for at
en tilfældig valgt person har Jobtype i - P( i ) Ri / n antal med Jobtype i / total
antal personer.
15Kontingenstabel
- Cj er kolonnetotalen, dvs. totale antal
observationer af Helbred j. - P( j ) P( Helbred j ) Sandsynlighed for at
en tilfældig valgt person har Helbredj - P( j ) Cj / n antal med Helbred j / total
antal personer.
16Test for uafhængighed
- X2 teststørrelsen er
- dvs. en sum over alle rækker og søjler.
- X2 følger approksimativt en ?2-fordeling med
(r-1)(c-1) frihedsgrader. - Eij er det forventede antal observationer i celle
(i,j) under antagelse af, at H0 er sand
(uafhængighed). - Hvis P( i n j ) er sandsynligheden for at en
tilfældig valgt person er i celle (i,j), da er
Eij n P( i n j ).
17Kontingenstabel Uafhængighed
- Lad P( i n j ) P( Jobtype i og Helbred j )
- Under H0 (uafhængighed) gælder (pr definition)
- P( i n j ) P( i )P( j )
- Forventede frekvens er (som ved multinomial)
- Eij n P( i n j )
- Fra før har vi P( i ) Ri / n og P( j ) Cj /
n . - Dvs. Eij n (Ri / n )( Cj / n ) RiCj / n.
18Kontingenstabel Eksempel
- To kategoriske variabel
- Industry Service eller Nonservice
- Result Profit eller Loss
- SPSS Analyze ? Descriptive Statistics ?
Crosstabs - Forventede frekvenser og række procenter
tilvælges under Cells.
19Kontingenstabel Eksempel
- H0 Industry og Result er uafhængige
- H1 Der er en sammenhæng ml Industry og Result.
- For 22 tabeller anvendes en kontinuitets
korrektion (såkaldt Yates korrektion) af
teststørrelsen X2
- c2 kolonner og r2 rækker (c-1)(r-1)1
frihedsgrader. - Yates korrigeret X2 26,92.
- Kritisk værdi ?20.05(1) 3,84
- Da 29,92 gt 3,84 forkaster vi H0 dvs. vi
accepterer hypotesen om, at Industry og Result er
afhængige.
20Kontingenstabel Eksempel
- I SPSS vælges Chi-square i Statistics menuen
i Crosstabs.
- Resultat i SPSS. Bemærk Continuity Correction
21Chi-i-anden Test af Andele
- Hidtil Vi har spurgt n personer og analyseret
sammenhængen mellem to kategoriske variable, fx
helbred og jobtype. - Nu Er andelen af forskellige af bestemte
kategorier ens for en række forskellige
populationer? - Eksempler
- Er andelen der stemmer hhv, til venstre, i
midten, til højre den samme for 18-25 årige,
26-35 årige, 36-65 årige og over 65 år? - Er andelen af personer med grøn tandbørste den
samme blandt hjemløse og ikke-hjemløse?
22Chi-i-anden Test af Andele
- Fremgangsmåde Vi bestemmer hvor mange tilfældigt
udvalgte vi vil spørge i hver population (fx i
hver aldersgruppe). - Dvs. vi fastlægger kolonne-totalerne.
- Meget nyttig, hvis en af populationerne naturligt
er meget mindre end de andre, fx hjemløse.
23Chi-i-anden Test af Andele
- Selvom vi kolonne totalerne er fastlagte ændrer
ikke ved udregning af teststørrelsen eller antal
frihedsgrader!! - Vi har stadig
- Hvor Eij er udregnet som før og X2 følger en ?2
fordeling med (r-1)(c-1) frihedsgrader. - Dvs. Eij RiCj / n.
24Test af andele Eksempel
- Er andelen af skades-anmeldelser den samme i tre
aldersgrupper? 100 tilfældige kunder udvalgt i
hver aldersgruppe.
- Forventede frekvenser Eij RiCj / n.
- Antal frihedsgrader (c-1)(r-1) (3-1)(2-1) 2
- Kritisk værdi ?20,05(2) 5,99.
- Teststørrelse X2
25Uduelige piger eller?
- Vi har spurgt 1000 kvinde og 1000 mandlige
kandidater om de har gennemførte deres studie på
normeret tid. - Resultat Mænd 72,5 Kvinder 57,5
- Forskellen er statistisk signifikant!
26Stratificeret Analyse
- Vi har også spurgte om hvilket fakultet folk har
studeret ved (INS eller Samf). - Vi udfører nu analyses separat for hvert
fakultet - (Vi siger vi stratificerer efter fakultet)
27Simpsons Paradoks
- Internt på de to fakulteter er der ingen forskel
mellem mænds og kvinders gennem-førsels procent! - Bemærk Kvinder vil hellere læse et studie, der
er svært at gennemføre på tid. - Mænd er lige modsat
28Flyskræk!
- Passer overskriften?
- Politiken 6/12-07
- Er du tryg ved at flyve?
- Ja 86 i 2005 og 83 i 2007
- Vi antager de har spurgt 1000 tilfældige personer
begge år. - Dvs. 860 svarede ja i 2005 og 830 i 2007.
- H0 hypotese Andelen af utrygge er den samme de
to år!
29Flyskræk!
Observerede frekvenser Oij Observerede frekvenser Oij Observerede frekvenser Oij Observerede frekvenser Oij
Tryg? 2005 2007 Total
Ja 830 860 1690
Nej 170 140 310
Total 1000 1000 2000
- Da det er en 22 tabel bruger vi Yates
korrektionen - Kritisk værdi
- ?20,05(1) 3,84
- Teststørrelse
- X2
Forventede frekvenser Eij Forventede frekvenser Eij Forventede frekvenser Eij Forventede frekvenser Eij
Tryg? 2005 2007 Total
Ja 845 845 1690
Nej 155 155 310
Total 1000 1000 2000