Chi-i-anden Test - PowerPoint PPT Presentation

1 / 29
About This Presentation
Title:

Chi-i-anden Test

Description:

Chi-i-anden Test Repetition Goodness of Fit Uafh ngighed i Kontingenstabeller Chi-i-anden Test Chi-i-anden test omhandler data, der har form af antal eller frekvenser. – PowerPoint PPT presentation

Number of Views:201
Avg rating:3.0/5.0
Slides: 30
Provided by: KasperKli2
Category:
Tags: anden | chi | square | test

less

Transcript and Presenter's Notes

Title: Chi-i-anden Test


1
Chi-i-anden Test
  • Repetition
  • Goodness of Fit
  • Uafhængighed i Kontingenstabeller

2
Chi-i-anden Test
  • Chi-i-anden test omhandler data, der har form af
    antal eller frekvenser.
  • Antag, at n observationer kan inddeles i k
    kategorier.
  • Lad Oi være antallet af observationer, der falder
    i den ite kategori.
  • Lad Ei være det forventede antal obser-vationer
    ite kategori under antagelse af, at en given H0
    hypotese er sand.

3
Chi-i-anden Teststørrelse
  • Oi er faktiske antal observationer i ite
    kategori og Ei er det forventede antal
    observationer under H0.
  • Chi-i-anden teststørrelsen er givet ved
  • Når stikprøvestørrelsen vokser og k fastholder,
    så nærmer X2 sig en Chi-i-anden fordeling.
  • Bemærk For at chi-i-anden approksimationen er
    god skal alle Ei være mindst 5, dvs. vi forventer
    mindst 5 observationer i hver kategori.

4
Chi-i-anden Test for Goodness of Fit
  • Vi opstiller en hypotese om at data x1,,xn er en
    stikprøve fra en bestemt fordeling, fx.
    multinomial- eller normalfordelingen.
  • Vi bestemmer, hvordan hvert xi tilhører en af k
    kategorier.
  • Under antagelse af at H0 er sand udregner vi hvor
    mange xier vi forventer falder i den jte
    kategori, Ej.
  • Via X2-teststørrelsen sammenligner vi dette med
    det faktiske observerede antal Oi.

5
Goodness of Fit Multinomial fordelingen
  • Multinomial fordelingen er en udvidelse af
    binomial fordelingen.
  • For multinomial fordelingen gælder
  • at en observation kan falde i en af k forskellig
    kategorier.
  • sandsynligheden for at en observation falder i
    den ite kategori er pi.
  • summen af pierne er 1.
  • Konsekvens Har vi n observationer, så er det
    forventede antal observationer i den ite
    kategori Einpi.

6
Goodness of Fit Multinomial
Nul-hypotesen og alternativ hypotesen H0
Sandsynligheden for hændelserne H1, H2...,Hk er
givet ved p1,p2,...,pk H1
Sandsynligheden for de k hændelser er ikke
specificeret ved nul-hypotesen.
H0 Antag ens sandsynligheder, p1 p2 p3 p4
0.25 og n80 Preference Tan Brown Maroon Black To
tal Observed 12 40 8 20 80 Expected(np) 20 20
20 20 80 (O-E) -8 20 -12 0 0
H0 afvises på signifikansniveau 0.01.
7
Goodness of Fit Multinomial
  • SPSS Analyze ? Nonparametric Tests ? Chi-square
  • Hvis de expected counts er forskellige, så kan
    de indsættrs her

8
Goodness of Fit Multinomial
  • SPSS
  • Observede og forventede counts
  • Teststørrelse og p-værdi

9
Goodness of Fit Normalfordeling
  • Hypotese Data x1,,xn, følger en en standard
    normalfordeling (N(0,s2) ).
  • Ide Vi inddeler normalfordelingen i k bidder.
  • Vi udregner sandsynligheden for at standard
    normalfordelt tal falder i den jte bid.
  • Dernæst kan vi genbruge multinomal eksemplet.

10
Goodness of Fit Normalfordeling
  • Vi anvender følgende inddeling -1, -0.44, 0,
    0.44 og 1.
  • Vi har da 6 kategorier
  • 1. kategori Z -1
  • 2. kategori -1 lt Z -0.44
  • 3. kategori -0.44 lt Z 0
  • 4. kategori 0 lt Z 0.44
  • 5. kategori 0.44 lt Z 1
  • 6. kategori 1 lt Z
  • Hvad er sandsynligheden for at Z er i 5.
    kategori?
  • Det samme som P0.44 lt Z 1 Areal af 5.
    område i figuren 0,1713. (Kan findes vha.
    tabel)

11
Goodness of Fit Normalfordeling
  • Vi kan bestemme sandsynligheden pi for den ite
    kategori.
  • Vi har da 6 sandsynligheder
  • 1. kategori p1 0,1578
  • 2. kategori p2 0,1713
  • 3. kategori p3 0,1700
  • 4. kategori p4 0,1700
  • 5. kategori p5 0,1713
  • 6. kategori p6 0,1578
  • Har vi n observationer, forventer vi Einpi
    observationer i den ite kategori.
  • Vi kan nu udregne X2 teststørrelsen.

12
Kontingenstabeller
  • Hidtil Følger en kategorisk variabel en given
    fordeling?
  • Nu Er to kategoriske variable uafhængige?
  • Fx uafhængighed mellem følgende to kategoriske
    variable
  • Jobtype (4 kategorier, Uden, Lavt-, mellem og
    højtlønnet)
  • Helbred (5 kategorier meget dårligt til meget
    godt)
  • Værktøj Kontingenstabeller (cross-tabs)
  • I en kontingenstabel er hver celle et antal /
    frekvens.

13
Kontingenstabeller
  • Kontingstabellen består af r rækker og c
    kolonner.
  • Første kategoriske variabel (Helbred) har c
    kategorier.
  • Anden kategoriske variabel (Jobtype) har r
    kategorier.

Celle (3,4)
  • Oij er antallet af observationer (personer), hvor
    Helbred er tilhører ite Helbreds-kategori og
    Jobtype jte Jobtype.

14
Kontingenstabel
  • Ri er rækketotalen, dvs. totale antal
    observationer af Jobtype i.
  • P( i ) P( Jobtype i ) Sandsynlighed for at
    en tilfældig valgt person har Jobtype i
  • P( i ) Ri / n antal med Jobtype i / total
    antal personer.

15
Kontingenstabel
  • Cj er kolonnetotalen, dvs. totale antal
    observationer af Helbred j.
  • P( j ) P( Helbred j ) Sandsynlighed for at
    en tilfældig valgt person har Helbredj
  • P( j ) Cj / n antal med Helbred j / total
    antal personer.

16
Test for uafhængighed
  • X2 teststørrelsen er
  • dvs. en sum over alle rækker og søjler.
  • X2 følger approksimativt en ?2-fordeling med
    (r-1)(c-1) frihedsgrader.
  • Eij er det forventede antal observationer i celle
    (i,j) under antagelse af, at H0 er sand
    (uafhængighed).
  • Hvis P( i n j ) er sandsynligheden for at en
    tilfældig valgt person er i celle (i,j), da er
    Eij n P( i n j ).

17
Kontingenstabel Uafhængighed
  • Lad P( i n j ) P( Jobtype i og Helbred j )
  • Under H0 (uafhængighed) gælder (pr definition)
  • P( i n j ) P( i )P( j )
  • Forventede frekvens er (som ved multinomial)
  • Eij n P( i n j )
  • Fra før har vi P( i ) Ri / n og P( j ) Cj /
    n .
  • Dvs. Eij n (Ri / n )( Cj / n ) RiCj / n.

18
Kontingenstabel Eksempel
  • To kategoriske variabel
  • Industry Service eller Nonservice
  • Result Profit eller Loss
  • SPSS Analyze ? Descriptive Statistics ?
    Crosstabs
  • Forventede frekvenser og række procenter
    tilvælges under Cells.

19
Kontingenstabel Eksempel
  • H0 Industry og Result er uafhængige
  • H1 Der er en sammenhæng ml Industry og Result.
  • For 22 tabeller anvendes en kontinuitets
    korrektion (såkaldt Yates korrektion) af
    teststørrelsen X2
  • c2 kolonner og r2 rækker (c-1)(r-1)1
    frihedsgrader.
  • Yates korrigeret X2 26,92.
  • Kritisk værdi ?20.05(1) 3,84
  • Da 29,92 gt 3,84 forkaster vi H0 dvs. vi
    accepterer hypotesen om, at Industry og Result er
    afhængige.

20
Kontingenstabel Eksempel
  • I SPSS vælges Chi-square i Statistics menuen
    i Crosstabs.
  • Resultat i SPSS. Bemærk Continuity Correction

21
Chi-i-anden Test af Andele
  • Hidtil Vi har spurgt n personer og analyseret
    sammenhængen mellem to kategoriske variable, fx
    helbred og jobtype.
  • Nu Er andelen af forskellige af bestemte
    kategorier ens for en række forskellige
    populationer?
  • Eksempler
  • Er andelen der stemmer hhv, til venstre, i
    midten, til højre den samme for 18-25 årige,
    26-35 årige, 36-65 årige og over 65 år?
  • Er andelen af personer med grøn tandbørste den
    samme blandt hjemløse og ikke-hjemløse?

22
Chi-i-anden Test af Andele
  • Fremgangsmåde Vi bestemmer hvor mange tilfældigt
    udvalgte vi vil spørge i hver population (fx i
    hver aldersgruppe).
  • Dvs. vi fastlægger kolonne-totalerne.
  • Meget nyttig, hvis en af populationerne naturligt
    er meget mindre end de andre, fx hjemløse.

23
Chi-i-anden Test af Andele
  • Selvom vi kolonne totalerne er fastlagte ændrer
    ikke ved udregning af teststørrelsen eller antal
    frihedsgrader!!
  • Vi har stadig
  • Hvor Eij er udregnet som før og X2 følger en ?2
    fordeling med (r-1)(c-1) frihedsgrader.
  • Dvs. Eij RiCj / n.

24
Test af andele Eksempel
  • Er andelen af skades-anmeldelser den samme i tre
    aldersgrupper? 100 tilfældige kunder udvalgt i
    hver aldersgruppe.
  • Forventede frekvenser Eij RiCj / n.
  • Antal frihedsgrader (c-1)(r-1) (3-1)(2-1) 2
  • Kritisk værdi ?20,05(2) 5,99.
  • Teststørrelse X2

25
Uduelige piger eller?
  • Vi har spurgt 1000 kvinde og 1000 mandlige
    kandidater om de har gennemførte deres studie på
    normeret tid.
  • Resultat Mænd 72,5 Kvinder 57,5
  • Forskellen er statistisk signifikant!

26
Stratificeret Analyse
  • Vi har også spurgte om hvilket fakultet folk har
    studeret ved (INS eller Samf).
  • Vi udfører nu analyses separat for hvert
    fakultet
  • (Vi siger vi stratificerer efter fakultet)

27
Simpsons Paradoks
  • Internt på de to fakulteter er der ingen forskel
    mellem mænds og kvinders gennem-førsels procent!
  • Bemærk Kvinder vil hellere læse et studie, der
    er svært at gennemføre på tid.
  • Mænd er lige modsat

28
Flyskræk!
  • Passer overskriften?
  • Politiken 6/12-07
  • Er du tryg ved at flyve?
  • Ja 86 i 2005 og 83 i 2007
  • Vi antager de har spurgt 1000 tilfældige personer
    begge år.
  • Dvs. 860 svarede ja i 2005 og 830 i 2007.
  • H0 hypotese Andelen af utrygge er den samme de
    to år!

29
Flyskræk!
Observerede frekvenser Oij Observerede frekvenser Oij Observerede frekvenser Oij Observerede frekvenser Oij
Tryg? 2005 2007 Total
Ja 830 860 1690
Nej 170 140 310
Total 1000 1000 2000
  • Da det er en 22 tabel bruger vi Yates
    korrektionen
  • Kritisk værdi
  • ?20,05(1) 3,84
  • Teststørrelse
  • X2

Forventede frekvenser Eij Forventede frekvenser Eij Forventede frekvenser Eij Forventede frekvenser Eij
Tryg? 2005 2007 Total
Ja 845 845 1690
Nej 155 155 310
Total 1000 1000 2000
Write a Comment
User Comments (0)
About PowerShow.com