Title: Statikstik II 2. Lektion
1Statikstik II2. Lektion
- Lidt sandsynlighedsregning
- Lidt mere om signifikanstest
- Logistisk regression
2Lidt sandsynlighedsregning
- Lad A være en hændelse (et eller flere mulige
udfald af et eksperiment) - Fx A Det regner i morgen
- P(A) Sandsynligheden for hændelsen A.
- 0 P(A) 1
- P(Det modsatte af A) 1- P(A)
3Stokastisk variabel
- X stokastisk variabel (SV) tilfældigt tal
- X R (de reelle tal)
- X er en diskret SV, hvis X kan tage tælleligt
mange værdier. - Fx. X antal spil på rouletten inden succes
- X er en kontinuert SV, hvis X kan tage alle
værdier i et interval. - Fx. X Højden på en tilfældigt valgt person.
4Tæthedsfunktion
- Antag X kontinuert SV.
- Fordelingen af X kan angives ved
sandsynlighedstæthedsfunktion (probability
density function (PDF)) f(x). - Egenskaber for PDF f(x) for SV X
5Tegning
6Middelværdi og varians
- Lad X være en kontinuert SV med PDF f.
- Middelværdien aka den forventede værdi af X er
- Variansen af X er
7Eksempel Normalfordelingen
- Antag X er normalfordelt SV med
- middelværdi m EX
- varians s2
- Notation XN(m, s2)
- PDF
8Eksempel Normalfordelingen
- Antag XN(m, s2)
- Da gælder P(?-1.96s X ?1.96s) 0.95
- s Standard-afvigelsen
- Standard error
- Standard fejl
Areal 95
?
?
?1.96s
?-1.96s
9Signifikanstest side 1
- 0) Opstil statistisk model
- 1) Opstil
- Nul-hypotese (H0, arbejds-hypotese) - den
simple hypotese - Alternativ-hypotesen (H1) den modsatte hypotese
af H0. - 2) Vælg teststørrelse
- Talstørrelse, der beskriver hvordan data passer
til nul-hypotesen. - Noter hvilke værdier af teststørrelsen der er
ufordelagtige for H0.
10Signifikanstest side 2
- Bestemt fordelingen af teststørrelsen under
antagelse af, at H0 er sand. - Vælg signifikansniveau a typisk a0.05 eller
a0.01. - Beregn P-værdien sandsynligheden for at
observere en mere ufordelagtig teststørrelse ved
næste eksperiment, under antagelse af, at H0 er
sand. - Beslutning
- Hvis p-værdi lt a Afvis H0 og accepter H1.
- Hvis p-værid a Vi kan ikke afvise H0.
11Eksempel - repetition
- To kategoriske variable X og Y.
- X har c kategorier Y har r kategorier
- Oij er antallet af observationer, hvor
- X er i ite kategori
- Y er i jte kategori
- Hypoteser
- H0 X og Y er uafhængige
- H1 X og Y er afhængige
12Eksempel - fortsat
- Teststørrelse
- Hvor
- Hvor
- Ci Antal observationer med Xi.
- Rj Antal observationer med Yj.
- N Total antal observationer
13Eksempel - fortsat
- Jo større X2 jo mere ufordelagtig for H0.
- Hvis H0 er sand gælder
- X2 følger en chi-i-anden fordeling med
(r-1)(c-1) frihedsgrader. - Tegning
14Bemærkninger til c2-test
- c2-testet kan generelt bruges i situationer, hvor
man kan sammenligne observerede antal
observationer med det forventede antal under en
H0-hypotese. - - det kan dog være tricky at finde det korrekte
antal frihedsgrader - For en 2x2 tabel (r c 2)
-
- Kontinuitets korrektion så passer X2s
fordeling bedre med c2(1)-fordelingen. - c2-testet er et ikke-parametrisk test.
15Logistisk regression Motivation
- Sammenhængen ml. køn og selvvurdering
- Er der en sammenhæng? Er de 13.6 signifikant
forskellige fra de 9.0?
Er du en god læser Er du en god læser
Nej Ja Total
Køn Dreng 10613.6 67286.4 778100.0
Pige 779.0 77691.0 853100.0
Total 18311.2 144888.8 1631100.0
16Omkodning
- Vi omkoder de dikotome variable til binære
variable - Køn Dreng gt X 0
- Køn Pige gt X 1
- God læser Nej gt Y 0
- God læser Ja gt Y 1
17Generel 2x2 tabel
- Generel tabel To binære variable X og Y
- Er der en sammenhæng?
- Hvis p0 p1 er X og Y uafhængige.
Y Y
0 1
X 0 1-p0 P(Y0X0) p0 P(Y1X0)
1 1-p1 P(Y0X0) p1 P(Y1X0)
18Odds og logit
- Lad X være binær variabel med P(X1)p.
- Definition odds
- Hvor
- Fortolkning Odds(X1)2 betyder at X1 er
dobbelt så sandsynligt som X0 - Definition logit
- Hvor
19Odds og odds-ratio
- De to betingede odds
- Odds-ratio
- Hvis X og Y uafhængige har vi
- og
20Logit og logit-forskelle
- De to betingede logits
- Logit-forskel
- Hvis X og Y uafhængige har vi
- og
21Lidt regneri
- Lad og
-
- Logit-forskellen er da
- De to betingede sandsynligheder er da
- Igen Hvis ß0 har vi p0p1, dvs. uafhængighed.
22Fortolkning af ea og eb
- Vi har
- Dvs. Oddset for Y1 ændres med en faktor eb , når
X går fra 0 til 1.
23Statistisk model
- Definer ßx for x0,1
- ß0 0
- ß1 ß.
- Model
24Statistisk model alternativ formulering
- Alternativ
- Bemærk logit(Y1Xx) a ßx.
25Estimation
- Lad og betegne estimaterne af de sande,
men ukendte parametere a og b. - Parametrene a og b estimeres ved
maximum-likelihood metoden - Definer funktion L( , data), der siger,
hvor troelig (likely) data under vores model
for givne og . - Vi vælger og så L er størst mulig (ordnes
af SPSS)
26Konfidens-interval for logit-forskel
- Generelt har vi
- Et 95 konfidens-interval for logit-forskel ß
- Husk Logit-forskel ln(Odds-ratio), dvs.
Odds-ratio logit-forskel. - Et 95 konfidens-interval for odds-ratio
27Signifikanstest
- Hypoteser
- H0 ß 0 (uafhængighed)
- H1 ß 0 (afhængighed)
- Teststørrelse (Wald
teststør.) - Under H0 gælder
- Store værdier af Z2 er ufordelagtige for H0.
28SPSS
- Analyzy? Regression ? Binary Logistic
29SPSS Output
Model
Model
SE(b)
Z2
b
p-værdi
a
95 konf-int. for b
eb
30Kategorisk forklarende variabel
- Indtil nu har X fungeret som en binær forklarende
variabel. - Antag at den forklarende variabel er kategorisk
med k kategorier. - Som før kan en kategorisk variabel omkodes til
heltal. - Antag at X er en diskret variabel der kan tage
værdierne 1,,k. - Hva nu?
31Eksempel k3
- Sammenhængen ml. læsehastighed og selvvurdering
- Er der en sammenhæng?
Er du en god læser Er du en god læser
Nej Ja Total
Sætnings-læsning Hurtig 806.3 119993.7 1279100.0
Langsom 8028.1 20571.9 285100.0
Usikker 1135.5 2064.5 31100.0
Total 17111.2 142488.8 1595100.0
32Uafhængighed
- Hvis der er uafhængighed skal de tre mulige Odds
i tabellen være ens - Odds(God JaHastighed Hurtig)
- Odds(God JaHastighed Langsom)
- Odds(God JaHastighed Usikker)
- Ved to Odds sammenligner vi de to Odds ved et
Odds-ratio. - Her?
33Sammenligning af mange Odds
- Vi vælger en reference kategori, fx.
Læsehastighed Hurtig. - Vi sammenligner nu Odds for hver kategori med
Odds for reference-kategorien, vha. et
Odds-ratio. - På den måde får vi (k-1) Odds-ratios.
- Hvis alle (k-1) Odds-ratios er 1 er alle Odds ens
og vi har uafhængighed. - Tilsvarende er alle logit-forskelle 0.