Title: Statistik II Lektion 3
1Statistik IILektion 3
- Logistisk Regression
- Kategoriske og Kontinuerte Forklarende Variable
2Logistisk regression 2 binære var.
- Setup To binære variable X og Y.
- Statistisk model
- Konsekvens
3Logit-forskelle og Odds-ratio
4Likelihood-funktionen
- Definer Likelihood funktionen L( a, b data).
- L(a, b data) siger, hvor troelig (likely)
data under vores model for givne a og b.
5Estimation
- Lad og betegne estimaterne af de sande,
men ukendte parametre a og b. - Parametrene a og b estimeres ved
maximum-likelihood metoden - Vi vælger og så L ( , data) er
størst mulig (ordnes af SPSS). - Vi kalder og maximum-likelihood (ML)
estimater.
6Estimaternes fordeling.
- Antag b er den sande værdi og er et ML
estimat. - For hver data-indsamling får vi lidt forskellige
estimater af b pga. af tilfældig variation i
data. - Hvis vi har indsamlet data nok, så gælder der
- Dvs. i gennemsnit estimerer korrekt
(central). - Standard fejlen SE(b) afhænger af mængden af
data.
7Konfidensinterval for b
8Konfidensinterval for b
- Vi har altså at det sande b er indeholdt i
intervallet - med 95 sandsynlighed.
- Sandsynligheden gælder vel at mærke et endnu ikke
udført eksperiment. - Når data er indsamlet og konfidensintervallet er
udregnet, så inderholder konfidensintervallet
enten b ellers så gør det ikke. - Derfor hedder det et 95 konfidens-interval og
ikke et 95 sandsynligheds-interval.
9Konfidens-interval for logit-forskel
- Et 95 konfidens-interval for logit-forskel ß
- Husk Logit-forskel ln(Odds-ratio), dvs.
Odds-ratio exp(logit-forskel). - Et 95 konfidens-interval for odds-ratio
10Signifikanstest
- Hypoteser
- H0 ß 0 (uafhængighed)
- H1 ß 0 (afhængighed)
- Teststørrelse (Wald
teststør.) - Under H0 gælder
- Store værdier af Z2 er ufordelagtige for H0.
11Hypotesetest og Konfidensintervaller
- Betragt følgende hypoteser
- H0 b K H1 b ? K
- Lad a,b være et 95 konfidens-interval for b.
- Hvis K er udenfor intervallet a,b, så kan vi
afvise H0 på signifikansniveau a 0.05. - Hvis K ligger i intervallet a,b, kan vi ikke
afvise H0 på signifikansniveau a 0.05.
12SPSS Output
Model
Model
SE(b)
Z2
b
p-værdi
a
95 konf-int. for exp(b)
eb
13Kategorisk forklarende variabel
- Eksempel
- Sammenhængen ml. læsehastighed og selvvurdering?
Er du en god læser Er du en god læser
Nej Ja Total
Sætnings-læsning Hurtig 806.3 119993.7 1279100.0
Langsom 8028.1 20571.9 285100.0
Usikker 1135.5 2064.5 31100.0
Total 17111.2 142488.8 1595100.0
Odds for Ja givet hastighed
1199/80 14.99
205/80 2.56
20/11 1.81
Logit for Ja givet hastighed
ln(14.99) 2.707
ln(2.56) 0.94
ln(1.81) 0.59
14Uafhængighed
- I den ideelle verden Hvis der er uafhængighed
skal de tre mulige Odds i tabellen være ens - Odds(God JaHastighed Hurtig)
- Odds(God JaHastighed Langsom)
- Odds(God JaHastighed Usikker)
- Vi sammenligner par af Odds vha et Odds-ratio.
- Her er der k(k-1) 326 mulige Odds-ratios!
15Sammenligning af mange Odds
- Vi vælger en reference-kategori, fx.
Læsehastighed Hurtig. - Vi sammenligner nu Odds for hver kategori med
Odds for reference-kategorien, vha. et
Odds-ratio. - På den måde har vi kun (k-1) Odds-ratios.
- Uafhængighed i den ideelle verden Alle Odds er
ens og dermed er alle (k-1) Odds-ratios 1. - Tilsvarende er alle logit-forskelle 0.
16Logistisk Regressionsmodel
- Model Logit(JaHastighed) a bHastighed
- Logit(JaHurtig) a bHurtig
- Logit(JaLangsom) a bLangsom
- Logit(JaUsikker) a bUsikker
- Overparametriseret! (hvorfor?)
- For reference-kategorien sæt bHurtig 0.
17Logit-forskelle
- Logit(JaLangsom) - Logit(JaHurtig)
- (a bLangsom) - a bLangsom
- Logit(JaUsikker) - Logit(JaHurtig)
- (a bUsikker) - a bUsikker
- Dvs. bLangsom og bUsikker er de to
logit-forskelle af interesse.
18Hypotesetest
- Uinteressant hypotse (hvorfor?)
- H0 bLangsom 0
- H1 bLangsom ? 0
- Interessant hypotese (hvorfor?)
- H0 bLangsom bUsikker 0
- H1 bLangsom ? 0 og/eller bUsikker ? 0
- Teststørrelse Wald c2(df )
- df antal parametre ivolveret i H0.
19SPSS
- Fortæl SPSS hvilke forklarende variable der er
kategoriske og hvilken kategori er
reference-kategorien.
20SPSS Output
NB! Bemærk hvordan SPSS koder den afhængige
variabel. SPSS opskriver modellen som
Logit(Y1). I dette tilfælde vil det sige
Logit(Ja).
To parametre i H0 bLansom og bUsikker.
H0 bLansom bUsikker 0
bLansom
bUsikker
H0 bUsikker 0
21Alternativ Dummy-variable
- For hver kategori introducer en binær variabel
- xHurtig xLangsom og xUsikker.
- xHurtig 0 altid
- xLangsom 1 hvis Hastighed Langsom
- xLangsom 0 hvis Hastighed ? Langsom
- xUsikker 1 hvis Hastighed Usikker
- xUsikker 0 hvis Hastighed ? Usikker
22Dummy-variable Nu Som Tabel
Hastighed xLangsom xUsikker
Hurtig 0 0
Langsom 1 0
Usikker 0 1
23Dummy-variable
24Logistisk Regression Generel Form
- Med en omkodning til binære dummy-variable kan
den logistiske regression skrives på den
generelle form
25Skala forklarende variabel
- Eksempel
- Afhængig variabel Er du en god læser (Ja/Nej)
- Forklarende variable Antal rigtige i test (020)
- Plot Andel Jaer for hver score.
26Logistisk Regressionsmodel
- Model Logit(JaScorex) a bx
- Sandsynlighed
- Plot Logit(JaScorex)
27Logistiske funktion
28Fortolkning
- Logit-forskel
- Så hver gang score stiger med en stiger logit med
b. - Odds-ratio
- Så hver gang score stiger med en ændres Oddset
med en faktor eb.
29Hypotesetest
Ingen logit-lineær sammenhæng mellem
selvvurdering og test-score.
- H0 b 0
- H1 b ? 0
- Teststørrelse
- Hvis vi afviser H0 siger vi at b er signifikant.
Der er en logit-lineær sammenhæng mellem
selvvurdering og test-score.
30SPSS Output
- Estimerede model
- Fortolkning Oddset for at svare Ja ændres med
en faktor exp(b) 1,208, hver gang scoren stiger
med 1.
31Modelkontrol Ikke logit-lineær
- Udvid model med ikke-lineært led, fx
- Logit(JaScorex) a b1x b2x2
- Hvis b2 ikke er signifikant, så er en
logit-lineær model passende.
32Modelkontrol Hosmer-Lemeshows c2-test
- Ide Sammenlign observerede antal Jaer og
forventede antal Jaer i den tilpassede model. - Ox observerede antal personer med score x,
der svarer Ja. - Nx antal personer med score x.
- Ex forventede antal personer med score x, der
svarer Ja.
33Modelkontrol Hosmer-Lemeshows c2-test
- Teststørrelse
- Hvis vores værdier af a og b er korrekte gælder
- Hvor df antal led i summen
- antal parametre i modellen
- Hvis c2 er for stor tror vi ikke på modellen.
- Hvis den tilsvarende p-værdi er lt 0.05 er
modelkontrollen kikset.
34SPSS Output
- Data inddelt i 10 grupper. Modellen har to
parametre. Dvs. df 10 - 2 8. - Da p-værdien gt 0.05 kan vi ikke afvise at
modellen er passende.
35Multipel Logistisk Regression
- Ide Mere end en forklarende variabel.
- Model
- Reference-kategorier Dreng og Hurtig
- Dvs bDreng 0 og bHurtig 0
- Logit(JaDreng,Hurtig) abDrengbHurtig a00
a - Logit(JaPige,Langsom) abPigebLangsom
36Logit-forskelle
- Logit(JaKøn,Langsom) - Logit(JaDreng,Hurtig)
(abKønbLangsom) - (abKønbHurtig)
bLangsom. - Dvs. bLangsom beskriver logit-forskellen mellem
hurtig og langsom læser uanset kønnet. - Logit(JaPige,Hastighed) - Logit(JaDreng,Hastighe
d) (abPigebHastighed) - (abDrengbHastighed)
bPige. - Dvs. bPige beskriver logit-forskellen mellem
piger og drenge uanset læsehastigheden.
37Interaktion / Vekselvirkning
- Hvad nu hvis logit-forskellen mellem piger og
drenge faktisk afhænger af hastigheden at der
er en interaktion? - Indfør interaktionsled bKøn,Hastighed.
- Model
- Logit(JaKøn,Hastighed)
- a bKøn bHastighed bKøn,Hastighed
38Interaktion / Vekselvirkning
- Parametere der refererer til en eller flere
reference- kategorier sættes lig nul - bDreng,Hurtig 0
- bDreng, Langsom 0
- bDreng, Usikker 0
- bPige, Hurtig 0
- bPige, Langsom ? 0
- bPige, Usikker ? 0
39Logit Tabel
- Tabel over Logit(JaKøn, Hastighed)
- Bemærk Hver celle har et individuelt logit.
- Vi kalder denne model den mættede model.
Køn Køn
Dreng Pige
Læsehastighed Hurtig a abPige
Læsehastighed Langsom abLangsom abPigebLangsom bPige,Langsom
Læsehastighed Usikker abUsikker abPigebUsikker bPige,Usikker
40Logit-forskelle
- logit(japige,hurtig) logit(jadreng,hurtig)
bPige - logit(japige,usikker) logit(jadreng,usikker)
bPige bPige,Usikker. - Dvs. bPige,Usikker er forskellen i
logit-forskellen mellem hurtige og usikre læsere. - logit(JaDreng,Usikker) logit(JaDreng,Hurtig)
bUsikker - logit(JaPige,Usikker) logit(JaPige,Hurtig)
bUsikker bPige,Usikker. - Dvs. bPige,Usikker er forskellen i
logit-forskellen mellem hurtige og usikre læsere.
41Hypotse
- H0 bPige,Langsom bPige,Usikker 0
- Dvs. der er ingen interaktion mellem Køn og
Hastighed. - H1 bPige,Langsom ?0 og/eller bPige,Usikker ?0
- Dvs. der er interaktion mellem Køn og Hastighed.