Statistik II Lektion 3 - PowerPoint PPT Presentation

1 / 41
About This Presentation
Title:

Statistik II Lektion 3

Description:

Dvs. bLangsom beskriver logit-forskellen mellem hurtig og langsom l ser uanset k nnet. Logit(Ja|Pige,Hastighed) - Logit(Ja|Dreng,Hastighed) = ... – PowerPoint PPT presentation

Number of Views:186
Avg rating:3.0/5.0
Slides: 42
Provided by: KasperKli3
Category:

less

Transcript and Presenter's Notes

Title: Statistik II Lektion 3


1
Statistik IILektion 3
  • Logistisk Regression
  • Kategoriske og Kontinuerte Forklarende Variable

2
Logistisk regression 2 binære var.
  • Setup To binære variable X og Y.
  • Statistisk model
  • Konsekvens

3
Logit-forskelle og Odds-ratio
  • Logit-forskel
  • Odds-ratio

4
Likelihood-funktionen
  • Definer Likelihood funktionen L( a, b data).
  • L(a, b data) siger, hvor troelig (likely)
    data under vores model for givne a og b.

5
Estimation
  • Lad og betegne estimaterne af de sande,
    men ukendte parametre a og b.
  • Parametrene a og b estimeres ved
    maximum-likelihood metoden
  • Vi vælger og så L ( , data) er
    størst mulig (ordnes af SPSS).
  • Vi kalder og maximum-likelihood (ML)
    estimater.

6
Estimaternes fordeling.
  • Antag b er den sande værdi og er et ML
    estimat.
  • For hver data-indsamling får vi lidt forskellige
    estimater af b pga. af tilfældig variation i
    data.
  • Hvis vi har indsamlet data nok, så gælder der
  • Dvs. i gennemsnit estimerer korrekt
    (central).
  • Standard fejlen SE(b) afhænger af mængden af
    data.

7
Konfidensinterval for b
  • Da gælder følgende

8
Konfidensinterval for b
  • Vi har altså at det sande b er indeholdt i
    intervallet
  • med 95 sandsynlighed.
  • Sandsynligheden gælder vel at mærke et endnu ikke
    udført eksperiment.
  • Når data er indsamlet og konfidensintervallet er
    udregnet, så inderholder konfidensintervallet
    enten b ellers så gør det ikke.
  • Derfor hedder det et 95 konfidens-interval og
    ikke et 95 sandsynligheds-interval.

9
Konfidens-interval for logit-forskel
  • Et 95 konfidens-interval for logit-forskel ß
  • Husk Logit-forskel ln(Odds-ratio), dvs.
    Odds-ratio exp(logit-forskel).
  • Et 95 konfidens-interval for odds-ratio

10
Signifikanstest
  • Hypoteser
  • H0 ß 0 (uafhængighed)
  • H1 ß 0 (afhængighed)
  • Teststørrelse (Wald
    teststør.)
  • Under H0 gælder
  • Store værdier af Z2 er ufordelagtige for H0.

11
Hypotesetest og Konfidensintervaller
  • Betragt følgende hypoteser
  • H0 b K H1 b ? K
  • Lad a,b være et 95 konfidens-interval for b.
  • Hvis K er udenfor intervallet a,b, så kan vi
    afvise H0 på signifikansniveau a 0.05.
  • Hvis K ligger i intervallet a,b, kan vi ikke
    afvise H0 på signifikansniveau a 0.05.

12
SPSS Output
Model
Model
SE(b)
Z2
b
p-værdi
a
95 konf-int. for exp(b)
eb
13
Kategorisk forklarende variabel
  • Eksempel
  • Sammenhængen ml. læsehastighed og selvvurdering?

Er du en god læser Er du en god læser
Nej Ja Total
Sætnings-læsning Hurtig 806.3 119993.7 1279100.0
Langsom 8028.1 20571.9 285100.0
Usikker 1135.5 2064.5 31100.0
Total 17111.2 142488.8 1595100.0
Odds for Ja givet hastighed
1199/80 14.99
205/80 2.56
20/11 1.81

Logit for Ja givet hastighed
ln(14.99) 2.707
ln(2.56) 0.94
ln(1.81) 0.59

14
Uafhængighed
  • I den ideelle verden Hvis der er uafhængighed
    skal de tre mulige Odds i tabellen være ens
  • Odds(God JaHastighed Hurtig)
  • Odds(God JaHastighed Langsom)
  • Odds(God JaHastighed Usikker)
  • Vi sammenligner par af Odds vha et Odds-ratio.
  • Her er der k(k-1) 326 mulige Odds-ratios!

15
Sammenligning af mange Odds
  • Vi vælger en reference-kategori, fx.
    Læsehastighed Hurtig.
  • Vi sammenligner nu Odds for hver kategori med
    Odds for reference-kategorien, vha. et
    Odds-ratio.
  • På den måde har vi kun (k-1) Odds-ratios.
  • Uafhængighed i den ideelle verden Alle Odds er
    ens og dermed er alle (k-1) Odds-ratios 1.
  • Tilsvarende er alle logit-forskelle 0.

16
Logistisk Regressionsmodel
  • Model Logit(JaHastighed) a bHastighed
  • Logit(JaHurtig) a bHurtig
  • Logit(JaLangsom) a bLangsom
  • Logit(JaUsikker) a bUsikker
  • Overparametriseret! (hvorfor?)
  • For reference-kategorien sæt bHurtig 0.

17
Logit-forskelle
  • Logit(JaLangsom) - Logit(JaHurtig)
  • (a bLangsom) - a bLangsom
  • Logit(JaUsikker) - Logit(JaHurtig)
  • (a bUsikker) - a bUsikker
  • Dvs. bLangsom og bUsikker er de to
    logit-forskelle af interesse.

18
Hypotesetest
  • Uinteressant hypotse (hvorfor?)
  • H0 bLangsom 0
  • H1 bLangsom ? 0
  • Interessant hypotese (hvorfor?)
  • H0 bLangsom bUsikker 0
  • H1 bLangsom ? 0 og/eller bUsikker ? 0
  • Teststørrelse Wald c2(df )
  • df antal parametre ivolveret i H0.

19
SPSS
  • Fortæl SPSS hvilke forklarende variable der er
    kategoriske og hvilken kategori er
    reference-kategorien.

20
SPSS Output
NB! Bemærk hvordan SPSS koder den afhængige
variabel. SPSS opskriver modellen som
Logit(Y1). I dette tilfælde vil det sige
Logit(Ja).
To parametre i H0 bLansom og bUsikker.
H0 bLansom bUsikker 0
bLansom
bUsikker
H0 bUsikker 0
21
Alternativ Dummy-variable
  • For hver kategori introducer en binær variabel
  • xHurtig xLangsom og xUsikker.
  • xHurtig 0 altid
  • xLangsom 1 hvis Hastighed Langsom
  • xLangsom 0 hvis Hastighed ? Langsom
  • xUsikker 1 hvis Hastighed Usikker
  • xUsikker 0 hvis Hastighed ? Usikker

22
Dummy-variable Nu Som Tabel
Hastighed xLangsom xUsikker
Hurtig 0 0
Langsom 1 0
Usikker 0 1
23
Dummy-variable
  • Model
  • Eksempel

24
Logistisk Regression Generel Form
  • Med en omkodning til binære dummy-variable kan
    den logistiske regression skrives på den
    generelle form

25
Skala forklarende variabel
  • Eksempel
  • Afhængig variabel Er du en god læser (Ja/Nej)
  • Forklarende variable Antal rigtige i test (020)
  • Plot Andel Jaer for hver score.

26
Logistisk Regressionsmodel
  • Model Logit(JaScorex) a bx
  • Sandsynlighed
  • Plot Logit(JaScorex)

27
Logistiske funktion
28
Fortolkning
  • Logit-forskel
  • Så hver gang score stiger med en stiger logit med
    b.
  • Odds-ratio
  • Så hver gang score stiger med en ændres Oddset
    med en faktor eb.

29
Hypotesetest
Ingen logit-lineær sammenhæng mellem
selvvurdering og test-score.
  • H0 b 0
  • H1 b ? 0
  • Teststørrelse
  • Hvis vi afviser H0 siger vi at b er signifikant.

Der er en logit-lineær sammenhæng mellem
selvvurdering og test-score.
30
SPSS Output
  • Estimerede model
  • Fortolkning Oddset for at svare Ja ændres med
    en faktor exp(b) 1,208, hver gang scoren stiger
    med 1.

31
Modelkontrol Ikke logit-lineær
  • Udvid model med ikke-lineært led, fx
  • Logit(JaScorex) a b1x b2x2
  • Hvis b2 ikke er signifikant, så er en
    logit-lineær model passende.

32
Modelkontrol Hosmer-Lemeshows c2-test
  • Ide Sammenlign observerede antal Jaer og
    forventede antal Jaer i den tilpassede model.
  • Ox observerede antal personer med score x,
    der svarer Ja.
  • Nx antal personer med score x.
  • Ex forventede antal personer med score x, der
    svarer Ja.

33
Modelkontrol Hosmer-Lemeshows c2-test
  • Teststørrelse
  • Hvis vores værdier af a og b er korrekte gælder
  • Hvor df antal led i summen
  • antal parametre i modellen
  • Hvis c2 er for stor tror vi ikke på modellen.
  • Hvis den tilsvarende p-værdi er lt 0.05 er
    modelkontrollen kikset.

34
SPSS Output
  • Data inddelt i 10 grupper. Modellen har to
    parametre. Dvs. df 10 - 2 8.
  • Da p-værdien gt 0.05 kan vi ikke afvise at
    modellen er passende.

35
Multipel Logistisk Regression
  • Ide Mere end en forklarende variabel.
  • Model
  • Reference-kategorier Dreng og Hurtig
  • Dvs bDreng 0 og bHurtig 0
  • Logit(JaDreng,Hurtig) abDrengbHurtig a00
    a
  • Logit(JaPige,Langsom) abPigebLangsom

36
Logit-forskelle
  • Logit(JaKøn,Langsom) - Logit(JaDreng,Hurtig)
    (abKønbLangsom) - (abKønbHurtig)
    bLangsom.
  • Dvs. bLangsom beskriver logit-forskellen mellem
    hurtig og langsom læser uanset kønnet.
  • Logit(JaPige,Hastighed) - Logit(JaDreng,Hastighe
    d) (abPigebHastighed) - (abDrengbHastighed)
    bPige.
  • Dvs. bPige beskriver logit-forskellen mellem
    piger og drenge uanset læsehastigheden.

37
Interaktion / Vekselvirkning
  • Hvad nu hvis logit-forskellen mellem piger og
    drenge faktisk afhænger af hastigheden at der
    er en interaktion?
  • Indfør interaktionsled bKøn,Hastighed.
  • Model
  • Logit(JaKøn,Hastighed)
  • a bKøn bHastighed bKøn,Hastighed

38
Interaktion / Vekselvirkning
  • Parametere der refererer til en eller flere
    reference- kategorier sættes lig nul
  • bDreng,Hurtig 0
  • bDreng, Langsom 0
  • bDreng, Usikker 0
  • bPige, Hurtig 0
  • bPige, Langsom ? 0
  • bPige, Usikker ? 0

39
Logit Tabel
  • Tabel over Logit(JaKøn, Hastighed)
  • Bemærk Hver celle har et individuelt logit.
  • Vi kalder denne model den mættede model.

Køn Køn
Dreng Pige
Læsehastighed Hurtig a abPige
Læsehastighed Langsom abLangsom abPigebLangsom bPige,Langsom
Læsehastighed Usikker abUsikker abPigebUsikker bPige,Usikker
40
Logit-forskelle
  • logit(japige,hurtig) logit(jadreng,hurtig)
    bPige
  • logit(japige,usikker) logit(jadreng,usikker)
    bPige bPige,Usikker.
  • Dvs. bPige,Usikker er forskellen i
    logit-forskellen mellem hurtige og usikre læsere.
  • logit(JaDreng,Usikker) logit(JaDreng,Hurtig)
    bUsikker
  • logit(JaPige,Usikker) logit(JaPige,Hurtig)
    bUsikker bPige,Usikker.
  • Dvs. bPige,Usikker er forskellen i
    logit-forskellen mellem hurtige og usikre læsere.

41
Hypotse
  • H0 bPige,Langsom bPige,Usikker 0
  • Dvs. der er ingen interaktion mellem Køn og
    Hastighed.
  • H1 bPige,Langsom ?0 og/eller bPige,Usikker ?0
  • Dvs. der er interaktion mellem Køn og Hastighed.
Write a Comment
User Comments (0)
About PowerShow.com