Statikstik II 2. Lektion - PowerPoint PPT Presentation

1 / 33
About This Presentation
Title:

Statikstik II 2. Lektion

Description:

... K n = Dreng = X = 0 K n = Pige = X = 1 God l ser = Nej = Y = 0 God l ser = Ja = Y = 1 Generel 2x2 tabel Generel tabel: To bin re variable X og Y: ... – PowerPoint PPT presentation

Number of Views:147
Avg rating:3.0/5.0
Slides: 34
Provided by: KasperKli4
Category:

less

Transcript and Presenter's Notes

Title: Statikstik II 2. Lektion


1
Statikstik II2. Lektion
  • Lidt sandsynlighedsregning
  • Lidt mere om signifikanstest
  • Logistisk regression

2
Lidt sandsynlighedsregning
  • Lad A være en hændelse (et eller flere mulige
    udfald af et eksperiment)
  • Fx A Det regner i morgen
  • P(A) Sandsynligheden for hændelsen A.
  • 0 P(A) 1
  • P(Det modsatte af A) 1- P(A)

3
Stokastisk variabel
  • X stokastisk variabel (SV) tilfældigt tal
  • X R (de reelle tal)
  • X er en diskret SV, hvis X kan tage tælleligt
    mange værdier.
  • Fx. X antal spil på rouletten inden succes
  • X er en kontinuert SV, hvis X kan tage alle
    værdier i et interval.
  • Fx. X Højden på en tilfældigt valgt person.

4
Tæthedsfunktion
  • Antag X kontinuert SV.
  • Fordelingen af X kan angives ved
    sandsynlighedstæthedsfunktion (probability
    density function (PDF)) f(x).
  • Egenskaber for PDF f(x) for SV X

5
Tegning
6
Middelværdi og varians
  • Lad X være en kontinuert SV med PDF f.
  • Middelværdien aka den forventede værdi af X er
  • Variansen af X er

7
Eksempel Normalfordelingen
  • Antag X er normalfordelt SV med
  • middelværdi m EX
  • varians s2
  • Notation XN(m, s2)
  • PDF

8
Eksempel Normalfordelingen
  • Antag XN(m, s2)
  • Da gælder P(?-1.96s X ?1.96s) 0.95
  • s Standard-afvigelsen
  • Standard error
  • Standard fejl

Areal 95
?
?
?1.96s
?-1.96s
9
Signifikanstest side 1
  • 0) Opstil statistisk model
  • 1) Opstil
  • Nul-hypotese (H0, arbejds-hypotese) - den
    simple hypotese
  • Alternativ-hypotesen (H1) den modsatte hypotese
    af H0.
  • 2) Vælg teststørrelse
  • Talstørrelse, der beskriver hvordan data passer
    til nul-hypotesen.
  • Noter hvilke værdier af teststørrelsen der er
    ufordelagtige for H0.

10
Signifikanstest side 2
  • Bestemt fordelingen af teststørrelsen under
    antagelse af, at H0 er sand.
  • Vælg signifikansniveau a typisk a0.05 eller
    a0.01.
  • Beregn P-værdien sandsynligheden for at
    observere en mere ufordelagtig teststørrelse ved
    næste eksperiment, under antagelse af, at H0 er
    sand.
  • Beslutning
  • Hvis p-værdi lt a Afvis H0 og accepter H1.
  • Hvis p-værid a Vi kan ikke afvise H0.

11
Eksempel - repetition
  • To kategoriske variable X og Y.
  • X har c kategorier Y har r kategorier
  • Oij er antallet af observationer, hvor
  • X er i ite kategori
  • Y er i jte kategori
  • Hypoteser
  • H0 X og Y er uafhængige
  • H1 X og Y er afhængige

12
Eksempel - fortsat
  • Teststørrelse
  • Hvor
  • Hvor
  • Ci Antal observationer med Xi.
  • Rj Antal observationer med Yj.
  • N Total antal observationer

13
Eksempel - fortsat
  • Jo større X2 jo mere ufordelagtig for H0.
  • Hvis H0 er sand gælder
  • X2 følger en chi-i-anden fordeling med
    (r-1)(c-1) frihedsgrader.
  • Tegning

14
Bemærkninger til c2-test
  • c2-testet kan generelt bruges i situationer, hvor
    man kan sammenligne observerede antal
    observationer med det forventede antal under en
    H0-hypotese.
  • - det kan dog være tricky at finde det korrekte
    antal frihedsgrader
  • For en 2x2 tabel (r c 2)
  • Kontinuitets korrektion så passer X2s
    fordeling bedre med c2(1)-fordelingen.
  • c2-testet er et ikke-parametrisk test.

15
Logistisk regression Motivation
  • Sammenhængen ml. køn og selvvurdering
  • Er der en sammenhæng? Er de 13.6 signifikant
    forskellige fra de 9.0?

Er du en god læser Er du en god læser
Nej Ja Total
Køn Dreng 10613.6 67286.4 778100.0
Pige 779.0 77691.0 853100.0
Total 18311.2 144888.8 1631100.0
16
Omkodning
  • Vi omkoder de dikotome variable til binære
    variable
  • Køn Dreng gt X 0
  • Køn Pige gt X 1
  • God læser Nej gt Y 0
  • God læser Ja gt Y 1

17
Generel 2x2 tabel
  • Generel tabel To binære variable X og Y
  • Er der en sammenhæng?
  • Hvis p0 p1 er X og Y uafhængige.

Y Y
0 1
X 0 1-p0 P(Y0X0) p0 P(Y1X0)
1 1-p1 P(Y0X0) p1 P(Y1X0)
18
Odds og logit
  • Lad X være binær variabel med P(X1)p.
  • Definition odds
  • Hvor
  • Fortolkning Odds(X1)2 betyder at X1 er
    dobbelt så sandsynligt som X0
  • Definition logit
  • Hvor

19
Odds og odds-ratio
  • De to betingede odds
  • Odds-ratio
  • Hvis X og Y uafhængige har vi
  • og

20
Logit og logit-forskelle
  • De to betingede logits
  • Logit-forskel
  • Hvis X og Y uafhængige har vi
  • og

21
Lidt regneri
  • Lad og
  • Logit-forskellen er da
  • De to betingede sandsynligheder er da
  • Igen Hvis ß0 har vi p0p1, dvs. uafhængighed.

22
Fortolkning af ea og eb
  • Vi har
  • Dvs. Oddset for Y1 ændres med en faktor eb , når
    X går fra 0 til 1.

23
Statistisk model
  • Definer ßx for x0,1
  • ß0 0
  • ß1 ß.
  • Model

24
Statistisk model alternativ formulering
  • Alternativ
  • Bemærk logit(Y1Xx) a ßx.

25
Estimation
  • Lad og betegne estimaterne af de sande,
    men ukendte parametere a og b.
  • Parametrene a og b estimeres ved
    maximum-likelihood metoden
  • Definer funktion L( , data), der siger,
    hvor troelig (likely) data under vores model
    for givne og .
  • Vi vælger og så L er størst mulig (ordnes
    af SPSS)

26
Konfidens-interval for logit-forskel
  • Generelt har vi
  • Et 95 konfidens-interval for logit-forskel ß
  • Husk Logit-forskel ln(Odds-ratio), dvs.
    Odds-ratio logit-forskel.
  • Et 95 konfidens-interval for odds-ratio

27
Signifikanstest
  • Hypoteser
  • H0 ß 0 (uafhængighed)
  • H1 ß 0 (afhængighed)
  • Teststørrelse (Wald
    teststør.)
  • Under H0 gælder
  • Store værdier af Z2 er ufordelagtige for H0.

28
SPSS
  • Analyzy? Regression ? Binary Logistic

29
SPSS Output
Model
Model
SE(b)
Z2
b
p-værdi
a
95 konf-int. for b
eb
30
Kategorisk forklarende variabel
  • Indtil nu har X fungeret som en binær forklarende
    variabel.
  • Antag at den forklarende variabel er kategorisk
    med k kategorier.
  • Som før kan en kategorisk variabel omkodes til
    heltal.
  • Antag at X er en diskret variabel der kan tage
    værdierne 1,,k.
  • Hva nu?

31
Eksempel k3
  • Sammenhængen ml. læsehastighed og selvvurdering
  • Er der en sammenhæng?

Er du en god læser Er du en god læser
Nej Ja Total
Sætnings-læsning Hurtig 806.3 119993.7 1279100.0
Langsom 8028.1 20571.9 285100.0
Usikker 1135.5 2064.5 31100.0
Total 17111.2 142488.8 1595100.0
32
Uafhængighed
  • Hvis der er uafhængighed skal de tre mulige Odds
    i tabellen være ens
  • Odds(God JaHastighed Hurtig)
  • Odds(God JaHastighed Langsom)
  • Odds(God JaHastighed Usikker)
  • Ved to Odds sammenligner vi de to Odds ved et
    Odds-ratio.
  • Her?

33
Sammenligning af mange Odds
  • Vi vælger en reference kategori, fx.
    Læsehastighed Hurtig.
  • Vi sammenligner nu Odds for hver kategori med
    Odds for reference-kategorien, vha. et
    Odds-ratio.
  • På den måde får vi (k-1) Odds-ratios.
  • Hvis alle (k-1) Odds-ratios er 1 er alle Odds ens
    og vi har uafhængighed.
  • Tilsvarende er alle logit-forskelle 0.
Write a Comment
User Comments (0)
About PowerShow.com