Statistik II Lektion 5 Modelkontrol - PowerPoint PPT Presentation

1 / 43
About This Presentation
Title:

Statistik II Lektion 5 Modelkontrol

Description:

... Transform Recode into Different Variables ... Senest mandag. d. 27/10 kl. 12. pr. e-mail til kkb_at_math.aau.dk Eksamen: Torsdag 30. Oktober. – PowerPoint PPT presentation

Number of Views:115
Avg rating:3.0/5.0
Slides: 44
Provided by: Kasper85
Category:

less

Transcript and Presenter's Notes

Title: Statistik II Lektion 5 Modelkontrol


1
Statistik II Lektion 5Modelkontrol
  • Modelkontrol
  • Modelsøgning
  • Større eksempel

2
Generel Lineær Model
  • Y afhængig skala variabel
  • x1,,xk forklarende variable, skala eller binære
  • Model Middelværdien af Y givet x(x1,,xk)

3
Generel Lineær Model
  • Mere præcist ite observation yi ud af n er
    givet ved
  • xj,i er jte forklarende variabel for ite
    observation.
  • e1,,en er uafhængige og identisk fordelt ei
    N(0,s2)

Systematisk del
Tilfældig del
Idependent and Identically Distributed - IID
4
Hypotese-test
  • Generelt vil vi teste om en eller flere bier kan
    sættes lig nul. Det svarer til at fjerne de
    tilsvarende led fra modellen.
  • Formelle hypoteser
  • H0 b1 bq 0
  • H1 Mindst et af de q parametre har bi ? 0
  • Teststørrelsen er
  • (Alternativ formulering i forhold til sidst)

q ber efter eget valg
5
F-test
  • Teststørrelsen er
  • SSE er summen af de kvadrerede fejl i en model,
    hvor når b1,, bq er med (den oprindelige model)
  • SSE er summen af de kvadrede fejl når b1,, bq
    ikke er med.
  • Der gælder SSE SSE.
  • Intuition Jo større forskel (SSE-SSE) jo mere
    betyder b1,, bq for modellen og jo mindre tror
    vi på F.

6
F-fordelingen
F-fordeling
0
.
7
0
.
6
0
.
5
0
.
4
)
F
(
f
0
.
3
Areal p-værdi
0
.
2
0
.
1
0
.
0
F
5
4
3
2
1
0
F
7
Opbygning af statistisk model
Eksplorativ data-analyse
Specificer model Ligninger og antagelser
Estimer parametre
Nej
Modelkontrol Er modellen passende?
Ja
Anvend modellen
8
Modelkontrol
  • For at kunne stole på test og estimater skal vi
    sikre os, at modellens antagelser er overholdt!
  • Er der en lineær sammenhæng mellem X og Y ?
  • Er fejlleddene e1,, en uafhænige?
  • Følger fejlleddene e1,, en alle N(0,s2)?

9
Residualanalyse
Bemærk at residualet er et estimat for
ei. Dvs. eierne groft sagt skal opføre sig som
uafhængige N(0,s2) variable! Grafisk kontrol
Plot eierne mod xi eller .
10
Residualplot
Residualer
Residualer

v
0
0
Homoskedastisk Residualerne ser ud til at
variere ufahængigt af hinanden og x.
Heteroskedastisk Variansen for residualerne
ændrer sig når x ændrer sig.

Residualer
Residualer

0
0
Tid
Residualerne udviser lineær trend med tiden
(ellern anden variabel vi ikke har brugt). Dette
indikerer at tid skulle inkluderes i modellen.
Det buede mønster indikerer en underlæggende
ikke-lineær sammenhæng.
11
Eksempel Salg og Reklame
  • Data n30 par af observationer.
  • Y Ugentlige salg
  • X Ugentlige reklame-budget

12
Residualer i SPSS
  • I Linear Regression vinduet vælges Save
  • I Save vinduet vælges Unstandardized både
    under
  • Reresiduals (eierne) og
  • Predicted Values ( erne) .

13
  • Efter endt regression skaber SPSS to nye søjler i
    Data Editor, der indeholder
  • residualer (RES_1)
  • prædiktioner (PRE_1) .
  • Derefter kan man fx lave scatter plots.

14
  • Scatter plot af
  • residualer (eierne) mod højde (xierne)
    (øverst)
  • residualer (eierne) mod prædiktionerne
    (yierne) (nederst).
  • Ser jo ganske usystematisk ud!

15
Grafiske check for Normalfordeling
  • For at tjekke holdbarheden af antagelsen om
    normalfordelte fejlled ( eiN(0,s2) )
  • Lav et histogram over residualerne og se efter om
    det normalfordelt ud.
  • Lave et normalfordelingsplot (Q-Q plot).

16
Histogram af residualer
Det ser jo ca. normalfordelt ud
17
Normalfordelingsplot (Q-Q plot)
  • Et Q-Q plot er scatter plot, hvor
  • X Residualerne (eierne)
  • Y Idealiseret stikprøve fra normalfordeling
  • Bemærk at både xerne og xerne er sorterede.
  • Hvis residualerne er normalfordelte, vil vi have
    xi yi.
  • Dvs (x,y) ligge usystematisk omkring en linje med
    hældning 1 og skæring 0.

18
Normalfordelingsplot (Q-Q plot)
  • De idealisrede data (yerne) opnås ved at
    inddele normalfordelingen i n1 lige store
    stykker.

Areal 1/(n1)
y5
19
  • Vælg Analyze ? Descriptive Statistics ? Q-Q
    plots
  • Ser helt fint ud snor sig ikke alt for
    systematisk omkring linjen.
  • Punkterne ligger rimlig usystematisk omkring
    linjen Altså ca. normalfordelt

20
Modelsøgning
  • Formål Find den simplest mulig model, der
    beskriver data tilfredsstillende.
  • Backwards-søgning
  • Startmodel Vælg til at starte med en model, der
    indeholder alle variable og vekselvirkninger, der
    menes at være (fagligt) interessante som
    forklaring den afhængige variabel. Undgå at
    specificere en model der er vanskelig at
    fortolke.
  • Test hvilke led i modellen, der kan fjernes.
    Mindst signifikante led fjernes, dvs F-test med
    højest p-værdi, dog så
  • Det hierarkiske princip er overholdt
  • p-værdien gt a (typisk a 0.05)
  • Reduceret model Når et led er fjernet udføres en
    ny analyse på den nye og mindre model.
  • Slutmodel Når ikke flere led kan fjernes har vi
    vores slutmodel.
  • Forbehold Før hver test-runde skal man afklare
    om modellens antagelser er opfyldt ellers kan
    man ikke stole på p-værdierne.

21
R2 Determinations-koefficienten
  • Definition
  • Fordel Nem at fortolke Andel af den totale
    variation der er forklaret af modellen.
  • Ulempe R2 vokser når vi tilføjer flere
    forklarende variable. Dvs. et stort R2 er ikke
    nødvendigvis en fordel.

22
Justeret R2
  • Definition
  • Fordel Vokser kun, hvis ekstra forklarende
    variabels forklaringsgrad er stor i forhold til
    antal ekstra parametre.
  • Ulempe Ikke samme simple fortolkning som R2.

23
Stort Eksempel Boligpriser
  • price Boligens pris i
  • sqft Boligens størrelse i kvadrat-fod
  • bedrooms Antal soveværelser
  • baths Antal badeværelser
  • garage Antal biler, der er plads til i
    garagen.

24
Eksplorativ analyse
25
Krydstabel
  • garage vs bedrooms
  • Bemærk Mange expected countslt5, så vi kan ikke
    bruge en c2-test.
  • Løsning Slå kategorier sammen

26
Omkodning af Garage
  • Omkodning garage 0 til 1 ? garage2 0
  • garage 2 ? garage2 1
  • SPSS Transform?Recode into Different Variables

27
Omkodning af Bedrooms
  • Omkodning
  • bedroom 1 til 2 ? bedroom2 2
  • bedroom 3 ? bedroom2 3
  • bedroom 4 til 5 ? bedroom2 4

28
Krydstabel
  • garage2 vs bedrooms2
  • Hypotese
  • H0 Uafhængighed
  • H1 Afhænmgighed
  • Teststørrelse
  • c2
  • P-værdi lt 0.0005
  • Konklusion
  • Vi afviser H0, dvs.
  • der er afhængighed.

29
Logistisk Regression
  • Afhængig variabel garage2
  • Forklarende variabel price
  • Output
  • Konklusion Pris har en betydning, hvis modellen
    er god men det er modellen ikke

30
Variansanalyse
  • Afhængig Boligpris
  • Forklarende Garage2 og Bedroom2
  • Model(formel)
  • Dummy variable
  • xg0 1 ? garage2 0
  • xb2 1 ? garage2 2
  • xb3 1 ? garage2 3

31
Modelform
  • Slipper for detaljerne Brug modelform
  • Modelform
  • Denne model kaldes mættet, da alle tænkelig
    vekselvirkninger er medtaget.
  • Er man ekstra doven, så skriver man kun
  • De resterende led følger af det hierarkiske
    princip.

Garage2 Bedroom2 Garage2Bedroom2
Garage2Bedroom2
32
SPSS Test af model-led
  • Vi afviser hypotesen om at vekselvirkningsleddet
    kan udelades.
  • Konklusion Prisen på bolig kan ikke forklares af
    antal soveværelser og størrelsen på garagen
    alene. Et vekselvirkningsled mellem antal
    soveværelser og størrelsen på garagen er
    nødvendig.
  • Næste skridt burde være modelkontrol.

33
Boligpris og Boligareal
34
Badeværelser og Boligpris
35
Generel Lineære Model - Startmodel
  • Afhængig Boligpris
  • Forklarende sqft, baths og bedroom2
  • Modelform

sqft baths bedroom2 sqftbedroom2
bathsbedroom2 sqftbaths
36
Model-formel
  • Den tilsvarende model-formel er
  • xb2 og xb3 er dummyvariable kodet som før.

37
Modelkontrol
  • Scatterplot af
  • ei mod yi
  • Godt Usystematisk
  • Skidt Variansen er
  • ikke konstant.
  • Løsninger?
  • Indfør price2 log(price)
  • Indfør price2 vprice

38
Normalfordelte Residualer
  • Fordelingen er lidt for spids til at være
    normalfordelt.
  • Men lad det nu ligge

39
Test i SPSS
  • Ingen af interaktionsleddene er signifikante!
  • Fjerner mindst signifikante led (bathssqft)

40
Reduceret Model
  • Begge tilbageværende vekselvirkningsled er mindre
    signifikante end før lidt atypisk.
  • Vi fjerner bedrooms2baths

41
Slutmodel
  • Nu er bedrooms2sqrt stærkt signifikant!
  • Modelsøgningen er slut pånær modelkontrol.

42
Estimater
  • Antal badeværelser har betydning for prisen
  • Ligeledes har antal soveværelser og boligareal
  • Prisen for en ekstra sqft afhænger af antal
    værelser.

43
Mini-Projekt
  • Omfang Ca. 30 sider
  • Indhold
  • Beskrivelse af data
  • Opstilling af (kvalitative) hypoteser
  • Anvend modeller og metoder fra kurset
  • Aflevering Senest mandag. d. 27/10 kl. 12. pr.
    e-mail til kkb_at_math.aau.dk
  • Eksamen Torsdag 30. Oktober.
Write a Comment
User Comments (0)
About PowerShow.com