Eksamensopgave i statistik for FSV-kandidatstuderende - PowerPoint PPT Presentation

1 / 50
About This Presentation
Title:

Eksamensopgave i statistik for FSV-kandidatstuderende

Description:

Eksamensopgave i statistik for FSV-kandidatstuderende maj 2002 d. 28. oktober Volkert Siersma Anden model lnHormon = k n + alder + alder2 + alder3 + k n*alder ... – PowerPoint PPT presentation

Number of Views:95
Avg rating:3.0/5.0
Slides: 51
Provided by: Volkert8
Category:

less

Transcript and Presenter's Notes

Title: Eksamensopgave i statistik for FSV-kandidatstuderende


1
Eksamensopgave i statistik for FSV-kandidatstudere
nde maj 2002
  • d. 28. oktober
  • Volkert Siersma

2
Eksamensopgave
  • 2 uger
  • Max. 30 sider

Det skal gøres hurtigere nu at vi har kun to
timer. Til gengæld skal vi ikke holde tilbage med
at se på tabeller og figurer for at underbygge
vores valg.
3
Eksamensopgave
  • For at belyse, hvorledes koncentrationen af et
    bestemt væksthormon afhænger af køn, alder, BMI
    og kønsmodning blev der i begyndelsen af 90erne
    indsamlet oplysninger om koncentrationen af dette
    hormon blandt sunde danske børn, unge og voksne.
  • Men vores formål i denne opgaven er lidt
    anderledes

4
Eksamensopgave
  • En statistisk standard er en statistisk model,
    der viser hvorledes et bestemt forhold varierer
    inden for en bestemt population, således at man
    ud fra denne model kan vurdere, om konkrete
    observerede værdier er påfaldende. 
  • Det overordnede formål med denne opgave er at
    udarbejde en sådan standard ud fra hvilken man
    med udgangspunkt i køn, alder, BMI, menarche,
    testikelvolumen og pubertet kan vurdere, om en
    person har et usædvanligt lavt eller højt hormon
    niveau.
  • I skal lave en model der beskriver, hvorledes
    hormon koncentrationen afhænger af ovennævnte
    faktorer, således at man efterfølgende kan
    beregne grænseværdier, der afgrænser en passende
    lille andel f.eks. 5 - af populationen med
    påfaldende lave eller høje hormon
    koncentrationer.

5
Statistiske modeller
All models are wrong some models are useful
George Box
(Statistiske) modeller er simplificeringer af
virkeligheden. De bruges til at fremhave bestemte
tendenser der har forskningsinteresse (og
ignorere andre tendenser der ikke er vigtig for
formålet). Modellerne bliver kalibreret med data
der er observeret fra processen denne
kalibrering er ofte formålet med modelbygningen!
6
To formål
  • Inferens Har alder betydning for
    hormonniveauet?
  • Prediktion Hvad er hormonniveauet for en given
    alder?

Modeller er nok af samme type, men hvilken
modelantagelser er særlig vigtige kommer an på
formål.
7
Generelle lineære modeller (GLM)
  • Modeller for kvantitative afhængige variabler
  • Generelle flere uafhængige variabler
  • Kvantitative også transformationer heraf
  • Kategoriske dummy variabler
  • Vekselvirkninger produkt af variabler
  • Lineære middelværdi af den afhængige variable
    er en såkaldt lineær form
  • E(Y X1,..,Xk) f(X1,..,Xk)

8
Antagelser GLM
  • Residualerne er normaltfordelte
  • Varians af residualerne er homogen
  • Effekterne er lineære

Hvad betyder analysens formål for analysen og
hvor vigtig antagelserne er i begge tilfælde?
9
Formål inferens
  • Har alder en effekt på hormon niveau?
  • Test om en eller flere parametre (beta) i den
    lineære form er lig med 0.
  • Varianshomogenitet er vigtig, men residualerne
    kræves ikke normaltfordelte hvis vi har data nok
    giver CLT nok den rigtige fordelinger af
    teststørrelser.

10
Formål prædiktion
  • Hvad er hormonniveauet for en given alder?
  • Ønsket er en beskrivelse af fordelingen af hormon
    niveauet for given alder.
  • Hvis vi har varianshomogenitet og normalt
    fordelte residualerne kan vi bygge en 95
    referenceinterval for hver alder.

11
Ang. Lineære effekter
  • Det kraves at den lineære form er en godt
    beskrivelse af middelværdien, ikke at alle
    variabler indgår bare som kvantitativ
    hovedeffekt.
  • Hvis hormonniveauet stiger først med alder og så
    afflader til bestemt niveau, så er måske effekten
    af log(alder) lineær.

12
Ang. Lineære effekter
  • Hvis man ikke vil tænke så meget hvilken
    transformation kræves for linearitet, så kan man
    lade data tale
  • Lav en kvantitativ variabel om i en kategorisk
    variabel
  • Tilføj X i anden, X i tredje, X i fjerde, etc.
    til analysen X indgår som en polynom.
  • Snedig valgte funktioner kernel smoothers
    splines, wavelets

13
Analysestrategi
  • (Svend) Se på de enkelte variabler og på
    relationer mellem hormon og variabler for at
    finde ud hvad modellen skal indeholde, byg så
    modellen.
  • (Alternativ) Byg en model, se om de vigtige
    antagelser holder eller om den kan forbedres lav
    så en bedre model.

Skal indeholde elementer fra begge
14
Analysestrategi
  • Enkelte variabler er der problemer?
  • Variabler og hormon gode ideer til
    modelbygning.
  • Saml variabler i én model og tilføj/fjern
    elementer til forbedring.
  • Normalfordelte residualerne
  • Varianshomogenitet
  • Bedre prædiktion ()

15
Ang. Bedre prædiktion
  • Hvis vi tilføjer elementer i vores model bliver
    vores fit f-eks. R2 bedre (per definition).
  • I en model med for mange elementer går vigtige
    tendenser tabt til fordel for fit.
  • Vores formål skal være den bedste fit med mindst
    mulig model elementer/parametre.
  • (Akaike) AIC2k-nlog(2pRSS/n) 1 (k
    parametre, n data) mindst er bedst.

16
Enkelte variabler

17
Enkelte variabler
  • For mange er der ingen hormon niveau. Vi håber at
    det er tilfældigt, og at det ikke betyder at
    niveauet er så lavt at det ikke kan måles
  • Testikelvolumen er bare for drenge, og menarche
    er bare for piger. Endvidere skal vi i trin 3
    opdele analyser i tre pubertets stadier så får
    vi 6 modeller til sidst!

18
Hormon
19
Hormon
  • Ikke normalt fordelt men det behøver den heller
    ikke at være.
  • To topper to køn?
  • Lidt langt hale til højre
  • Ser ikke mærkeligt ud umiddelbart

20
Hormon og alder
21
Hormon og alder
  • SPSS har en facilitet at plotte den bedste
    lineære, kvadratiske og kubiske fit i en plot
    (lav en graph med legacy dialogs og åben så chart
    fra outputtet, en line fit kan indlægges)
  • Fit bliver (lidt) bedre jo højere grad polynom
  • Variansen stiger med alderen variansheterogenitet
    . Forsøg med logaritme af hormon niveau.

22
Transformationer
  • Især hvis der er variansheterogenitet kan det
    hjælpe at modellere en transformation af den
    afhængige variable Y i stedet for Y selv.
  • Hvis variansen stiger når værdier (gt0) er større
    (ligesom i hormon data), så er en log(Y) en
    oplagt valg parametre kan interpreteres exp(ß)
    gange mere hormon når alder stiger med 1.
  • Andre transformationer f.eks. Box-Cox

23
lnHormon
Virker ikke dårligere end hormon. Hale er nu til
venstre.
24
lnHormon og alder
25
lnHormon og alder
  • Mere varianshomogen end før
  • Virker som en kvadratisk sammenhæng i første
    omgang.

26
lnHormon og køn

Variansheterogenitet, også efter
log-transformationen. Men vi skal se hvad der
sker når alder bliver inddraget og vi skal
senere alligevel dele data op for køn.
27
First model
  • lnHormon sex alder alder2
  • Levenes test ingen variansheterogenitet mellem
    groups (her køn)
  • Plot predicted mod (std.) residuals for at belyse
    andre former for variansheterogenitet
  • P-P plot eller Kolmogorov-Smirnov test for at se
    på residualernes normalitet

28
Levenes test
OK
29
Varianshomogenitet og alder
OK
30
Varianshomogenitet og niveau
OK
31
Normalitet af residualerne
OK
32
Normalitet af residualerne
OK
1-sample K-S test findes under Analyze -
Non-parametric tests
33
Forbedringer?
  • De vigtigste antagelser er i orden i vores første
    model
  • Mulige forbedringer
  • Højere orden polynom for alder
  • Vekselvirkning alder og køn (så skal vi inkludere
    en vekselvirkning af køn med alle
    alder-elementer alder, alder i anden, alder i
    tredje, etc.)
  • Idet vi ikke er interesseret i hvordan alder
    virker, men i prædiktionen er signifikans ikke så
    vigtig men vi skal undgå overfitting!

34
Anden model
  • lnHormon køn alder alder2 alder3
    kønalder kønalder2 kønalder3
  • Levenes test OK
  • Residuals vs. Predicted, alder OK
  • P-P plot, K-S test OK
  • Vekselvirkninger kan måske fjernes (ikke
    signifikante) vi har ikke mange parametre i
    modellen og vi kan være rundhåndet med model
    elementer.
  • Se på AIC valg den med laveste værdi.

35
BMI
  • BMI vægt (kg) / højde (m) i anden
  • Er måske ikke en særlig intuitivt variabel for
    børn især ikke i puberteten. Skal ses som en
    integreret højde/vægt variabel.

36
lnHormon og BMI
Kvadratisk fit ser ud til at være bedst
37
Tredje model
  • lnHormon køn alder alder2 alder3
    kønalder kønalder2 kønalder3 bmi bmi2
    kønbmi kønbmi2
  • R2 er blevet mindre i forhold til sidste model.
    Der er fordi vi skulle smide nogle observationer
    ud fordi vi manglede højde eller vægt målinger.
  • For at kunne sammenligne R2 eller AIC skulle vi
    haft smidt ud alle observationer med manglede
    værdier fra begyndelsen af for at basere dem på
    samme mænge data.

38
Tredje model
  • All model checks OK
  • Forbedringer
  • Tilføje alder/BMI vekselvirkning
  • Tilføje alder/bmi/køn vekselvirkning
  • Tilføje højre ordens polynom for bmi
  • Så bliver modellen stor

39
Fjerde model
  • lnHormon køn alder alder2 alder3
    kønalder kønalder2 kønalder3 bmi bmi2
    kønbmi kønbmi2 alderbmi alder2bmi
    alder3bmi alderbmi2 alder2bmi2
    alder3bmi2 kønalderbmi kønalder2bmi
    kønalder3bmi kønalderbmi2 kønalder2bmi2
    kønalder3bmi2
  • Vi vælger ikke at inkludere bmi3
  • Stadig ikke særlig stor model

40
Fjerde model
  • Det er ikke så vigtig at modellen er lille eller
    at vi kan forstå effekt parametre formålet er
    prædiktion.
  • AIC kan sammenlignes med AIC fra tredje model,
    lav om nødvendigt modellen mindre.

41
Testikelvolumen
  • Kun for drenge
  • Virker lidt mærkeligt, næsten kategorisk, med
    mange tæt på 0

42
Testikelvolumen og pubertet
  • Testikelvolumen er ikke vigtig i præpuberteten!

43
lnHormon og testikelvolumen
Kvadratisk, men ikke i præpuberteten.
44
Menarche
  • Kun for piger

45
Menarche og pubertet
  • Bare interessant in puberteten selv, ikke i
    præpubertet eller postpubertet
  • Kategorisk variabel

46
lnHormon og Menarche
  • Variansheterogenitet, også efter
    log-transformation

47
Seks modeller
  • Lav menarche om
  • Lav en ny variabel menmenarche
  • Recode into same sådan at alle drenge får men1
  • Recode into same sådan at alle piger ikke i
    puberteten får men1
  • Lav testikelvolumnen om
  • Lav en ny variabel testestvol
  • Recode into same sådan at alle piger får tes0
  • Recode into same sådan at alle drenge i
    præpuberteten får tes0
  • Split data ved køn og pubertet

48
Seks modeller
  • Vores omkodning laver at vi har fjernet effekter
    af testikelvolumen og menarche hvor vi ikke
    forventer dem.
  • Vi kan ikke nemt fjerne variabler fra de enkelte
    analyser med split data
  • Grupperne er ikke så store, så vi skal være
    forsigtig med alt for store modeller

49
En nem model
  • lnHormon alder alder2 alder3 bmi bmi2
    tes tes2 men
  • Antagelser ikke OK ved kvinder i pubertet
    levenes test signifikant og P-P plot ikke smuk.
  • Tilføj men/alder vekselvirkning ikke OK
  • Tilføj men/bmi vekselvirkning Levene OK, P-P
    plot ikke smuk.

50
Seks modeller
  • Det virker ikke særlig bekvemt at køre seks
    modeller og at gennemse resultaterne hver gang én
    af modellerne skal tilpasses.
  • Helst skal modellerne ses efter en efter en.
  • Det ser ud at piger i puberteten er de
    vanskeligste at lave en statistisk standard for.
    Den kan kun med meget velvilje godtages.
Write a Comment
User Comments (0)
About PowerShow.com