Title: Eksamensopgave i statistik for FSV-kandidatstuderende
1Eksamensopgave i statistik for FSV-kandidatstudere
nde maj 2002
- d. 28. oktober
- Volkert Siersma
2Eksamensopgave
Det skal gøres hurtigere nu at vi har kun to
timer. Til gengæld skal vi ikke holde tilbage med
at se på tabeller og figurer for at underbygge
vores valg.
3Eksamensopgave
- For at belyse, hvorledes koncentrationen af et
bestemt væksthormon afhænger af køn, alder, BMI
og kønsmodning blev der i begyndelsen af 90erne
indsamlet oplysninger om koncentrationen af dette
hormon blandt sunde danske børn, unge og voksne. - Men vores formål i denne opgaven er lidt
anderledes
4Eksamensopgave
- En statistisk standard er en statistisk model,
der viser hvorledes et bestemt forhold varierer
inden for en bestemt population, således at man
ud fra denne model kan vurdere, om konkrete
observerede værdier er påfaldende. - Det overordnede formål med denne opgave er at
udarbejde en sådan standard ud fra hvilken man
med udgangspunkt i køn, alder, BMI, menarche,
testikelvolumen og pubertet kan vurdere, om en
person har et usædvanligt lavt eller højt hormon
niveau. - I skal lave en model der beskriver, hvorledes
hormon koncentrationen afhænger af ovennævnte
faktorer, således at man efterfølgende kan
beregne grænseværdier, der afgrænser en passende
lille andel f.eks. 5 - af populationen med
påfaldende lave eller høje hormon
koncentrationer.
5Statistiske modeller
All models are wrong some models are useful
George Box
(Statistiske) modeller er simplificeringer af
virkeligheden. De bruges til at fremhave bestemte
tendenser der har forskningsinteresse (og
ignorere andre tendenser der ikke er vigtig for
formålet). Modellerne bliver kalibreret med data
der er observeret fra processen denne
kalibrering er ofte formålet med modelbygningen!
6To formål
- Inferens Har alder betydning for
hormonniveauet? - Prediktion Hvad er hormonniveauet for en given
alder?
Modeller er nok af samme type, men hvilken
modelantagelser er særlig vigtige kommer an på
formål.
7Generelle lineære modeller (GLM)
- Modeller for kvantitative afhængige variabler
- Generelle flere uafhængige variabler
- Kvantitative også transformationer heraf
- Kategoriske dummy variabler
- Vekselvirkninger produkt af variabler
- Lineære middelværdi af den afhængige variable
er en såkaldt lineær form - E(Y X1,..,Xk) f(X1,..,Xk)
8Antagelser GLM
- Residualerne er normaltfordelte
- Varians af residualerne er homogen
- Effekterne er lineære
Hvad betyder analysens formål for analysen og
hvor vigtig antagelserne er i begge tilfælde?
9Formål inferens
- Har alder en effekt på hormon niveau?
- Test om en eller flere parametre (beta) i den
lineære form er lig med 0. - Varianshomogenitet er vigtig, men residualerne
kræves ikke normaltfordelte hvis vi har data nok
giver CLT nok den rigtige fordelinger af
teststørrelser.
10Formål prædiktion
- Hvad er hormonniveauet for en given alder?
- Ønsket er en beskrivelse af fordelingen af hormon
niveauet for given alder. - Hvis vi har varianshomogenitet og normalt
fordelte residualerne kan vi bygge en 95
referenceinterval for hver alder.
11Ang. Lineære effekter
- Det kraves at den lineære form er en godt
beskrivelse af middelværdien, ikke at alle
variabler indgår bare som kvantitativ
hovedeffekt. - Hvis hormonniveauet stiger først med alder og så
afflader til bestemt niveau, så er måske effekten
af log(alder) lineær.
12Ang. Lineære effekter
- Hvis man ikke vil tænke så meget hvilken
transformation kræves for linearitet, så kan man
lade data tale - Lav en kvantitativ variabel om i en kategorisk
variabel - Tilføj X i anden, X i tredje, X i fjerde, etc.
til analysen X indgår som en polynom. - Snedig valgte funktioner kernel smoothers
splines, wavelets
13Analysestrategi
- (Svend) Se på de enkelte variabler og på
relationer mellem hormon og variabler for at
finde ud hvad modellen skal indeholde, byg så
modellen. - (Alternativ) Byg en model, se om de vigtige
antagelser holder eller om den kan forbedres lav
så en bedre model.
Skal indeholde elementer fra begge
14Analysestrategi
- Enkelte variabler er der problemer?
- Variabler og hormon gode ideer til
modelbygning. - Saml variabler i én model og tilføj/fjern
elementer til forbedring. - Normalfordelte residualerne
- Varianshomogenitet
- Bedre prædiktion ()
15Ang. Bedre prædiktion
- Hvis vi tilføjer elementer i vores model bliver
vores fit f-eks. R2 bedre (per definition). - I en model med for mange elementer går vigtige
tendenser tabt til fordel for fit. - Vores formål skal være den bedste fit med mindst
mulig model elementer/parametre. - (Akaike) AIC2k-nlog(2pRSS/n) 1 (k
parametre, n data) mindst er bedst.
16Enkelte variabler
17Enkelte variabler
- For mange er der ingen hormon niveau. Vi håber at
det er tilfældigt, og at det ikke betyder at
niveauet er så lavt at det ikke kan måles - Testikelvolumen er bare for drenge, og menarche
er bare for piger. Endvidere skal vi i trin 3
opdele analyser i tre pubertets stadier så får
vi 6 modeller til sidst!
18Hormon
19Hormon
- Ikke normalt fordelt men det behøver den heller
ikke at være. - To topper to køn?
- Lidt langt hale til højre
- Ser ikke mærkeligt ud umiddelbart
20Hormon og alder
21Hormon og alder
- SPSS har en facilitet at plotte den bedste
lineære, kvadratiske og kubiske fit i en plot
(lav en graph med legacy dialogs og åben så chart
fra outputtet, en line fit kan indlægges) - Fit bliver (lidt) bedre jo højere grad polynom
- Variansen stiger med alderen variansheterogenitet
. Forsøg med logaritme af hormon niveau.
22Transformationer
- Især hvis der er variansheterogenitet kan det
hjælpe at modellere en transformation af den
afhængige variable Y i stedet for Y selv. - Hvis variansen stiger når værdier (gt0) er større
(ligesom i hormon data), så er en log(Y) en
oplagt valg parametre kan interpreteres exp(ß)
gange mere hormon når alder stiger med 1. - Andre transformationer f.eks. Box-Cox
23lnHormon
Virker ikke dårligere end hormon. Hale er nu til
venstre.
24lnHormon og alder
25lnHormon og alder
- Mere varianshomogen end før
- Virker som en kvadratisk sammenhæng i første
omgang.
26lnHormon og køn
Variansheterogenitet, også efter
log-transformationen. Men vi skal se hvad der
sker når alder bliver inddraget og vi skal
senere alligevel dele data op for køn.
27First model
- lnHormon sex alder alder2
- Levenes test ingen variansheterogenitet mellem
groups (her køn) - Plot predicted mod (std.) residuals for at belyse
andre former for variansheterogenitet - P-P plot eller Kolmogorov-Smirnov test for at se
på residualernes normalitet
28Levenes test
OK
29Varianshomogenitet og alder
OK
30Varianshomogenitet og niveau
OK
31Normalitet af residualerne
OK
32Normalitet af residualerne
OK
1-sample K-S test findes under Analyze -
Non-parametric tests
33Forbedringer?
- De vigtigste antagelser er i orden i vores første
model - Mulige forbedringer
- Højere orden polynom for alder
- Vekselvirkning alder og køn (så skal vi inkludere
en vekselvirkning af køn med alle
alder-elementer alder, alder i anden, alder i
tredje, etc.) - Idet vi ikke er interesseret i hvordan alder
virker, men i prædiktionen er signifikans ikke så
vigtig men vi skal undgå overfitting!
34Anden model
- lnHormon køn alder alder2 alder3
kønalder kønalder2 kønalder3 - Levenes test OK
- Residuals vs. Predicted, alder OK
- P-P plot, K-S test OK
- Vekselvirkninger kan måske fjernes (ikke
signifikante) vi har ikke mange parametre i
modellen og vi kan være rundhåndet med model
elementer. - Se på AIC valg den med laveste værdi.
35BMI
- BMI vægt (kg) / højde (m) i anden
- Er måske ikke en særlig intuitivt variabel for
børn især ikke i puberteten. Skal ses som en
integreret højde/vægt variabel.
36lnHormon og BMI
Kvadratisk fit ser ud til at være bedst
37Tredje model
- lnHormon køn alder alder2 alder3
kønalder kønalder2 kønalder3 bmi bmi2
kønbmi kønbmi2 - R2 er blevet mindre i forhold til sidste model.
Der er fordi vi skulle smide nogle observationer
ud fordi vi manglede højde eller vægt målinger. - For at kunne sammenligne R2 eller AIC skulle vi
haft smidt ud alle observationer med manglede
værdier fra begyndelsen af for at basere dem på
samme mænge data.
38Tredje model
- All model checks OK
- Forbedringer
- Tilføje alder/BMI vekselvirkning
- Tilføje alder/bmi/køn vekselvirkning
- Tilføje højre ordens polynom for bmi
- Så bliver modellen stor
39Fjerde model
- lnHormon køn alder alder2 alder3
kønalder kønalder2 kønalder3 bmi bmi2
kønbmi kønbmi2 alderbmi alder2bmi
alder3bmi alderbmi2 alder2bmi2
alder3bmi2 kønalderbmi kønalder2bmi
kønalder3bmi kønalderbmi2 kønalder2bmi2
kønalder3bmi2 - Vi vælger ikke at inkludere bmi3
- Stadig ikke særlig stor model
40Fjerde model
- Det er ikke så vigtig at modellen er lille eller
at vi kan forstå effekt parametre formålet er
prædiktion. - AIC kan sammenlignes med AIC fra tredje model,
lav om nødvendigt modellen mindre.
41Testikelvolumen
- Kun for drenge
- Virker lidt mærkeligt, næsten kategorisk, med
mange tæt på 0
42Testikelvolumen og pubertet
- Testikelvolumen er ikke vigtig i præpuberteten!
43lnHormon og testikelvolumen
Kvadratisk, men ikke i præpuberteten.
44Menarche
45Menarche og pubertet
- Bare interessant in puberteten selv, ikke i
præpubertet eller postpubertet - Kategorisk variabel
46lnHormon og Menarche
- Variansheterogenitet, også efter
log-transformation
47Seks modeller
- Lav menarche om
- Lav en ny variabel menmenarche
- Recode into same sådan at alle drenge får men1
- Recode into same sådan at alle piger ikke i
puberteten får men1 - Lav testikelvolumnen om
- Lav en ny variabel testestvol
- Recode into same sådan at alle piger får tes0
- Recode into same sådan at alle drenge i
præpuberteten får tes0 - Split data ved køn og pubertet
48Seks modeller
- Vores omkodning laver at vi har fjernet effekter
af testikelvolumen og menarche hvor vi ikke
forventer dem. - Vi kan ikke nemt fjerne variabler fra de enkelte
analyser med split data - Grupperne er ikke så store, så vi skal være
forsigtig med alt for store modeller
49En nem model
- lnHormon alder alder2 alder3 bmi bmi2
tes tes2 men - Antagelser ikke OK ved kvinder i pubertet
levenes test signifikant og P-P plot ikke smuk. - Tilføj men/alder vekselvirkning ikke OK
- Tilføj men/bmi vekselvirkning Levene OK, P-P
plot ikke smuk.
50Seks modeller
- Det virker ikke særlig bekvemt at køre seks
modeller og at gennemse resultaterne hver gang én
af modellerne skal tilpasses. - Helst skal modellerne ses efter en efter en.
- Det ser ud at piger i puberteten er de
vanskeligste at lave en statistisk standard for.
Den kan kun med meget velvilje godtages.