Luento 4: Regressioanalyysi - PowerPoint PPT Presentation

1 / 74
About This Presentation
Title:

Luento 4: Regressioanalyysi

Description:

Title: Luento 4: Regressioanalyysi Author: Petri Nokelainen Last modified by: Petri Nokelainen Created Date: 1/11/2005 7:27:08 PM Document presentation format – PowerPoint PPT presentation

Number of Views:161
Avg rating:3.0/5.0
Slides: 75
Provided by: Petri47
Category:

less

Transcript and Presenter's Notes

Title: Luento 4: Regressioanalyysi


1
Luento 4 Regressioanalyysi
  • Petri Nokelainen

petri.nokelainen_at_uta.fi http//www.uta.fi/petri.n
okelainen
Kasvatustieteiden yksikkö Tampereen yliopisto
2
Sisältö
  • 1. General Linear Model (GLM)
  • 1.1 Korrelaatio
  • 2. Regressioanalyysi
  • 2.1 Regressioanalyysin historia
  • 2.2 Regressioanalyysin lajit
  • 2.3 Regressioanalyysin käyttötapoja
  • 2.4 Regressioanalyysin rajoituksia
  • 2.5 Regressioanalyysin vaiheet
  • 3. Kahden muuttujan regressioanalyysi
  • 4. Useamman muuttujan regressioanalyysi4.1
    Hierarkkinen regressioanalyysi
  • 4.2 Askeltava regressioanalyysi
  • 5. Kanoninen korrelaatio
  • Lähteet

3
1. General Linear Model (GLM)
X (IV) Y (DV)
Pearsonin tulomomenttikorrelaatiokerroin (r) 1,
jatkuva 1, jatkuva
Regressioanalyysi (Multiple RA) n, jatkuva 1,
jatkuva Varianssianalyysi (n-way ANOVA) n,
epäjatkuva 1, jatkuva Kahden ryhmän
erotteluanalyysi (Two-group LDA) n, jatkuva 1,
dikotominen
Monimuuttujaregressioanalyysi (Multivariate
RA) n, jatkuva n, jatkuva Monimuuttujavarianssia
nalyysi (MANOVA) n, epäjatkuva n,
jatkuva Erotteluanalyysi (LDA) n, jatkuva n,
epäjatkuva Faktorianalyysi (EFA) n,
latentti n, jatkuva Pääkomponenttianalyysi
(PCA) n, latentti n, jatkuva
4
(Nokelainen, 2008.)
5
DV IV Kovariaatit
Analyysi
1 jatkuva
Bivariate r
1 jatkuva
Ei Multiple R
n jatkuvaa
Joitakin
Seq. Multiple R
n jatkuvaa
Canonical R
n jatkuvaa
Muuttujien välisten riippuvuuksienvoimakkuus
1 diskr.
Multilevel modeling
n jatkuvaa tai diskr.
Ei yhtään
n-way Freq. Anal.
n diskr.
6
1.1 Korrelaatio
?
?
DV
IV 1
7
Sisältö
  • 1. General Linear Model (GLM)
  • 1.1 Korrelaatio
  • 2. Regressioanalyysi
  • 2.1 Regressioanalyysin historia
  • 2.2 Regressioanalyysin lajit
  • 2.3 Regressioanalyysin käyttötapoja
  • 2.4 Regressioanalyysin rajoituksia
  • 2.5 Regressioanalyysin vaiheet
  • 3. Kahden muuttujan regressioanalyysi
  • 4. Useamman muuttujan regressioanalyysi4.1
    Hierarkkinen regressioanalyysi
  • 4.2 Askeltava regressioanalyysi
  • 5. Kanoninen korrelaatio
  • Lähteet

8
2. Regressioanalyysi
X (IV) Y (DV)
Pearsonin tulomomenttikorrelaatiokerroin (r) 1,
jatkuva 1, jatkuva
Regressioanalyysi (Multiple RA) n, jatkuva 1,
jatkuva Varianssianalyysi (n-way ANOVA) n,
epäjatkuva 1, jatkuva Kahden ryhmän
erotteluanalyysi (Two-group LDA) n, jatkuva 1,
dikotominen
Monimuuttujaregressioanalyysi (Multivariate
RA) n, jatkuva n, jatkuva Monimuuttujavarianssia
nalyysi (MANOVA) n, epäjatkuva n,
jatkuva Erotteluanalyysi (LDA) n, jatkuva n,
epäjatkuva Faktorianalyysi (EFA) n,
latentti n, jatkuva Pääkomponenttianalyysi
(PCA) n, latentti n, jatkuva
9
(Nokelainen, 2008.)
10
DV IV Kovariaatit
Analyysi
1 jatkuva
Bivariate r
1 jatkuva
Ei Multiple R
n jatkuvaa
Joitakin
Seq. Multiple R
n jatkuvaa
Canonical R
n jatkuvaa
Muuttujien välisten riippuvuuksienvoimakkuus
1 diskr.
Multilevel modeling
n jatkuvaa tai diskr.
Ei yhtään
n-way Freq. Anal.
n diskr.
11
2. Regressioanalyysi
IV 1
?
?
IV 2
?
DV
?
r
IV 3
?
IV 4
12
2. Regressioanalyysi
  • regression analysis is a method of analyzing
    the variability of a dependent variable by
    resorting to information available on one or more
    independent variables.
  • (Pedhazur, 1982, 5)

13
2. Regressioanalyysi
  • Tarkastelee muuttujien välistä lineaarista
    yhteyttä, ts. ilmoittaa korrelaatiokertoimen
    tavoin kahden muuttujan välisen vaikutussuhteen
    voimakkuuden (-1, , 1).
  • Mahdollistaa lisäksi DV -muuttujan arvojen
    ennustamisen IV muuttujan (tai muuttujien)
    arvojen perusteella.

14
Sisältö
  • 1. General Linear Model (GLM)
  • 1.1 Korrelaatio
  • 2. Regressioanalyysi
  • 2.1 Regressioanalyysin historia
  • 2.2 Regressioanalyysin lajit
  • 2.3 Regressioanalyysin käyttötapoja
  • 2.4 Regressioanalyysin rajoituksia
  • 2.5 Regressioanalyysin vaiheet
  • 3. Kahden muuttujan regressioanalyysi
  • 4. Useamman muuttujan regressioanalyysi4.1
    Hierarkkinen regressioanalyysi
  • 4.2 Askeltava regressioanalyysi
  • 5. Kanoninen korrelaatio
  • Lähteet

15
2.1 Regressioanalyysin historia
  • Perustuu Galtonin (1885) havaintoihin
  • Pitkien isien pojista ei keskimäärin tullutkaan
    yhtä pitkiä kuin isistään, lyhyiden isien pojista
    tulikin keskimäärin pidempiä kuin isistään.
  • Poikien keskipituus lähestyi keskipituutta.

Sir Francis Galton 1822-1911
16
2.1 Regressioanalyysin historia
  • Regressioanalyysi on yksi kasvatustieteiden
    käytetyimmistä menetelmistä, mutta usein
    unohdetaan että sen tulisi perustua vahvalle
    teoreettiselle pohjalle.

17
Sisältö
  • 1. General Linear Model (GLM)
  • 1.1 Korrelaatio
  • 2. Regressioanalyysi
  • 2.1 Regressioanalyysin historia
  • 2.2 Regressioanalyysin lajit
  • 2.3 Regressioanalyysin käyttötapoja
  • 2.4 Regressioanalyysin rajoituksia
  • 2.5 Regressioanalyysin vaiheet
  • 3. Kahden muuttujan regressioanalyysi
  • 4. Useamman muuttujan regressioanalyysi4.1
    Hierarkkinen regressioanalyysi
  • 4.2 Askeltava regressioanalyysi
  • 5. Kanoninen korrelaatio
  • Lähteet

18
2.2 Regressioanalyysin lajit
  • Yhden tai useamman ennustemuuttujan (IV)
    regressioanalyysi
  • Monimuuttujaregressioanalyysi (Multivariate
    regression analysis)(ks. lisää esim. Nummenmaa
    et al., 1997, 307-326 Kerlinger, 1986, 527-561).
  • Hierarkkinen regressioanalyysi
  • Hierarchical/sequential multiple regression
    (Pedhazur, 1982 Tabachnick Fidell, 2007)

19
2.2 Regressioanalyysin lajit
  • Askeltava regressioanalyysi
  • Stepwise multiple regression (Pedhazur, 1982
    Tabachnick Fidell, 2007)
  • Kanoninen korrelaatio
  • Canonical correlation (Kerlinger, 1986, 561-568)
  • Logistinen regressioanalyysi
  • Logistic regression analysis
  • Poistaa lineaarisen regressioanalyysin
    vaatimuksen selitettävän muuttujan jatkuvuudesta,
    ks. esimerkki dokumentista 6.1 Logistinen
    regressio (FSD)
  • Multiway frequency analysis (Nummenmaa et al.,
    1997, 127-147)

20
A Standardi R B Hierarkkinen R C Askeltava R
A
B
C
IV1
IV2
IV3
21
Sisältö
  • 1. General Linear Model (GLM)
  • 1.1 Korrelaatio
  • 2. Regressioanalyysi
  • 2.1 Regressioanalyysin historia
  • 2.2 Regressioanalyysin lajit
  • 2.3 Regressioanalyysin käyttötapoja
  • 2.4 Regressioanalyysin rajoituksia
  • 2.5 Regressioanalyysin vaiheet
  • 3. Kahden muuttujan regressioanalyysi
  • 4. Useamman muuttujan regressioanalyysi4.1
    Hierarkkinen regressioanalyysi
  • 4.2 Askeltava regressioanalyysi
  • 5. Kanoninen korrelaatio
  • Lähteet

22
2.3 Regressioanalyysin käyttötapoja
  • Käyttötapoja
  • Selittävien (IV) muuttujien etsiminen
  • Opiskelumenestyksen selittäminen motivaation ja
    oppimisstrategioiden avulla.
  • Selittävien (IV) muuttujien selitysosuuden
    tutkiminen
  • Kuinka suuri vaikutus varhaisessa vaiheessa
    tapahtuneella erityisluokalle siirrolla on
    erityisoppilaan koulumenestykseen.
  • Selittävien (IV) muuttujien keskinäisen
    selitysosuuden vertailu eli mitkä muuttujat ovat
    toisia parempia tietyn Ilmiön selittäjinä.
  • Selitettävän (DV) muuttujan ennustaminen.

23
Sisältö
  • 1. General Linear Model (GLM)
  • 1.1 Korrelaatio
  • 2. Regressioanalyysi
  • 2.1 Regressioanalyysin historia
  • 2.2 Regressioanalyysin lajit
  • 2.3 Regressioanalyysin käyttötapoja
  • 2.4 Regressioanalyysin rajoituksia
  • 2.5 Regressioanalyysin vaiheet
  • 3. Kahden muuttujan regressioanalyysi
  • 4. Useamman muuttujan regressioanalyysi4.1
    Hierarkkinen regressioanalyysi
  • 4.2 Askeltava regressioanalyysi
  • 5. Kanoninen korrelaatio
  • Lähteet

24
2.4 Regressioanalyysin rajoituksia
  • Yleisiä rajoituksia
  • Regressioanalyysin avulla löydetyt
    vaikutussuhteet eivät välttämättä ole
    kausaalisia.
  • Kausaalisuuden määrittely on looginen ja
    koeasetelmallinen ongelma (Pearl, 2000).
  • Analyysiin mukaan otettujen DV ja IV muuttujien
    valinnan tulee olla teoreettisesti, loogisesti
    tms. perusteltavissa.

25
2.4 Regressioanalyysin rajoituksia
  • Teknisiä rajoituksia
  • Otoskoko (esim. viisi IV muuttujaa)
  • Greenin (1991) mukaan
  • N gt 508m (useita IV muuttujia), esim. N 5085
    90
  • N gt 104 m (yksi IV), esim. N 104 5 109
  • Stevensin (1996) mukaan
  • N 15m (kaikissa tapauksissa), esim. 155 75
  • IV muuttujien väliset suhteet
  • Multikollineaarisuutta (korkeita r /- .9
    korrelaatioita) ei saa esiintyä.
  • Singulaarisuutta (muuttuja on toisen/toisten
    kombinaatio, esim. kolmen testin yksittäiset
    pistemäärät ja niiden summamuuttuja) ei saa
    esiintyä.

26
2.4 Regressioanalyysin rajoituksia
  • Teknisiä rajoituksia
  • Poikkeavat arvot (outlier) tulisi poistaa,
    korvata uudella arvolla (rescore) tai muuntaa
    (transform).
  • X Y muuttujien kuvaajien tarkastelu!
  • Regressioanalyysiohjelmissa (SAS, BMDP, SPSS)
    poikkeavien arvojen vaikutusta tutkitaan
    seuraavilla mittaluvuilla
  • Leverage (l) arvioi poikkeavia arvoja IV
    muuttujien joukossa
  • Korkeat arvot ovat kaukana toisista
  • Discrepancy (d) arvioi sitä kuinka tapaus on
    linjassa muiden kanssa.
  • Influency (l) l d.

27
2.4 Regressioanalyysin rajoituksia
Korkea l Korkea d Korkea i
Matala l Korkea d Kohtuullinen i
Korkea l Matala d Kohtuullinen i
(Tabachnik Fidell, 1996, 135.)
28
2.4 Regressioanalyysin rajoituksia
  • Residuaalien (havaitun ja ennustetun DV arvon
    välinen erotus, regressioyhtälön virhetermi tai
    jäännöstermi, ?)
  • Normaalisuus
  • Residuaalien (ennustevirheiden) tulisi olla
    normaalisti jakautuneita
  • Lineaarisuus
  • Residuaalien ja ennustettujen DV arvojen välillä
    tulisi olla lineaarinen suhde
  • Homoskedastisuus
  • DV muuttujien residuaalien varianssien tulisi
    olla yhtä suuria.
  • Riippumattomuus
  • Residuaalien tulisi olla toisistaan
    riippumattomia.

29
2.4 Regressioanalyysin rajoituksia
A
  • A) Normaalisuus ei toteudu
  • B) Lineaarisuus ei toteudu
  • C) Homoskedastisuus ei toteudu

0
0
C
B
0
0
30
Sisältö
  • 1. General Linear Model (GLM)
  • 1.1 Korrelaatio
  • 2. Regressioanalyysi
  • 2.1 Regressioanalyysin historia
  • 2.2 Regressioanalyysin lajit
  • 2.3 Regressioanalyysin käyttötapoja
  • 2.4 Regressioanalyysin rajoituksia
  • 2.5 Regressioanalyysin vaiheet
  • 3. Kahden muuttujan regressioanalyysi
  • 4. Useamman muuttujan regressioanalyysi4.1
    Hierarkkinen regressioanalyysi
  • 4.2 Askeltava regressioanalyysi
  • 5. Kanoninen korrelaatio
  • Lähteet

31
2.5 Regressioanalyysin vaiheet
  • Regressioanalyysin vaiheet
  • Muuttujien valinta (DV, IV)
  • Paitsi jos käytetään Enter -menetelmää
  • Analyysi
  • Mallille tehtävät diagnostiset tarkastelut

32
Sisältö
  • 1. General Linear Model (GLM)
  • 1.1 Korrelaatio
  • 2. Regressioanalyysi
  • 2.1 Regressioanalyysin historia
  • 2.2 Regressioanalyysin lajit
  • 2.3 Regressioanalyysin käyttötapoja
  • 2.4 Regressioanalyysin rajoituksia
  • 2.5 Regressioanalyysin vaiheet
  • 3. Kahden muuttujan regressioanalyysi
  • 4. Useamman muuttujan regressioanalyysi4.1
    Hierarkkinen regressioanalyysi
  • 4.2 Askeltava regressioanalyysi
  • 5. Kanoninen korrelaatio
  • Lähteet

33
DV IV Kovariaatit
Analyysi
1 jatkuva
Bivariate r
1 jatkuva
Ei Multiple R
n jatkuvaa
Joitakin
Seq. Multiple R
n jatkuvaa
Canonical R
n jatkuvaa
Muuttujien välisten riippuvuuksienvoimakkuus
1 diskr.
Multilevel modeling
n jatkuvaa tai diskr.
Ei yhtään
n-way Freq. Anal.
n diskr.
34
3. Kahden muuttujan regressioanalyysi
  • Kahden muuttujan regressioanalyysi
  • Määritellään kahden, riippuvan (DV) ja
    riippumattoman (IV) muuttujan välinen yhtälö.
  • Esim. ennustetaan akateemista tuottavuutta (DV)
    kognitiivisten oppimistuotosten, esim. GPA,
    avulla (IV).
  • Jokaiselle yhtälössä olevalle riippumattomalle
    muuttujalle annetaan painokerroin (?), jotka
    yhdessä muodostavat ns. Beta vektorin (B).
  • Selitettävän muuttujan arvo saadaan kun
    selittävät muuttujat lasketaan yhteen
    painokertoimilla painotettuna ja summaan lisätään
    vakio.
  • Mallissa on aina mukana virhettä, jota kuvataan
    jäännöstermin, residuaalin, (?) avulla.

35
3. Kahden muuttujan regressioanalyysi
  • Yksinkertaisessa kahden muuttujan välisessä
    regressiossa määritetään lineaarinen yhtälö joka
    kuvaa riippuvan (Y) ja riippumattoman (X)
    muuttujan välistä suhdetta
  • y ?0 ?x ?
  • y riippuva muuttuja
  • ?0 leikkauskohta (intercept, constant)
  • ? regressioparametri (slope), kuvaa Y
    muuttujan ennustettua arvon muutosta kun X
    muuttujan arvo kasvaa yhden yksikön
  • x riippumaton muuttuja
  • ? jäännöstermi

36
3. Kahden muuttujan regressioanalyysi
y
yi
ei
yi ?0 ?xi ?
yj,
x
37
3. Kahden muuttujan regressioanalyysi
  • Mallin (regressioyhtälö) hyvyyden mittana
    käytetään selitettävän (DV, Y) ja selittävien
    (IV, X) muuttujien välistä korrelaatiota R.
  • H0 DV ja IV muuttujien välillä ei ole
    korrelaatiota (yksikin regressiokerroin saa arvon
    0).
  • Suurella otoskoolla nollahypoteesi tulee siis
    lähes varmasti hylätyksi.

38
3. Kahden muuttujan regressioanalyysi
39
3. Kahden muuttujan regressioanalyysi
  • R2 on mallin selitysaste
  • Kuinka monta prosenttia malli (siis
    ennustemuuttuja eli IV) pystyy selittämään
    riippuvan muuttujan (DV) vaihtelusta.
  • SPSS laskee kaksi selitysastetta, joista
    tieteellisissä raporteissa käytetään
    konservatiivisempaa (Adjusted R2).
  • Selitysasteen (R2) perusteella voidaan tehdä
    päätelmiä efektikoosta

40
3. Kahden muuttujan regressioanalyysi
41
3. Kahden muuttujan regressioanalyysi
42
Sisältö
  • 1. General Linear Model (GLM)
  • 1.1 Korrelaatio
  • 2. Regressioanalyysi
  • 2.1 Regressioanalyysin historia
  • 2.2 Regressioanalyysin lajit
  • 2.3 Regressioanalyysin käyttötapoja
  • 2.4 Regressioanalyysin rajoituksia
  • 2.5 Regressioanalyysin vaiheet
  • 3. Kahden muuttujan regressioanalyysi
  • 4. Useamman muuttujan regressioanalyysi4.1
    Hierarkkinen regressioanalyysi
  • 4.2 Askeltava regressioanalyysi
  • 5. Kanoninen korrelaatio
  • Lähteet

43
DV IV Kovariaatit
Analyysi
1 jatkuva
Bivariate r
1 jatkuva
Ei Multiple R
n jatkuvaa
Joitakin
Seq. Multiple R
n jatkuvaa
Canonical R
n jatkuvaa
Muuttujien välisten riippuvuuksienvoimakkuus
1 diskr.
Multilevel modeling
n jatkuvaa tai diskr.
Ei yhtään
n-way Freq. Anal.
n diskr.
44
4. Useamman muuttujan regressioanalyysi
  • Määritellään yhden riippuvan (DV) ja usean
    riippumattoman (IV) muuttujan välisiä yhtälöitä.
  • Esim. ennustetaan työssä koettua stressiä (DV)
    esimiehen johtamisominaisuuksien (IV1) ja ryhmän
    toimintakyvyn perusteella (IV2).
  • Kaikki riippumattomat muuttujat analysoidaan
    (Enter menetelmä), niitä ei valita tai aseteta
    järjestykseen.

45
4. Useamman muuttujan regressioanalyysi
  • Usean muuttujan lineaarisessa regressiossa
    määritetään lineaarinen yhtälö joka kuvaa yhden
    riippuvan ja usean riippumattoman muuttujan
    välistä suhdetta
  • y ?0 ?1x1 ?2x2 ... ?nxn ?
  • y riippuva muuttuja
  • ?0 vakio (constant)
  • ?1n regressioparametreja
  • x1n riippumattomia muuttujia
  • ? virhetermi

46
4. Useamman muuttujan regressioanalyysi
yi ?0 ?1ix1i ?2ix2i ... ?nixni
?
y
yi
ei
yj,
x
47
4. Useamman muuttujan regressioanalyysi
Knowledge
?
Value
Performance
Satisfaction
(Warren, White, Fuller, 1974.)
48
4. Useamman muuttujan regressioanalyysi
Yläasteen opintomenestys
Ammatillisten opintojen menestys
Kontrolliuskomukset
WorldSkills kilpailumenestys
?
Näyttötilanteiden jännittäminen
Ulkoinen tavoiteorientaatio
Tekemällä oppiminen
N64
49
4. Useamman muuttujan regressioanalyysi
  • Regressioanalyysin suorittaminen PASW/SPSS
    -ohjelmassa
  • Analyze Regression - Linear
  • Dependent kilpailumenestys (alle 23-vuotiaiden
    menestyminen WSC kilpailuissa, luokiteltu 3
    luokkaan 1 heikko, 2 keskitasoinen, 3
    paras).
  • Independent(s) str_3 (Learning by Doing,
    asteikko 1 täysin eri mieltä .. 5 täysin
    samaa mieltä), mot_2 (Extrinsic Goal
    Orientation), mot_4 (Control Beliefs), mot_6
    (Test Anxiety), ammatopmenestys (menestyminen
    ammatillisissa opinnoissa), ya_ka (yläasteen
    päästötodistuksen keskiarvo).
  • Statistics Estimates, Confidence intervals
    (95), Model fit, Collinearity diagnostics,
    Durbin-Watson.
  • Plots Y ZRESID (standardoidut residuaalit) ja
    X ZPRED (standardoidut ennustetut arvot)

50
4. Useamman muuttujan regressioanalyysi
  • Ensin tarkastellaan tulosteen lopusta Charts
    osasta täyttävätkö residuaalit niille asetetut
    vaatimukset normaaliuden ja lineaarisuuden osalta

Residuaalit ovat jakautuneet normaalisti ja
lineaarisesti.
51
4. Useamman muuttujan regressioanalyysi
  • Seuraavaksi tarkastellaan Model Summary taulukon
    Durbin-Watson sarakkeesta täyttävätkö
    residuaalit niille asetetut vaatimukset myös
    riippumattomuuden osalta

Durbin-Watson saa arvoja väliltä 0 4, arvon 2
osoittaessa korreloimattomia residuaaleja (D-W lt
2 positiivinen korrelaatio, D-W gt 2
negatiivinen korrelaatio). Hyväksyttävät arvot
vaihtelevat 1.0 3.0 välillä (2.0
optimi). Tässä aineistossa residuaalien voidaan
todeta olevan normaaleja, lineaarisia ja
riippumattomia, jolloin voidaan edetä varsinaisen
regressioanalyysin tulosten tulkintaan.
52
4. Useamman muuttujan regressioanalyysi
Kuvaa mallin yleistettävyyttä populaatioon, ts.
pitäisi olla lähellä R2 arvoa. Jos malli olisi
laskettu populaatiosta, eikä tästä 64 nuoren
otoksesta, se selittäisi noin 11 vähemmän
kilpailumenestyksestä (.442 - .331 .111).
Malli selittää tilastollisesti merkitsevästi
kilpailumenestystä.
53
4. Useamman muuttujan regressioanalyysi
Multikollineaarisuus-tarkastelu suoritetaan
vertaamalla Tolerance -sarakkeen arvoja lukuun
.67 (1-R21-.33). Suuret korrelaatiot eivät ole
ongelma, koska arvot vaihtelevat välillä
.730-.893 eli ovat arvoa .67 suurempia. Huom.
Tolerance 1 / VIF.
Luottamusväli joko osoittaa (tai sitten ei)
otoksesta lasketun painokertoimen (B) kuvaavan
populaation mielipidettä. Esim. B.644 kuvaa
tekemällä oppimisen positiivista yhteyttä
kilpailumenestykseen (p.021), ja samaa viestiä
tarjoaa luottamusvälikin (Bn arvo vaihtelee
populaatiossa 95 todennäköisyydellä välillä .104
- 1.185). Heikon selittäjän, esim. ulkoinen
tavoiteorientaatio (B.242 , p.368), osalta
luottamusväli ilmaisee että populaatiossa on
todennäköisesti myös henkilöitä joilla ulkoisen
tavoiteorientaation vaikutus kilpailumenestykseen
on negatiivinen (-.299).
Standardoimattomat kertoimet kuvaavat IV
muuttujan (prediktori) yhden yksikön kasvun
vaikutusta DV muuttujassa. Esim. kun
ammatillinen opintomenestys kasvaa yhdellä
arvosanalla, kilpailumenestyksen odotetaan
paranevan .66 sijoituksen verran.
54
4. Useamman muuttujan regressioanalyysi
Yläasteen opintomenestys
-.141(.139)
Ammatillisten opintojen menestys
R233
.644(.417)
Kontrolliuskomukset
WorldSkills kilpailumenestys
.247(.166)
Näyttötilanteiden jännittäminen
-.426(-.362)
Ulkoinen tavoiteorientaatio
.242(.138)
.644(.341)
Tekemällä oppiminen
55
4. Useamman muuttujan regressioanalyysi
  • Ammattitaidon maailmanmestaruuskilpailuissa
    menestymistä selittäviä tekijöitä tarkasteltiin
    regressioanalyysilla kuuden ennustemuuttujan
    avulla. Parhaat ennustajat olivat aiempi
    ammattiopintomenestys (?.417, p.001), tekemällä
    oppiminen (?.361, p.021) ja näyttötilanteiden
    jännittäminen (?-.362, p.018). Malli sopi
    aineistoon (p.005) ja tuloksen efektikoko oli
    Cohenin (1988) mukaan suuri, .331.

56
DV IV Kovariaatit
Analyysi
1 jatkuva
Bivariate r
1 jatkuva
Ei Multiple R
n jatkuvaa
Joitakin
Seq. Multiple R
n jatkuvaa
Canonical R
n jatkuvaa
Muuttujien välisten riippuvuuksienvoimakkuus
1 diskr.
Multilevel modeling
n jatkuvaa tai diskr.
Ei yhtään
n-way Freq. Anal.
n diskr.
57
Sisältö
  • 1. General Linear Model (GLM)
  • 1.1 Korrelaatio
  • 2. Regressioanalyysi
  • 2.1 Regressioanalyysin historia
  • 2.2 Regressioanalyysin lajit
  • 2.3 Regressioanalyysin käyttötapoja
  • 2.4 Regressioanalyysin rajoituksia
  • 2.5 Regressioanalyysin vaiheet
  • 3. Kahden muuttujan regressioanalyysi
  • 4. Useamman muuttujan regressioanalyysi4.1
    Hierarkkinen regressioanalyysi
  • 4.2 Askeltava regressioanalyysi
  • 5. Kanoninen korrelaatio
  • Lähteet

58
4.1 Hierarkkinen regressioanalyysi
  • Hierarchical/sequential multiple regression
    (Pedhazur, 1982 Tabachnick Fidell, 2007)
  • Rajoitukset ovat samat kuin perinteisessä
    regressioanalyysissa.
  • Analyysin suorittamiseen tarvitaan yksi jatkuva
    DV ja kaksi tai useampia jatkuva tai ei-jatkuva
    IV muuttuja.
  • Analyysin avulla voi selvittää kunkin IV
    muuttujan suhteellisen selitysosuuden DV
    muuttujan varianssista.

59
4.1 Hierarkkinen regressioanalyysi
  • Riippumattomat muuttujat sijoitetaan
    regressioyhtälöön tutkijan määrittämässä
    järjestyksessä.
  • Yleensä sijoittelun taustalla on teoreettinen,
    kausaalinen tms. oletus.
  • Tutkittaessa koettua stressiä (DV) sisäisten
    prosessien (IV) ja ulkoisten tapahtumien
    hallinnan (IV) toimiessa selittävinä muuttujina,
    on varmasti hyvä ottaa malliin mukaan työkokemus
    (IV) ja minäkäsitys (IV).

60
4.1 Hierarkkinen regressioanalyysi
  • Pääselittäjien voimaa voi myös tutkia
    sijoittamalla yhtälöön ensin vähempiarvoisia
    selittäjiä (kontrolloimalla niitä).
  • Henkilön lukunopeutta (DV) voi tutkia
    intensiivikurssin sisällön (IV) ja keston (IV)
    kannalta sijoittamalla yksilölliset erot
    lukunopeudessa (IV) yhtälöön ensimmäiseksi.

61
Sisältö
  • 1. General Linear Model (GLM)
  • 1.1 Korrelaatio
  • 2. Regressioanalyysi
  • 2.1 Regressioanalyysin historia
  • 2.2 Regressioanalyysin lajit
  • 2.3 Regressioanalyysin käyttötapoja
  • 2.4 Regressioanalyysin rajoituksia
  • 2.5 Regressioanalyysin vaiheet
  • 3. Kahden muuttujan regressioanalyysi
  • 4. Useamman muuttujan regressioanalyysi4.1
    Hierarkkinen regressioanalyysi
  • 4.2 Askeltava regressioanalyysi
  • 5. Kanoninen korrelaatio
  • Lähteet

62
4.2 Askeltava regressioanalyysi
  • Stepwise multiple regression, statistical
    regression (Pedhazur, 1982 Tabachnick Fidell,
    2007)
  • Menetelmää kutsutaan tilastolliseksi
    regressioanalyysiksi, koska selittävien
    muuttujien valinta perustuu puhtaasti
    tilastollisiin kriteereihin (esim. korrelaation
    voimakkuus DV muuttujan kanssa).
  • Muuttujien valinta tapahtuu yleisimmin kolmen
    menetelmän avulla (1) forward selection, (2)
    backward selection, ja (3) stepwise selection.

63
4.2 Askeltava regressioanalyysi
  • Forward selection (lisäävä menettely)
  • Tyhjään yhtälöön lisätään tilastollisen kriteerin
    täyttävä IV yksi kerrallaan. Kukin lisätty IV jää
    yhtälöön.
  • Backward selection (poistava menettely)
  • Kaikki IV muuttujat ovat alussa yhtälössä.
    Tilastollisen kriteerin ulkopuolelle jäävät IVt
    poistetaan yhtälöstä yksi kerrallaan.
  • Stepwise selection (askeltava menettely)
  • Yhdistelmä edellisistä. Yhtälö on aluksi tyhjä,
    ja siihen lisätään IV muuttujia yksi kerrallaan.
    Yhtälöstä voidaan myös poistaa IV muuttujia kun
    uusia, paremmin selittäviä tulee tilalle.

64
4.2 Askeltava regressioanalyysi
  • Perinteisessä regressioanalyysissa (A)
    voimakkaasti selitettävän muuttujan (DV) kanssa
    korreloiva selittävä muuttuja (IV1) voi jäädä
    statistin rooliin.

A
65
4.2 Askeltava regressioanalyysi
  • Askeltavassa mallinnuksessa (C) selitettävät
    muuttujat saavat krediitit riippuvan muuttujan
    selittämisestä korrelaation voimakkuuden
    perusteella.

C
66
4.2 Askeltava regressioanalyysi
  • Ylisovitus (overfitting) on askeltavien
    menetelmien riski, erityisesti tehtäessä
    tulkintoja yhden näytteen perusteella.
  • Ristiinvalidointi (cross validation) esim. toisen
    näytteen avulla (tai suuren datatiedoston
    puolitus) on suositeltavaa käytettäessä
    tilastollisia regressiomenetelmiä.
  • Ajetaan sama regressioanalyysi kaksi kertaa eri
    aineistoilla, esim. jaetaan yksi riittävän suuri
    aineisto kahteen satunnaisesti muodostettuun
    aliotokseen.

67
Sisältö
  • 1. General Linear Model (GLM)
  • 1.1 Korrelaatio
  • 2. Regressioanalyysi
  • 2.1 Regressioanalyysin historia
  • 2.2 Regressioanalyysin lajit
  • 2.3 Regressioanalyysin käyttötapoja
  • 2.4 Regressioanalyysin rajoituksia
  • 2.5 Regressioanalyysin vaiheet
  • 3. Kahden muuttujan regressioanalyysi
  • 4. Useamman muuttujan regressioanalyysi4.1
    Hierarkkinen regressioanalyysi
  • 4.2 Askeltava regressioanalyysi
  • 5. Kanoninen korrelaatio
  • Lähteet

68
DV IV Kovariaatit
Analyysi
1 jatkuva
Bivariate r
1 jatkuva
Ei Multiple R
n jatkuvaa
Joitakin
Seq. Multiple R
n jatkuvaa
Canonical R
n jatkuvaa
Muuttujien välisten riippuvuuksienvoimakkuus
1 diskr.
Multilevel modeling
n jatkuvaa tai diskr.
Ei yhtään
n-way Freq. Anal.
n diskr.
69
5. Kanoninen korrelaatio
  • Canonical correlation
  • (Kerlinger, 1986, 561-568)
  • Yleismenetelmä, jonka erikoistapauksia ovat mm.
    regressioanalyysi, erotteluanalyysi ja MANOVA.
  • Käytetään tutkimuskirjallisuudessa enemmän
    kuvailuun kuin hypoteesintestaukseen.
  • Tulokset ovat usein matemaattisesti elegantteja,
    mutta vaikeasti tulkittavissa (Tabachnik
    Fidell, 2007, 570).

70
5. Kanoninen korrelaatio
  • Menetelmän avulla tutkitaan kahden muuttujaryhmän
    välisiä vaikutussuhteita.
  • Toinen ryhmä voi koostua DV (esim.
    ympäristötietoisuus) ja toinen IV (esim.
    sukupuoli, koulutustaso, poliittinen kanta)
    muuttujista.
  • Tutkijan kannalta muuttujien valinta ja
    erityisesti tulosten mielekäs tulkinta on
    haasteellista.

71
Lähteet
  • Berk, R. A. (2004). Regression Analysis A
    Constructive Critique. Thousand Oaks Sage.
  • Cohen, J. (1988). Statistical power analysis for
    the behavioral sciences. Hillsdale, NJ Erlbaum.
  • Cronbach, L. J. (1951). Coefficient alpha and the
    internal structure of tests. Psychometrika, 16,
    297-334.
  • Galton, F. (1885). Regression towards mediocrity
    in hereditary stature. Journal of the
    Anthropological Institute, 15, 246-63.
  • Green, S. B. (1991). How many subjects does it
    take to do a regression analysis? Multivariate
    Behavioral Research, 26, 499-510.
  • Gulliksen, H. (1950). Theory of Mental Tests. New
    York John Wiley Sons.

72
Lähteet
  • Howell, D. (1997). Statistical Methods for
    Psychology. Belmont, CA Wadsworth Publishing
    Company.
  • Kerlinger, F. (1986). Foundations of Behavioral
    Research. Third Edition. New York CBS College
    Publishing.
  • Kuder, G. F., Richardson, M. W. (1937). The
    theory of the estimation of test reliability.
    Psychometrika, 2, 151-160.
  • Metsämuuronen, J. (2003). Tutkimuksen tekemisen
    perusteet ihmistieteissä. Helsinki International
    Methelp Ky.
  • Nummenmaa, L. (2009). Käyttäytymistieteiden
    tilastolliset menetelmät. Ensimmäinen painos,
    uudistettu laitos. Helsinki Tammi.
  • Nummenmaa, T., Konttinen, R., Kuusinen, J.,
    Leskinen, E. (1997). Tutkimusaineiston analyysi.
    Porvoo WSOY.

73
Lähteet
  • Pierce, C. A., Block, R., Aguinis, H. (2004).
    Cautionary note on reporting Eta-squared values
    from multifactor ANOVA designs. Educational and
    Psychological Measurement, 64(6), 916-924.
  • Pearl, J. (2000). Causality. New York Cambridge
    University Press.
  • Pedhazur, E. (1982). Multiple Regression Analysis
    in Behavioral Research. New York Holt, Rinehart
    and Winston.
  • Stevens, J. (1996). Applied Multivariate
    Statistics for the Social Sciences. Third
    edition. Mahwah, NJ Lawrence Erlbaum.
  • Tabachnick, B. G., Fidell, L. S. (1996). Using
    Multivariate Statistics. Third Edition. New York
    Harper Collins.

74
Lähteet
  • Tabachnick, B. G., Fidell, L. S. (2007). Using
    Multivariate Statistics. Fifth Edition. Boston
    Pearson.
  • Warren, R. D., White, J. K., Fuller, W. A.
    (1974). An errors-in-variables analysis of
    managerial role performance. Journal of American
    Statistical Association, 69, 886-893.
  • Vehkalahti, K. (2007). Kyselytutkimuksen mittarit
    ja menetelmät. http//www.helsinki.fi/7ekvehka
    la/mmm/moniste.pdf
Write a Comment
User Comments (0)
About PowerShow.com