Title: Luento 4: Regressioanalyysi
1Luento 4 Regressioanalyysi
petri.nokelainen_at_uta.fi http//www.uta.fi/petri.n
okelainen
Kasvatustieteiden yksikkö Tampereen yliopisto
2Sisältö
- 1. General Linear Model (GLM)
- 1.1 Korrelaatio
- 2. Regressioanalyysi
- 2.1 Regressioanalyysin historia
- 2.2 Regressioanalyysin lajit
- 2.3 Regressioanalyysin käyttötapoja
- 2.4 Regressioanalyysin rajoituksia
- 2.5 Regressioanalyysin vaiheet
- 3. Kahden muuttujan regressioanalyysi
- 4. Useamman muuttujan regressioanalyysi4.1
Hierarkkinen regressioanalyysi - 4.2 Askeltava regressioanalyysi
- 5. Kanoninen korrelaatio
- Lähteet
31. General Linear Model (GLM)
X (IV) Y (DV)
Pearsonin tulomomenttikorrelaatiokerroin (r) 1,
jatkuva 1, jatkuva
Regressioanalyysi (Multiple RA) n, jatkuva 1,
jatkuva Varianssianalyysi (n-way ANOVA) n,
epäjatkuva 1, jatkuva Kahden ryhmän
erotteluanalyysi (Two-group LDA) n, jatkuva 1,
dikotominen
Monimuuttujaregressioanalyysi (Multivariate
RA) n, jatkuva n, jatkuva Monimuuttujavarianssia
nalyysi (MANOVA) n, epäjatkuva n,
jatkuva Erotteluanalyysi (LDA) n, jatkuva n,
epäjatkuva Faktorianalyysi (EFA) n,
latentti n, jatkuva Pääkomponenttianalyysi
(PCA) n, latentti n, jatkuva
4(Nokelainen, 2008.)
5DV IV Kovariaatit
Analyysi
1 jatkuva
Bivariate r
1 jatkuva
Ei Multiple R
n jatkuvaa
Joitakin
Seq. Multiple R
n jatkuvaa
Canonical R
n jatkuvaa
Muuttujien välisten riippuvuuksienvoimakkuus
1 diskr.
Multilevel modeling
n jatkuvaa tai diskr.
Ei yhtään
n-way Freq. Anal.
n diskr.
61.1 Korrelaatio
?
?
DV
IV 1
7Sisältö
- 1. General Linear Model (GLM)
- 1.1 Korrelaatio
- 2. Regressioanalyysi
- 2.1 Regressioanalyysin historia
- 2.2 Regressioanalyysin lajit
- 2.3 Regressioanalyysin käyttötapoja
- 2.4 Regressioanalyysin rajoituksia
- 2.5 Regressioanalyysin vaiheet
- 3. Kahden muuttujan regressioanalyysi
- 4. Useamman muuttujan regressioanalyysi4.1
Hierarkkinen regressioanalyysi - 4.2 Askeltava regressioanalyysi
- 5. Kanoninen korrelaatio
- Lähteet
82. Regressioanalyysi
X (IV) Y (DV)
Pearsonin tulomomenttikorrelaatiokerroin (r) 1,
jatkuva 1, jatkuva
Regressioanalyysi (Multiple RA) n, jatkuva 1,
jatkuva Varianssianalyysi (n-way ANOVA) n,
epäjatkuva 1, jatkuva Kahden ryhmän
erotteluanalyysi (Two-group LDA) n, jatkuva 1,
dikotominen
Monimuuttujaregressioanalyysi (Multivariate
RA) n, jatkuva n, jatkuva Monimuuttujavarianssia
nalyysi (MANOVA) n, epäjatkuva n,
jatkuva Erotteluanalyysi (LDA) n, jatkuva n,
epäjatkuva Faktorianalyysi (EFA) n,
latentti n, jatkuva Pääkomponenttianalyysi
(PCA) n, latentti n, jatkuva
9(Nokelainen, 2008.)
10DV IV Kovariaatit
Analyysi
1 jatkuva
Bivariate r
1 jatkuva
Ei Multiple R
n jatkuvaa
Joitakin
Seq. Multiple R
n jatkuvaa
Canonical R
n jatkuvaa
Muuttujien välisten riippuvuuksienvoimakkuus
1 diskr.
Multilevel modeling
n jatkuvaa tai diskr.
Ei yhtään
n-way Freq. Anal.
n diskr.
112. Regressioanalyysi
IV 1
?
?
IV 2
?
DV
?
r
IV 3
?
IV 4
122. Regressioanalyysi
- regression analysis is a method of analyzing
the variability of a dependent variable by
resorting to information available on one or more
independent variables. - (Pedhazur, 1982, 5)
132. Regressioanalyysi
- Tarkastelee muuttujien välistä lineaarista
yhteyttä, ts. ilmoittaa korrelaatiokertoimen
tavoin kahden muuttujan välisen vaikutussuhteen
voimakkuuden (-1, , 1). - Mahdollistaa lisäksi DV -muuttujan arvojen
ennustamisen IV muuttujan (tai muuttujien)
arvojen perusteella.
14Sisältö
- 1. General Linear Model (GLM)
- 1.1 Korrelaatio
- 2. Regressioanalyysi
- 2.1 Regressioanalyysin historia
- 2.2 Regressioanalyysin lajit
- 2.3 Regressioanalyysin käyttötapoja
- 2.4 Regressioanalyysin rajoituksia
- 2.5 Regressioanalyysin vaiheet
- 3. Kahden muuttujan regressioanalyysi
- 4. Useamman muuttujan regressioanalyysi4.1
Hierarkkinen regressioanalyysi - 4.2 Askeltava regressioanalyysi
- 5. Kanoninen korrelaatio
- Lähteet
152.1 Regressioanalyysin historia
- Perustuu Galtonin (1885) havaintoihin
- Pitkien isien pojista ei keskimäärin tullutkaan
yhtä pitkiä kuin isistään, lyhyiden isien pojista
tulikin keskimäärin pidempiä kuin isistään. - Poikien keskipituus lähestyi keskipituutta.
Sir Francis Galton 1822-1911
162.1 Regressioanalyysin historia
- Regressioanalyysi on yksi kasvatustieteiden
käytetyimmistä menetelmistä, mutta usein
unohdetaan että sen tulisi perustua vahvalle
teoreettiselle pohjalle.
17Sisältö
- 1. General Linear Model (GLM)
- 1.1 Korrelaatio
- 2. Regressioanalyysi
- 2.1 Regressioanalyysin historia
- 2.2 Regressioanalyysin lajit
- 2.3 Regressioanalyysin käyttötapoja
- 2.4 Regressioanalyysin rajoituksia
- 2.5 Regressioanalyysin vaiheet
- 3. Kahden muuttujan regressioanalyysi
- 4. Useamman muuttujan regressioanalyysi4.1
Hierarkkinen regressioanalyysi - 4.2 Askeltava regressioanalyysi
- 5. Kanoninen korrelaatio
- Lähteet
182.2 Regressioanalyysin lajit
- Yhden tai useamman ennustemuuttujan (IV)
regressioanalyysi - Monimuuttujaregressioanalyysi (Multivariate
regression analysis)(ks. lisää esim. Nummenmaa
et al., 1997, 307-326 Kerlinger, 1986, 527-561). - Hierarkkinen regressioanalyysi
- Hierarchical/sequential multiple regression
(Pedhazur, 1982 Tabachnick Fidell, 2007)
192.2 Regressioanalyysin lajit
- Askeltava regressioanalyysi
- Stepwise multiple regression (Pedhazur, 1982
Tabachnick Fidell, 2007) - Kanoninen korrelaatio
- Canonical correlation (Kerlinger, 1986, 561-568)
- Logistinen regressioanalyysi
- Logistic regression analysis
- Poistaa lineaarisen regressioanalyysin
vaatimuksen selitettävän muuttujan jatkuvuudesta,
ks. esimerkki dokumentista 6.1 Logistinen
regressio (FSD) - Multiway frequency analysis (Nummenmaa et al.,
1997, 127-147)
20A Standardi R B Hierarkkinen R C Askeltava R
A
B
C
IV1
IV2
IV3
21Sisältö
- 1. General Linear Model (GLM)
- 1.1 Korrelaatio
- 2. Regressioanalyysi
- 2.1 Regressioanalyysin historia
- 2.2 Regressioanalyysin lajit
- 2.3 Regressioanalyysin käyttötapoja
- 2.4 Regressioanalyysin rajoituksia
- 2.5 Regressioanalyysin vaiheet
- 3. Kahden muuttujan regressioanalyysi
- 4. Useamman muuttujan regressioanalyysi4.1
Hierarkkinen regressioanalyysi - 4.2 Askeltava regressioanalyysi
- 5. Kanoninen korrelaatio
- Lähteet
222.3 Regressioanalyysin käyttötapoja
- Käyttötapoja
- Selittävien (IV) muuttujien etsiminen
- Opiskelumenestyksen selittäminen motivaation ja
oppimisstrategioiden avulla. - Selittävien (IV) muuttujien selitysosuuden
tutkiminen - Kuinka suuri vaikutus varhaisessa vaiheessa
tapahtuneella erityisluokalle siirrolla on
erityisoppilaan koulumenestykseen. - Selittävien (IV) muuttujien keskinäisen
selitysosuuden vertailu eli mitkä muuttujat ovat
toisia parempia tietyn Ilmiön selittäjinä. - Selitettävän (DV) muuttujan ennustaminen.
23Sisältö
- 1. General Linear Model (GLM)
- 1.1 Korrelaatio
- 2. Regressioanalyysi
- 2.1 Regressioanalyysin historia
- 2.2 Regressioanalyysin lajit
- 2.3 Regressioanalyysin käyttötapoja
- 2.4 Regressioanalyysin rajoituksia
- 2.5 Regressioanalyysin vaiheet
- 3. Kahden muuttujan regressioanalyysi
- 4. Useamman muuttujan regressioanalyysi4.1
Hierarkkinen regressioanalyysi - 4.2 Askeltava regressioanalyysi
- 5. Kanoninen korrelaatio
- Lähteet
242.4 Regressioanalyysin rajoituksia
- Yleisiä rajoituksia
- Regressioanalyysin avulla löydetyt
vaikutussuhteet eivät välttämättä ole
kausaalisia. - Kausaalisuuden määrittely on looginen ja
koeasetelmallinen ongelma (Pearl, 2000). - Analyysiin mukaan otettujen DV ja IV muuttujien
valinnan tulee olla teoreettisesti, loogisesti
tms. perusteltavissa.
252.4 Regressioanalyysin rajoituksia
- Teknisiä rajoituksia
- Otoskoko (esim. viisi IV muuttujaa)
- Greenin (1991) mukaan
- N gt 508m (useita IV muuttujia), esim. N 5085
90 - N gt 104 m (yksi IV), esim. N 104 5 109
- Stevensin (1996) mukaan
- N 15m (kaikissa tapauksissa), esim. 155 75
- IV muuttujien väliset suhteet
- Multikollineaarisuutta (korkeita r /- .9
korrelaatioita) ei saa esiintyä. - Singulaarisuutta (muuttuja on toisen/toisten
kombinaatio, esim. kolmen testin yksittäiset
pistemäärät ja niiden summamuuttuja) ei saa
esiintyä.
262.4 Regressioanalyysin rajoituksia
- Teknisiä rajoituksia
- Poikkeavat arvot (outlier) tulisi poistaa,
korvata uudella arvolla (rescore) tai muuntaa
(transform). - X Y muuttujien kuvaajien tarkastelu!
- Regressioanalyysiohjelmissa (SAS, BMDP, SPSS)
poikkeavien arvojen vaikutusta tutkitaan
seuraavilla mittaluvuilla - Leverage (l) arvioi poikkeavia arvoja IV
muuttujien joukossa - Korkeat arvot ovat kaukana toisista
- Discrepancy (d) arvioi sitä kuinka tapaus on
linjassa muiden kanssa. - Influency (l) l d.
272.4 Regressioanalyysin rajoituksia
Korkea l Korkea d Korkea i
Matala l Korkea d Kohtuullinen i
Korkea l Matala d Kohtuullinen i
(Tabachnik Fidell, 1996, 135.)
282.4 Regressioanalyysin rajoituksia
- Residuaalien (havaitun ja ennustetun DV arvon
välinen erotus, regressioyhtälön virhetermi tai
jäännöstermi, ?) - Normaalisuus
- Residuaalien (ennustevirheiden) tulisi olla
normaalisti jakautuneita - Lineaarisuus
- Residuaalien ja ennustettujen DV arvojen välillä
tulisi olla lineaarinen suhde - Homoskedastisuus
- DV muuttujien residuaalien varianssien tulisi
olla yhtä suuria. - Riippumattomuus
- Residuaalien tulisi olla toisistaan
riippumattomia.
292.4 Regressioanalyysin rajoituksia
A
- A) Normaalisuus ei toteudu
- B) Lineaarisuus ei toteudu
- C) Homoskedastisuus ei toteudu
0
0
C
B
0
0
30Sisältö
- 1. General Linear Model (GLM)
- 1.1 Korrelaatio
- 2. Regressioanalyysi
- 2.1 Regressioanalyysin historia
- 2.2 Regressioanalyysin lajit
- 2.3 Regressioanalyysin käyttötapoja
- 2.4 Regressioanalyysin rajoituksia
- 2.5 Regressioanalyysin vaiheet
- 3. Kahden muuttujan regressioanalyysi
- 4. Useamman muuttujan regressioanalyysi4.1
Hierarkkinen regressioanalyysi - 4.2 Askeltava regressioanalyysi
- 5. Kanoninen korrelaatio
- Lähteet
312.5 Regressioanalyysin vaiheet
- Regressioanalyysin vaiheet
- Muuttujien valinta (DV, IV)
- Paitsi jos käytetään Enter -menetelmää
- Analyysi
- Mallille tehtävät diagnostiset tarkastelut
32Sisältö
- 1. General Linear Model (GLM)
- 1.1 Korrelaatio
- 2. Regressioanalyysi
- 2.1 Regressioanalyysin historia
- 2.2 Regressioanalyysin lajit
- 2.3 Regressioanalyysin käyttötapoja
- 2.4 Regressioanalyysin rajoituksia
- 2.5 Regressioanalyysin vaiheet
- 3. Kahden muuttujan regressioanalyysi
- 4. Useamman muuttujan regressioanalyysi4.1
Hierarkkinen regressioanalyysi - 4.2 Askeltava regressioanalyysi
- 5. Kanoninen korrelaatio
- Lähteet
33DV IV Kovariaatit
Analyysi
1 jatkuva
Bivariate r
1 jatkuva
Ei Multiple R
n jatkuvaa
Joitakin
Seq. Multiple R
n jatkuvaa
Canonical R
n jatkuvaa
Muuttujien välisten riippuvuuksienvoimakkuus
1 diskr.
Multilevel modeling
n jatkuvaa tai diskr.
Ei yhtään
n-way Freq. Anal.
n diskr.
343. Kahden muuttujan regressioanalyysi
- Kahden muuttujan regressioanalyysi
- Määritellään kahden, riippuvan (DV) ja
riippumattoman (IV) muuttujan välinen yhtälö. - Esim. ennustetaan akateemista tuottavuutta (DV)
kognitiivisten oppimistuotosten, esim. GPA,
avulla (IV). - Jokaiselle yhtälössä olevalle riippumattomalle
muuttujalle annetaan painokerroin (?), jotka
yhdessä muodostavat ns. Beta vektorin (B). - Selitettävän muuttujan arvo saadaan kun
selittävät muuttujat lasketaan yhteen
painokertoimilla painotettuna ja summaan lisätään
vakio. - Mallissa on aina mukana virhettä, jota kuvataan
jäännöstermin, residuaalin, (?) avulla.
353. Kahden muuttujan regressioanalyysi
- Yksinkertaisessa kahden muuttujan välisessä
regressiossa määritetään lineaarinen yhtälö joka
kuvaa riippuvan (Y) ja riippumattoman (X)
muuttujan välistä suhdetta - y ?0 ?x ?
- y riippuva muuttuja
- ?0 leikkauskohta (intercept, constant)
- ? regressioparametri (slope), kuvaa Y
muuttujan ennustettua arvon muutosta kun X
muuttujan arvo kasvaa yhden yksikön - x riippumaton muuttuja
- ? jäännöstermi
363. Kahden muuttujan regressioanalyysi
y
yi
ei
yi ?0 ?xi ?
yj,
x
373. Kahden muuttujan regressioanalyysi
- Mallin (regressioyhtälö) hyvyyden mittana
käytetään selitettävän (DV, Y) ja selittävien
(IV, X) muuttujien välistä korrelaatiota R. - H0 DV ja IV muuttujien välillä ei ole
korrelaatiota (yksikin regressiokerroin saa arvon
0). - Suurella otoskoolla nollahypoteesi tulee siis
lähes varmasti hylätyksi.
383. Kahden muuttujan regressioanalyysi
393. Kahden muuttujan regressioanalyysi
- R2 on mallin selitysaste
- Kuinka monta prosenttia malli (siis
ennustemuuttuja eli IV) pystyy selittämään
riippuvan muuttujan (DV) vaihtelusta. - SPSS laskee kaksi selitysastetta, joista
tieteellisissä raporteissa käytetään
konservatiivisempaa (Adjusted R2). - Selitysasteen (R2) perusteella voidaan tehdä
päätelmiä efektikoosta
403. Kahden muuttujan regressioanalyysi
413. Kahden muuttujan regressioanalyysi
42Sisältö
- 1. General Linear Model (GLM)
- 1.1 Korrelaatio
- 2. Regressioanalyysi
- 2.1 Regressioanalyysin historia
- 2.2 Regressioanalyysin lajit
- 2.3 Regressioanalyysin käyttötapoja
- 2.4 Regressioanalyysin rajoituksia
- 2.5 Regressioanalyysin vaiheet
- 3. Kahden muuttujan regressioanalyysi
- 4. Useamman muuttujan regressioanalyysi4.1
Hierarkkinen regressioanalyysi - 4.2 Askeltava regressioanalyysi
- 5. Kanoninen korrelaatio
- Lähteet
43DV IV Kovariaatit
Analyysi
1 jatkuva
Bivariate r
1 jatkuva
Ei Multiple R
n jatkuvaa
Joitakin
Seq. Multiple R
n jatkuvaa
Canonical R
n jatkuvaa
Muuttujien välisten riippuvuuksienvoimakkuus
1 diskr.
Multilevel modeling
n jatkuvaa tai diskr.
Ei yhtään
n-way Freq. Anal.
n diskr.
444. Useamman muuttujan regressioanalyysi
- Määritellään yhden riippuvan (DV) ja usean
riippumattoman (IV) muuttujan välisiä yhtälöitä. - Esim. ennustetaan työssä koettua stressiä (DV)
esimiehen johtamisominaisuuksien (IV1) ja ryhmän
toimintakyvyn perusteella (IV2). - Kaikki riippumattomat muuttujat analysoidaan
(Enter menetelmä), niitä ei valita tai aseteta
järjestykseen.
454. Useamman muuttujan regressioanalyysi
- Usean muuttujan lineaarisessa regressiossa
määritetään lineaarinen yhtälö joka kuvaa yhden
riippuvan ja usean riippumattoman muuttujan
välistä suhdetta - y ?0 ?1x1 ?2x2 ... ?nxn ?
- y riippuva muuttuja
- ?0 vakio (constant)
- ?1n regressioparametreja
- x1n riippumattomia muuttujia
- ? virhetermi
464. Useamman muuttujan regressioanalyysi
yi ?0 ?1ix1i ?2ix2i ... ?nixni
?
y
yi
ei
yj,
x
474. Useamman muuttujan regressioanalyysi
Knowledge
?
Value
Performance
Satisfaction
(Warren, White, Fuller, 1974.)
484. Useamman muuttujan regressioanalyysi
Yläasteen opintomenestys
Ammatillisten opintojen menestys
Kontrolliuskomukset
WorldSkills kilpailumenestys
?
Näyttötilanteiden jännittäminen
Ulkoinen tavoiteorientaatio
Tekemällä oppiminen
N64
494. Useamman muuttujan regressioanalyysi
- Regressioanalyysin suorittaminen PASW/SPSS
-ohjelmassa - Analyze Regression - Linear
- Dependent kilpailumenestys (alle 23-vuotiaiden
menestyminen WSC kilpailuissa, luokiteltu 3
luokkaan 1 heikko, 2 keskitasoinen, 3
paras). - Independent(s) str_3 (Learning by Doing,
asteikko 1 täysin eri mieltä .. 5 täysin
samaa mieltä), mot_2 (Extrinsic Goal
Orientation), mot_4 (Control Beliefs), mot_6
(Test Anxiety), ammatopmenestys (menestyminen
ammatillisissa opinnoissa), ya_ka (yläasteen
päästötodistuksen keskiarvo). - Statistics Estimates, Confidence intervals
(95), Model fit, Collinearity diagnostics,
Durbin-Watson. - Plots Y ZRESID (standardoidut residuaalit) ja
X ZPRED (standardoidut ennustetut arvot)
504. Useamman muuttujan regressioanalyysi
- Ensin tarkastellaan tulosteen lopusta Charts
osasta täyttävätkö residuaalit niille asetetut
vaatimukset normaaliuden ja lineaarisuuden osalta
Residuaalit ovat jakautuneet normaalisti ja
lineaarisesti.
514. Useamman muuttujan regressioanalyysi
- Seuraavaksi tarkastellaan Model Summary taulukon
Durbin-Watson sarakkeesta täyttävätkö
residuaalit niille asetetut vaatimukset myös
riippumattomuuden osalta
Durbin-Watson saa arvoja väliltä 0 4, arvon 2
osoittaessa korreloimattomia residuaaleja (D-W lt
2 positiivinen korrelaatio, D-W gt 2
negatiivinen korrelaatio). Hyväksyttävät arvot
vaihtelevat 1.0 3.0 välillä (2.0
optimi). Tässä aineistossa residuaalien voidaan
todeta olevan normaaleja, lineaarisia ja
riippumattomia, jolloin voidaan edetä varsinaisen
regressioanalyysin tulosten tulkintaan.
524. Useamman muuttujan regressioanalyysi
Kuvaa mallin yleistettävyyttä populaatioon, ts.
pitäisi olla lähellä R2 arvoa. Jos malli olisi
laskettu populaatiosta, eikä tästä 64 nuoren
otoksesta, se selittäisi noin 11 vähemmän
kilpailumenestyksestä (.442 - .331 .111).
Malli selittää tilastollisesti merkitsevästi
kilpailumenestystä.
534. Useamman muuttujan regressioanalyysi
Multikollineaarisuus-tarkastelu suoritetaan
vertaamalla Tolerance -sarakkeen arvoja lukuun
.67 (1-R21-.33). Suuret korrelaatiot eivät ole
ongelma, koska arvot vaihtelevat välillä
.730-.893 eli ovat arvoa .67 suurempia. Huom.
Tolerance 1 / VIF.
Luottamusväli joko osoittaa (tai sitten ei)
otoksesta lasketun painokertoimen (B) kuvaavan
populaation mielipidettä. Esim. B.644 kuvaa
tekemällä oppimisen positiivista yhteyttä
kilpailumenestykseen (p.021), ja samaa viestiä
tarjoaa luottamusvälikin (Bn arvo vaihtelee
populaatiossa 95 todennäköisyydellä välillä .104
- 1.185). Heikon selittäjän, esim. ulkoinen
tavoiteorientaatio (B.242 , p.368), osalta
luottamusväli ilmaisee että populaatiossa on
todennäköisesti myös henkilöitä joilla ulkoisen
tavoiteorientaation vaikutus kilpailumenestykseen
on negatiivinen (-.299).
Standardoimattomat kertoimet kuvaavat IV
muuttujan (prediktori) yhden yksikön kasvun
vaikutusta DV muuttujassa. Esim. kun
ammatillinen opintomenestys kasvaa yhdellä
arvosanalla, kilpailumenestyksen odotetaan
paranevan .66 sijoituksen verran.
544. Useamman muuttujan regressioanalyysi
Yläasteen opintomenestys
-.141(.139)
Ammatillisten opintojen menestys
R233
.644(.417)
Kontrolliuskomukset
WorldSkills kilpailumenestys
.247(.166)
Näyttötilanteiden jännittäminen
-.426(-.362)
Ulkoinen tavoiteorientaatio
.242(.138)
.644(.341)
Tekemällä oppiminen
554. Useamman muuttujan regressioanalyysi
- Ammattitaidon maailmanmestaruuskilpailuissa
menestymistä selittäviä tekijöitä tarkasteltiin
regressioanalyysilla kuuden ennustemuuttujan
avulla. Parhaat ennustajat olivat aiempi
ammattiopintomenestys (?.417, p.001), tekemällä
oppiminen (?.361, p.021) ja näyttötilanteiden
jännittäminen (?-.362, p.018). Malli sopi
aineistoon (p.005) ja tuloksen efektikoko oli
Cohenin (1988) mukaan suuri, .331.
56DV IV Kovariaatit
Analyysi
1 jatkuva
Bivariate r
1 jatkuva
Ei Multiple R
n jatkuvaa
Joitakin
Seq. Multiple R
n jatkuvaa
Canonical R
n jatkuvaa
Muuttujien välisten riippuvuuksienvoimakkuus
1 diskr.
Multilevel modeling
n jatkuvaa tai diskr.
Ei yhtään
n-way Freq. Anal.
n diskr.
57Sisältö
- 1. General Linear Model (GLM)
- 1.1 Korrelaatio
- 2. Regressioanalyysi
- 2.1 Regressioanalyysin historia
- 2.2 Regressioanalyysin lajit
- 2.3 Regressioanalyysin käyttötapoja
- 2.4 Regressioanalyysin rajoituksia
- 2.5 Regressioanalyysin vaiheet
- 3. Kahden muuttujan regressioanalyysi
- 4. Useamman muuttujan regressioanalyysi4.1
Hierarkkinen regressioanalyysi - 4.2 Askeltava regressioanalyysi
- 5. Kanoninen korrelaatio
- Lähteet
584.1 Hierarkkinen regressioanalyysi
- Hierarchical/sequential multiple regression
(Pedhazur, 1982 Tabachnick Fidell, 2007) - Rajoitukset ovat samat kuin perinteisessä
regressioanalyysissa. - Analyysin suorittamiseen tarvitaan yksi jatkuva
DV ja kaksi tai useampia jatkuva tai ei-jatkuva
IV muuttuja. - Analyysin avulla voi selvittää kunkin IV
muuttujan suhteellisen selitysosuuden DV
muuttujan varianssista.
594.1 Hierarkkinen regressioanalyysi
- Riippumattomat muuttujat sijoitetaan
regressioyhtälöön tutkijan määrittämässä
järjestyksessä. - Yleensä sijoittelun taustalla on teoreettinen,
kausaalinen tms. oletus. - Tutkittaessa koettua stressiä (DV) sisäisten
prosessien (IV) ja ulkoisten tapahtumien
hallinnan (IV) toimiessa selittävinä muuttujina,
on varmasti hyvä ottaa malliin mukaan työkokemus
(IV) ja minäkäsitys (IV).
604.1 Hierarkkinen regressioanalyysi
- Pääselittäjien voimaa voi myös tutkia
sijoittamalla yhtälöön ensin vähempiarvoisia
selittäjiä (kontrolloimalla niitä). - Henkilön lukunopeutta (DV) voi tutkia
intensiivikurssin sisällön (IV) ja keston (IV)
kannalta sijoittamalla yksilölliset erot
lukunopeudessa (IV) yhtälöön ensimmäiseksi.
61Sisältö
- 1. General Linear Model (GLM)
- 1.1 Korrelaatio
- 2. Regressioanalyysi
- 2.1 Regressioanalyysin historia
- 2.2 Regressioanalyysin lajit
- 2.3 Regressioanalyysin käyttötapoja
- 2.4 Regressioanalyysin rajoituksia
- 2.5 Regressioanalyysin vaiheet
- 3. Kahden muuttujan regressioanalyysi
- 4. Useamman muuttujan regressioanalyysi4.1
Hierarkkinen regressioanalyysi - 4.2 Askeltava regressioanalyysi
- 5. Kanoninen korrelaatio
- Lähteet
624.2 Askeltava regressioanalyysi
- Stepwise multiple regression, statistical
regression (Pedhazur, 1982 Tabachnick Fidell,
2007) - Menetelmää kutsutaan tilastolliseksi
regressioanalyysiksi, koska selittävien
muuttujien valinta perustuu puhtaasti
tilastollisiin kriteereihin (esim. korrelaation
voimakkuus DV muuttujan kanssa). - Muuttujien valinta tapahtuu yleisimmin kolmen
menetelmän avulla (1) forward selection, (2)
backward selection, ja (3) stepwise selection.
634.2 Askeltava regressioanalyysi
- Forward selection (lisäävä menettely)
- Tyhjään yhtälöön lisätään tilastollisen kriteerin
täyttävä IV yksi kerrallaan. Kukin lisätty IV jää
yhtälöön. - Backward selection (poistava menettely)
- Kaikki IV muuttujat ovat alussa yhtälössä.
Tilastollisen kriteerin ulkopuolelle jäävät IVt
poistetaan yhtälöstä yksi kerrallaan. - Stepwise selection (askeltava menettely)
- Yhdistelmä edellisistä. Yhtälö on aluksi tyhjä,
ja siihen lisätään IV muuttujia yksi kerrallaan.
Yhtälöstä voidaan myös poistaa IV muuttujia kun
uusia, paremmin selittäviä tulee tilalle.
644.2 Askeltava regressioanalyysi
- Perinteisessä regressioanalyysissa (A)
voimakkaasti selitettävän muuttujan (DV) kanssa
korreloiva selittävä muuttuja (IV1) voi jäädä
statistin rooliin.
A
654.2 Askeltava regressioanalyysi
- Askeltavassa mallinnuksessa (C) selitettävät
muuttujat saavat krediitit riippuvan muuttujan
selittämisestä korrelaation voimakkuuden
perusteella.
C
664.2 Askeltava regressioanalyysi
- Ylisovitus (overfitting) on askeltavien
menetelmien riski, erityisesti tehtäessä
tulkintoja yhden näytteen perusteella. - Ristiinvalidointi (cross validation) esim. toisen
näytteen avulla (tai suuren datatiedoston
puolitus) on suositeltavaa käytettäessä
tilastollisia regressiomenetelmiä. - Ajetaan sama regressioanalyysi kaksi kertaa eri
aineistoilla, esim. jaetaan yksi riittävän suuri
aineisto kahteen satunnaisesti muodostettuun
aliotokseen.
67Sisältö
- 1. General Linear Model (GLM)
- 1.1 Korrelaatio
- 2. Regressioanalyysi
- 2.1 Regressioanalyysin historia
- 2.2 Regressioanalyysin lajit
- 2.3 Regressioanalyysin käyttötapoja
- 2.4 Regressioanalyysin rajoituksia
- 2.5 Regressioanalyysin vaiheet
- 3. Kahden muuttujan regressioanalyysi
- 4. Useamman muuttujan regressioanalyysi4.1
Hierarkkinen regressioanalyysi - 4.2 Askeltava regressioanalyysi
- 5. Kanoninen korrelaatio
- Lähteet
68DV IV Kovariaatit
Analyysi
1 jatkuva
Bivariate r
1 jatkuva
Ei Multiple R
n jatkuvaa
Joitakin
Seq. Multiple R
n jatkuvaa
Canonical R
n jatkuvaa
Muuttujien välisten riippuvuuksienvoimakkuus
1 diskr.
Multilevel modeling
n jatkuvaa tai diskr.
Ei yhtään
n-way Freq. Anal.
n diskr.
695. Kanoninen korrelaatio
- Canonical correlation
- (Kerlinger, 1986, 561-568)
- Yleismenetelmä, jonka erikoistapauksia ovat mm.
regressioanalyysi, erotteluanalyysi ja MANOVA. - Käytetään tutkimuskirjallisuudessa enemmän
kuvailuun kuin hypoteesintestaukseen. - Tulokset ovat usein matemaattisesti elegantteja,
mutta vaikeasti tulkittavissa (Tabachnik
Fidell, 2007, 570).
705. Kanoninen korrelaatio
- Menetelmän avulla tutkitaan kahden muuttujaryhmän
välisiä vaikutussuhteita. - Toinen ryhmä voi koostua DV (esim.
ympäristötietoisuus) ja toinen IV (esim.
sukupuoli, koulutustaso, poliittinen kanta)
muuttujista. - Tutkijan kannalta muuttujien valinta ja
erityisesti tulosten mielekäs tulkinta on
haasteellista.
71Lähteet
- Berk, R. A. (2004). Regression Analysis A
Constructive Critique. Thousand Oaks Sage. - Cohen, J. (1988). Statistical power analysis for
the behavioral sciences. Hillsdale, NJ Erlbaum. - Cronbach, L. J. (1951). Coefficient alpha and the
internal structure of tests. Psychometrika, 16,
297-334. - Galton, F. (1885). Regression towards mediocrity
in hereditary stature. Journal of the
Anthropological Institute, 15, 246-63. - Green, S. B. (1991). How many subjects does it
take to do a regression analysis? Multivariate
Behavioral Research, 26, 499-510. - Gulliksen, H. (1950). Theory of Mental Tests. New
York John Wiley Sons.
72Lähteet
- Howell, D. (1997). Statistical Methods for
Psychology. Belmont, CA Wadsworth Publishing
Company. - Kerlinger, F. (1986). Foundations of Behavioral
Research. Third Edition. New York CBS College
Publishing. - Kuder, G. F., Richardson, M. W. (1937). The
theory of the estimation of test reliability.
Psychometrika, 2, 151-160. - Metsämuuronen, J. (2003). Tutkimuksen tekemisen
perusteet ihmistieteissä. Helsinki International
Methelp Ky. - Nummenmaa, L. (2009). Käyttäytymistieteiden
tilastolliset menetelmät. Ensimmäinen painos,
uudistettu laitos. Helsinki Tammi. - Nummenmaa, T., Konttinen, R., Kuusinen, J.,
Leskinen, E. (1997). Tutkimusaineiston analyysi.
Porvoo WSOY.
73Lähteet
- Pierce, C. A., Block, R., Aguinis, H. (2004).
Cautionary note on reporting Eta-squared values
from multifactor ANOVA designs. Educational and
Psychological Measurement, 64(6), 916-924. - Pearl, J. (2000). Causality. New York Cambridge
University Press. - Pedhazur, E. (1982). Multiple Regression Analysis
in Behavioral Research. New York Holt, Rinehart
and Winston. - Stevens, J. (1996). Applied Multivariate
Statistics for the Social Sciences. Third
edition. Mahwah, NJ Lawrence Erlbaum. - Tabachnick, B. G., Fidell, L. S. (1996). Using
Multivariate Statistics. Third Edition. New York
Harper Collins.
74Lähteet
- Tabachnick, B. G., Fidell, L. S. (2007). Using
Multivariate Statistics. Fifth Edition. Boston
Pearson. - Warren, R. D., White, J. K., Fuller, W. A.
(1974). An errors-in-variables analysis of
managerial role performance. Journal of American
Statistical Association, 69, 886-893. - Vehkalahti, K. (2007). Kyselytutkimuksen mittarit
ja menetelmät. http//www.helsinki.fi/7ekvehka
la/mmm/moniste.pdf