Title: Hipot
1Hipotézisvizsgálat
- az adatforrás muködési mechanizmusát egy
véletlen eloszlás jellemzi - az adatok ismeretében megfogalmazódnak bizonyos
hipotézisek erre az eloszlásra nézve - ellenorizzük, hogy az adatok mennyire támasztják
alá a hipotéziseket
2A hibák táblázata
- Adott próbastatisztika mellett az elso ill.
másodfajú hiba csak egymás rovására csökkentheto.
Az elsofajút írjuk elo kicsinek, ezért az
elutasítás a szignifikáns eredmény
3Megvalósítás
- próbastatisztika az adatok függvénye
- elutasítási (kritikus) vs. elfogadási tartomány
- nem tipikus értékek vs. tipikus értékek
- szignifikancia szint az elsofajú hibát eloírtan
alacsony szinten kívánom tartani
4A p-érték fogalma
van egy olyan legkisebb szigni- fikanciaszint,
amelyen már biztosan el kell fogadnunk a
nullhipotézist
elfogadási tartomány
Ez az ún. p-érték
a p-érték nagy a p-érték kicsi
H0-t elfogadjuk H0-t elvetjük
5Statisztikai próbák
6t-próba
- Ismert m várható érték és ? szórás mellett a
normális eloszlású minta standardizált átlaga - standard normális eloszlású lesz.
- m-et a H0 hipotézisben feltételezett értékével,
?-t a tapasztalati szórásnégyzettel (ez már
valváltozó) helyettesítve Student féle t
eloszlást kapunk - ennek kritikus értéke felett
utasítunk el
7A normális eloszlás és a Student-féle t-eloszlás
standard normális eloszlás
1 szabadsági fokú Student- eloszlás
3 szabadsági fokú Student- eloszlás
8Az F-eloszlás
9Hotelling féle T2 próba
- A normális eloszlású minta standardizált
átlagának négyzete egy ?2n eloszlású változó
n-edrészével egyezo eloszlású - Ennek analógiájára, normális eloszlású vektor
értéku mintából elkészítjük az - statisztikát, melynek eloszlása Hotelling féle T2
lesz - ennek kritikus értéke felett utasítunk el
10Hatások vizsgálata
Y
X
11Szóráselemzés
- Azt vizsgáljuk, hogy egy bizonyos faktornak
(körülménynek) van-e hatása a kimeneti változó
(válasz) várható értékére - a faktort különbözo szintekre állitjuk be és
méréseket végzünk - nullhipotézis a faktornak nincs hatása, azaz a
várható értékek egyenloek - az adatok alapján ezt megpróbáljuk megcáfolni
12Egy faktor esete
Az adatok Yi,j
Az adat sorszáma a i 1 ,..., Nj csoporton
belül (egy rögzített faktorbeállítás melletti
mérések)
A csoport sorszáma j 1 ,...,
k (a faktor különbözo beállításai, szintjei)
13A Nullhipotézis
- A modell szerint a mért érték az elméleti érték
a megfigyelési zaj összegeként adódik - A zaj független értéku, normális eloszlású
- Yi,j mj ei,j
- A nullhipotézisben az elméleti (várható) értékek
egyenloségét feltételezük (a faktor nem hat) - H0 m1... mk
- Ennek elutasítása a szignifikáns eredmény
14A döntés elve
- A várható értékek egyenloségérol döntünk a
szórások elemzésének segítségével. - Ha valóban n független azonos eloszlású mintánk
van az egyes csoportokban, akkor a csoportátlagok
szórásnégyzete a minta szórásnégyzetének
n-edrésze. - Ha igaz a nullhipotézis, akkor ugyanez a becsült
szórásnégyzetekre is áll - szorozzuk be tehát
oket n-nel és teszteljük az egyenloségüket. - Független normális eloszlású minták
szórásnégyzeteinek egyenloségét F-próbával
tesztelhetjük. - A Fisher-Cohran tétel biztosítja, hogy az
átlagokból számolt tapasztalati szórásnégyzet
független legyen az összevont mintából származó
tapasztalati szórásnégyzettol - de ez csak
normális eloszlású minta esetén igaz!
15A négyzetösszegek felosztása
Az átlagok felbontása
A négyzetösszegek felbontása
16A négyzetösszegek felosztása
Másképpen SSössz SScsb SScsk
A szabadsági fokok
17Az F-próba
A H0 mellett a csk csoportok közötti és csb
csoporton belüli szórásnégyzetek aránya kicsi és
az eloszlása ismert
(n-k)SScsk
eloszlása Fdfcsk,dfcsb
(k-1)SScsb
18Egy példa ipari alkalmazások közül
- A gyártmány súlyának elemzése a keverék
suruségének függvényében. Különbözo
suruségbeállítások mellett 10-10 próbagyártást
végeztek, és mérték a súlyt. A kapott eredmények
láthatóak az ábrán. A kék pont az adott beállítás
melletti átlag.
- A gyártmány súlya a keverék suruségének
függvényében
19A szórások
- Az egyes oszlopokra elkészít-jük a
mintaátlagokat. (Kék). - Becsüljük a mintaátlagokból a teljes minta
szórásnégyzetét. - Majd a zöld oszlopokra szá- mítjuk a
négyzetösszegeket, ezeket összeadjuk és osztunk a
szabadsági fokkal Újra a sárga összevont minta
szórásnégyzetét becsüljük. - A kétféleképp számított szórásnégyzet eltérésének
szignifikanciáját F-próbával teszteljük.
20MINITAB-os elemzés eredménye
One-way ANOVA Wt3 versus Mix Source DF SS
MS F P Mix 6 569.8 95.0
4.60 0.001 Error 63 1301.2 20.7 Total 69
1871.0
- Szabadsági fokok 7 Mix csoport van gt k7
dfcskk-16 - Összesen 70 megfigyelésünk van gt N70,
dfcsbN-k63 - A csoportok átlagainak az összevont átlagtól vett
négyzetes eltéréseinek összege SScsk 569.8
ebbol a négyzetes hiba MScskSScsk/dfcsk94.966 - Ugyanígy A csoportokon belüli átlagoktól vett
négyzetes eltérések összege (a csoportokra is
összeadva) SScsb 1301.2 ebbol a négyzetes hiba
MScsbSScsb/dfcsb 20.653
21Az F-próba
- A fenti két mennyiség MScsk /MScsb hányadosa az
F-statisztika értéke 4.598 - Ez adja az adott dfcsk , dfcsbszabadságfokok
szerinti F-eloszlásból F(dfcsk,dfcsb) a 0.001-es
p értéket
22Multi-Faktor ANOVA
Egy tipikus kísérletben nem csak egyetlen hanem
több faktort is figyelembe kell veni. Ezen
faktorok hatását kell ellenorzés alatt tartani.
23A kísérleti eredmények változékonyságának négy
forrását ismerhetjük fel ebben az esetben (1)
hiba azaz a csoporton belüli változékonyság,
(2) 1 típusú csoport tagságból adódó
változékonyság (3) 2 típusú csoport tagságból
változékonyság (4) kölcsönhatás
24Az F-próba
A H0 eldöntésére az F próbát éppúgy
alkalmazhatjuk mint az elozoekben
MScsk
(n-k)SScsk
eloszlása Fdfcsk,dfcsb
MScsb
(k-1)SScsb
25Szóráselemzés tábla
- Ha elutasítjuk H0 -t, akkor mely csoportok
különböznek? A változékonyság négy lehetséges
forrása ( 2 fohatás kölcsönhatás hiba) közül
melyek hatnak és mennyire? - Megtehetjük, hogy mind a három lehetséges faktor
(csoport tagság, nemek, kölcsönhatás) szerint
szóráselemzést végzünk és ennek segítségével
döntünk a ható faktorokról
26Többváltozós szóráselemzésMultivariate ANOVA
MANOVA
- Most is azt vizsgáljuk, hogy egy bizonyos
faktornak (körülménynek) van-e hatása a kimeneti
változó (válasz) várható értékére, de a válasz
most vektor értéku, tehát többféle mennyiséget
mérünk - Ekkor nem szórásunk, hanem szórásmátrixunk van.
- Ha a nullhipotézis fennáll, a csoportátlagokból
számolt szórásmátrix becslés a teljes mintából
számolt n-edrésze ( a becslési ingadozás) - Ezért egyik szorozva a másik inverzével közel az
egységmátrixot kell hogy adja - de ezt hogyan
teszteljük?
27MANOVA próbák
- A szorzatmátrix sajátértékeinek kell 1-hez
közelinek lennie - Ezt tesztelik a
- Wilk
- Lawley- Hotelling
- Pillai
- Roy
- próbák
- Nincs közöttük egyenletesen legerosebb és ilyet
nem is lehet konstruálni
28Lineáris regresszió
29A legkisebb négyzetek módszere
289.931
Y
12.8776
1.16013
59.4174
X
30Regresszió
- Az Y eredményváltozó (függo változó) közelítése
az X faktorokkal (magyarázó változók). Általában
lineáris regressziót keresünk (ekkor a magyarázó
változók lineáris függvényével közelítünk). - Azt az egyenest keressük, amelyre az egyenes
által adott közelítés és a ténylegesen megfigyelt
pontok közötti négyzetes eltérés minimális. A
megoldás - Ez a hatásos becslés is, ha a modellbeli hiba
független, azonos, normális eloszlású.
31A becslés standard hibája
- A független, azonos, normális eloszlású hiba
esetén sok minden jól számolható, például az
egyenes együtthatóinak standard hibája -
-
ahol - Ebbol a becsült regressziós együtthatók
szignifikanciáját t-próbával vizsgálhatjuk.
32Az illeszkedés méroszáma
- Ez igen lényeges, mert hiba lenne valójában nem
illeszkedo modellbol következtetéseket levonni.
Az illeszkedés méroszáma az R2 statisztika, - ill. ennek korrigált változata, (adjusted R2)
amikor a magyarázó változók számát is figyelembe
vesszük.
33Lack of fit teszt
- Az illesztett regressziós egyenes, illetve az
átlag, mint vízszintes egyenes körüli szórásokat
hasonlítjuk össze. A szórások egyezését
F-próbával teszteljük. - Amennyiben a lineáris kapcsolat ténylegesen jelen
van, úgy az egyenes körüli szórás kisebb, tehát a
szórások egyezését elutasítjuk.