Statistica analitica

About This Presentation

Title:

Statistica analitica

Description:

Statistica analitica Probabilitati Probabilitatea unui eveniment specificat este fractiunea sau proportia din toate evenimentele posibile ale evenimentului specificat ... – PowerPoint PPT presentation

Number of Views:63

Avg rating:3.0/5.0

Slides: 51

Provided by: xxx61

Category:

more less

Transcript and Presenter's Notes

Title: Statistica analitica

1
Statistica analitica
2
Probabilitati

Probabilitatea unui eveniment specificat este
fractiunea sau proportia din toate evenimentele
posibile ale evenimentului specificat intr-o
succesiune aproape nelimitata a probelor in
conditii similare.
Probabilitatea unui eveniment nu poate fi mai
mare de 1 (100) sau mai mica decat 0 (0).

3
Aplicatii

Valorile probabile intr-o populatie sunt
distribuite intr-o maniera definita care poate fi
folosita pentru a analiza populatia.
Valorile probabile care nu urmeaza o distributie
pot fi analizate folosind metode neparametrice.

4
Tipuri

Cele mai uzuale distributii de probabilitate
sunt
a. distributia binomiala
b. distributia normala
c. distributia t
d. distributia ?2 (Chi)

5
Calcul

Probabilitatea unui eveniment este determinata de
formula
Pr (A) n/N
Pr (A) probabilitatea evenimentului A
n nr. de cate ori evenimentul A s-a produs
N nr. de cate ori evenimentul A este posibil sa
se produca (nr. total de evenimente posibile)

6
Reguli de calcul a probabilitatilor

Regula aditiva daca avem cel putin doua
evenimente mutual exclusive sau disjuncte
(realizarea unuia inseamna automat nerealizarea
celuilalt) atunci probabilitatea lui A sau B se
calculeaza prin insumarea probabilitatilor
fiecarui eveniment.
Calcul Pr(A sau B)Pr(A)Pr (B)

7
Reguli de calcul a probabilitatilor

Regula multiplicativa se aplica in situatia a 2
sau mai multe evenimente independente care se
produc concomitent si consta in multiplicarea
probabilitatilor individuale ale evenimentelor.
Calcul Pr(A si B)Pr(A)xPr(B)

8
Ipoteza nula

H0 este ipoteza care postuleaza faptul ca
esantioanele sau populatiile pe care le avem de
comparat in cadrul unui studiu, experiment sau
test sunt similare, sau cu alte cuvinte, orice
diferenta este atribuita sansei si nu unui anumit
factor.

9
Aplicatii si caracteristici

Ipoteza nula postuleaza absenta unor deosebiri
care pot aparea in orice problema de comparare
statistica.
Este folosita pentru a defini semnificatia
diferentei. Semnificatia diferentei, numita si
semnificatie statistica, este concluzia ca
diferenta intre esantioane, populatii sau ambele,
este datorata unor factori altora decat sansa.
Diferenta semnificativa apare cand ipoteza nula
este respinsa.

Cand ipoteza nula este respinsa, cel putin una
din ipotezele alternative este acceptata, deci
diferenta poate fi explicata prin alt factor
decat sansa.
Cand nici o diferenta nu poate fi sustinuta intre
2 populatii, inseamna ca se accepta ipoteza nula,
dar nu inseamna ca mediile populatiilor sunt
identice.
Valoarea probabilitatii pentru care diferenta se
datoreaza numai sansei se numeste nivel de
semnificatie. Daca el este de maximum 5 atunci
ipoteza nula este respinsa si o ipoteza
alternativa este acceptata spunem ca diferenta
este statistic semnificativa.

Nivelul de semnificatie se noteaza cu a sau
p-value si este ales de cercetator a priori.
In orice procedeu de comparare se pot emite 2
tipuri de erori
Eroarea de speta I care reprezinta decizia de a
respinge ipoteza nula cand ea este adevarata
Eroarea de spata aII-a care reprezinta decizia de
a accepta ipoteza nula cand aceasta este falsa.

Probabilitatile erorilor asociate sunt
Pr (respH0/H0adevarat)ariscul erorii de speta
I
Pr(acceptH0/H0fals)ßriscul erorii de speta
aII-a
1- ß puterea testului
Pe baza acestei interpretari, in spatiul
esantioanelor multimea valorilor posibile
calculate se divide in 2 intervale
Intervalul de acceptare sau intervalul critic
reprezinta multimea valorilor pentru care daca o
valoare a statisticii calculate se inscrie
printre valorile sale, se accepta ipoteza nula.
Intervalul de respingere reprezinta multimea
valorilor pentru care daca o valoare a
statisticii calculate prin test se inscrie
printre valorile sale se respinge ipoteza nula.

Diferentele statistic semnificative pot sa nu fie
semnificative clinic, si diferentele clinic
importante pot sa nu fie statistic semnificative.
Ipoteza nula poate fi testata fie prin test
unilateral one-tailed test sau bilateral
two-tailed test

14
Testul unilateral

Este acel test pentru care intervalul de
respingere este format (dupa distributia normala)
dintr-o singura coada stanga sau dreapta testul
fiind unilateral stang sau drept.
Este folosit pentru a testa o ipoteza nula pentru
care ipoteza alternativa este directionata,
comparatia facandu-se intr-un singur sens , si
este mai puternic ca un test bilateral.

15
Testul bilateral

Este acel test pentru care intervalul de
respingere este format din 2 cozi-in stanga si
in dreapta curbei
Este folosit pentru a testa o ipoteza nula
nefiind necesara nici o presupunere privind
ipoteza alternativa
Se folosesc cand generam ipotezele alternative si
sunt mai utilizate in comparatie cu testele
unilaterale

16
Calcul

H0P1-P00 sau P1P0
HaP1-P00 sau P1P0
Unde P1 este probabilitatea caracteristicii
studiate in esantion, iar P0 este probabilitatea
aceleiasi caracteristici in populatie sau o
probabilitate teoretica sau din literatura.

17
Tabele de contingenta si grade de libertate

Reprezinta o clasificare a datelor in functie de
2 criterii in cadrul carora datele sunt in
continuare divizate in 2 sau mai multecategorii
discrete si mutual exclusive.
Tabelul de contingenta in care sunt mai mult de 2
categorii pentru fiecare din cele 2 criterii este
numit tabelul rxc.
Un tabel de contingenta in care avem numai 2
categorii pentru fiecare din cele 2 criterii de
grupare este numit tabelul 2x2

18
Aplicatii

Este o metoda simpla de prezentare a datelor si
mult folosita cand aplicam testul chi patrat sau
alte teste neparametrice.
Tabelul 2x2 se foloseste in domeniul
epidemiologiei.

19
Grade de libertate

Este un numar legat de efectivul valorilor
dintr-o serie sau o distributie el poate fi in
mod liber atribuit cand suma valorilor este
fixata.
Intr-un tabel de contingenta, gradele de
libertate reprezinta numarul celulelor din tabel
carora li se pot atribui in mod liber valori,
presupunand totalul si valorile marginale
stabilite.
Daca valorile din aceste celule au fost
stabilite, valorile tuturor celulelor ramase din
tabel sunt determinate in mod automat.

20
Aplicatie si calcul

In cadrul unor distributii de probabilitate, cum
ar fi distributia t si distributia ?2
valorile probabilitatilor de respingere a
ipotezei nule variaza in functie de numarul de
grade de libertate ale esantionului.
Calcul cand distributia are fie o singura linie,
fie o singura coloana, numarul de grade de
libertate este determinat prin formula dfc-1,
daca r1 sau dfr-1, daca c1
Cand tabelul are cel putin 2 linii si/sau cel
putin 2 coloane, nr. de grade de libertate este
determinat de formula df(r-1)x(c-1)

21
Distributia unui esantion de 100 nou-nascuti in
functie de sex si de mediul de rezidenta
Criteriul A (sex) Criteriul A (sex) Criteriul A (sex) Criteriul A (sex)
Criteriul B (mediu) Masculin Feminin Total
Urban a (21) b (19) ab (40)
Rural c (32) d (28) cd (60)
Total ac (53) bd (47) n (100)
22
Distributia binomiala

Este acea distributie a rezultatelor obtinute in
cadrul unui experiment, cand acestea au numai
valori discrete si mutual exclusive.
Aplicatii este folosita cand ne referim la
probabilitatea a 2 rezultate mutual exclusive
intr-un numar cunoscut de probe. Probabilitatea
fiecaruia dintre cele 2 rezultate este aceeasi in
fiecare proba, dar rezultatul fiecarei probe este
independent de rezultatul altei probe.

23
Calcul

Pentru o distributie binomiala, probabilitatea
este data de formula
f(x) n!/x!(n-x)!pxqn-x
f(x) probabilitatea obtinerii valorii x in probe
pprobabilitatea unuia din cele 2 rezultate
posibile (un succes) intr-o singura proba
qprobabilitatea celuilalt rezultat posibil (un
esec) intr-o singura proba
nnr. total de probe din cadrul experimentului
xnr. de succese obtinute in cadrul unui
experiment de n probe
n-xnumarul de esecuri obtinute in cadrul
aceluiasi experiment
!semnul factorial

Distributia binomiala se refera deci la o
variabila aleatorie discreta x pentru care
valoarea medie si dispersia sunt date de
formulele
µxnp
?2npq
Pentru diverse valori ale lui n si p se obtin
diverse curbe reprezentative pentru
probabilitatile f(x).
Pentru npgt10 si nqgt10, curbele devin
insuficient de simetrice in jurul valorii lui µx
si se
poate asimila distributia binomiala cu o
distributie
normala.

Daca in cazul distributiei binomiale consideram n
foarte mare si probabilitatea p foarte mica,
astfel ca produsul np?x devin
f(x)e- ?. Tx/x! probabilitati care conduc la
distributia Poisson. Se demonstreaza ca valoarea
medie si dispersia pentru aceasta distributie
sunt µx ?
?2 x ?
Prin cresterea lui ? se obtin curbe cat mai
simetrice, astfel pentru ?gt20 sau ?20,
distributia
lui Poisson poate fi asimilata cu o distributie
normala.

26
Distributia normala (Gauss Laplace)

Este o distributie teoretica, continua,
simetrica, unimodala, si poate, teoretic, sa
varieze intre infinit si infinit.
Curba distributiei normale are doua cozi
simetrice si este determinata prin media µ si
deviatia standard a populatiei ?.
Media, mediana si modulul unei populatii
distribuite normal sunt egale.

27
Aplicatii

Poate fi folosita pentru a studia multe populatii
si esantioane, esantioanele trebuie sa fie de
minimum 30 de cazuri.
Distributia normala si aproximarea normala
constituie bazele unui numar de teste analitice,
cum ar fi testul t sau chi patrat.

28
Raportul critic sau scorul z

Este numarul deviatiilor standard ce separa un
indicator calculat in esantion de parametrul
corespunzator intr-o populatie normala.
Cresterea raportului critic corespunde
descresterii probabilitatii de acceptare a
ipotezei nule
Pot fi calculate si listate proportiile
populatiei in interiorul intervalului si/sau in
afara intervalului.

Intr-o populatie distribuita normal, aproximativ
68 din populatie este situata in interiorul unui
raport critic, aproximativ 95 din populatie este
situata in interiorul a 2 rapoarte critice ale
mediei si in jur de 99,7 este situata in
interiorul a 3 rapoarte critice mediei.
In esantioanele numeroase, raportul critic este
folosit pentru a calcula intervalele de incredere
in jurul mediei de esantion.

30
Calcul

zlx-µl/?
zraportul critic
xvaloarea de testat
µmedia populatiei
?deviatia standard a populatiei

31
Testul t (student)

Este bazat pe distributia t, distributie care
reflecta o mai mare variatie datorata sansei in
comparatie cu distributia normala.
Este continua, simetrica, unimodala, variaza de
la infinit la infinit, este mult mai larga in
comparatie cu distributia normala.

Este utilizata pentru a analiza esantioane mici.
Cand volumele esantioanelor cresc, distributia t
se apropie de distributia normala, astfel ca
pentru un numar infinit de grade de libertate
cele 2 distributii sunt identice si valorile
critice ale lui t sunt egale cu raportul critic
al distributiei normale.

33
Testul t pentru un esantion mic

Testul t pentru un singur esantion mic compara o
singura medie (x) a esantionului cu media
populatiei.

34
Aplicatii si caracteristici

Sunt folosite pentru a evalua ipoteza nula pentru
variabile cantitative, pentru esantioane de volum
mai mic de 30 de cazuri.
Sunt utilizate in analiza pentu care SD din
esantioane sunt substituite ca estimatii pentru
SD din populatii.
Valoarea probabilitatii de respingere a ipotezei
nule, cand aceasta este adevarata ap-value este
obtinuta din tabela t corespunzatoare lui dfn-1
grade de libertate.
In cazul esantioanelor mici, sub 30 de cazuri,
distributia t este folosita pentru a calcula
intervalele de incredere in jurul mediei
esantioniului.

35
Calcul

Valoarea calculata a testului pentru compararea
mediei esantionului cu media populatiei este
determinata prin formula
t(df)lx-µl/(SD/vn)
t(df)valoarea calculata a testului la df. gr. de
libertate
dfnr. de grade de libertate
xvaloarea medie a esantionului
µmedia populatiei
SDdeviatia standard
nvolumul esantionului
Numitorul ecuatiei se numeste eroarea standard a
mediei esantionului.

36
Testul t pentru esantioane independente

Compara valori medii a 2 esantioane mici.
Utilitatea si restrictiile sunt aceleasi cu
exceptia ca esantioanele trebuie sa fie sub 30 de
cazuri.
Este nepotrivit cand avem de comparat mai multe
valori medii.

37
Calcul

t(df)lx-yl/SDpv1/n11/n2
SDpvS(xi-x)2 S(yi-y)2/(n1-1)(n2-1)
SDpdeviatia standard ponderata a celor 2
esantioane

38
Testul t pentru esantioane perechi

Compara valorile medii a 2 esantioane perechi.
In acest caz numarul de perechi trebuie sa fie
sub 30.
t(df)d /(SDp/vn)
SDp vS(di-d)2/(n-1)
didiferentele in cadrul fiecarei perechi
dvaloarea medie a diferentelor

Numitorul testului t pe perechi este eroarea
standard a diferentei mediilor.
Valoarea calculata a testului t este folosita
pentru a stabili probabilitatea ca diferenta
intre esantioanele perechi, la gradele de
libertate respective sa se datoreze sau nu sansei.

40
Eroarea standard si limitele de incredere

Este bazata pe un esantion al populatiei si este
o estimatie a deviatiei standard a masuratorilor
pentru populatie.
Este o masura a acuratetei mediei esantionului ca
o estimatie a mediei populatiei.
Este raportul dintre deviatia standard si radical
de ordinul 2 din volumul esantionului.
Este folosita pentru a construi limitele de
incredere in jurul mediei esantionului.
Este folosita la testul t.
SEMSD/vn unde nnr. de obs. in esantion

41
Limitele de incredere ale valorii medii

Definesc valorile probabile pentru un parametru
al populatiei, pe baza volumului esantionului si
a valorii erorii standard.
Intervalele de incredere sunt exprimate in
termenii probabilitatii bazate pe eroarea a.
Un interval de incredere (1- a), exprima faptul
ca probabilitatea ca parametrul populatiei sa se
gaseasca in intervalul de incredere este 1- a,
iar probabilitatea ca parametrul populatiei sa se
gaseasca in afara intervalului de incredere este
a.

Limitele de incredere ale mediei populatiei (µ)
definesc intervalul de incredere pentru media
populatiei pe baza mediei esantionului.
Pentru esantioane mai mari sau egale cu 30
limitele de incredere sunt bazate pe raportul
critic corespunzator probabilitatii asociate.
Pentru esantioane mici sub 30 limitele de
incredere sunt bazate pe valorile lui t din
tabele, corespunzator numarului de grade de
libertate si probabilitatii asociate.

43
Utilitate

Sunt folosite pentru a estima media populatiei pe
baza mediei esantionului extras din populatie.
Cel mai des folosite sunt limitele de incredere
de 95, care indica faptul ca probabilitatea ca
valoarea mediei necunoscuta din populatie sa se
afle intre aceste limite este de 95, iar in
afara lor este de 5.

44
Calcul

Pentru esantioane mari
Limitele de incredere (1- a)xzaSEM
Pentru esantioane mici
Limitele de incredere (1- a)xtdf,aSEM

45
Testul chi patrat ?2

Compara o distributie de frecvente absolute
observate cu o distributie teoretica (asteptata)
de frecvente absolute pe baza distributiei de
probabilitate chi patrat.
Este o distributie continua, simetrica si se
bazeaza pe aproxiamtia normala a distributiei
binomiale. Distributia chi patrat cu 1 grad de
libertate este identica cu distributia patratului
raportului critic.

46
Aplicatii si caracteristici

Testul chi patrat de tip rxc este folosit pentru
a compara o distributie observata cu o
distributie teoretica sau compara 2 sau mai multe
distributii observate.
Categoriile de date folosite trebuie sa fie
mutual exclusive si discrete.
Trebuie folosite numai valori absolute.
Frecventele teoretice trebuie sa fie mai mari
decat 5, cele observate pot fi mai mici decat 5.
Valorile probabilitatii pentru respingerea
ipotezei nule sunt obtinute din tabele speciale
pentru distributia chi patrat corespunzator
numarului de grade de libertate.

47
Corectia Yates

Deoarece distributia chi patrat este bazata pe
aproximatia normala a distributiei binomiale, se
impune o corectie de continuitate numita corectia
Yates, aceasta consta intr-o modificare in
formula de calcul a testului chi patrat
Corectia Yates se foloseste pentru esantioane
mici si scade valoarea lui chi patrat, deci scade
probabilitatea respingerii ipotezei nule.

48
Calcul

?2c(df)S (Oi-Ei-1/2)2/Ei
? 2c(df)valoarea calculata a testului chi patrat
cu corecta Yates
Oifrecventele absolute observate din fiecare
celula a tabelului
Eifrecventele teoretice corespunzatoare
frecventelor observate
½corectia yates

49
Testul chi patrat 2x2

Este un caz particular si se aplica pantru
tabelele de contingenta de tip 2x2 si are un grad
de libertate.
?2c(1)n(ad-bc-n/2)2/(ab)(cd)(ac)(bd)

50
Testul McNemar

Este un test chi patrat 2x2 specific pentru
compararea esantioanelor perechi.
Ipoteza nula care este de testat este aceea ca
frecventele asteptate pentru perechile
discordante sunt egale.
Testul are un grad de libertae si se poate
calcula dupa formula
?2c(f-g-1)2/fg unde f si g sunt valorile
perechilor discordante

Write a Comment

User Comments (0)