Statistica analitica - PowerPoint PPT Presentation

1 / 50
About This Presentation
Title:

Statistica analitica

Description:

Statistica analitica Probabilitati Probabilitatea unui eveniment specificat este fractiunea sau proportia din toate evenimentele posibile ale evenimentului specificat ... – PowerPoint PPT presentation

Number of Views:63
Avg rating:3.0/5.0
Slides: 51
Provided by: xxx61
Category:

less

Transcript and Presenter's Notes

Title: Statistica analitica


1
Statistica analitica
2
Probabilitati
  • Probabilitatea unui eveniment specificat este
    fractiunea sau proportia din toate evenimentele
    posibile ale evenimentului specificat intr-o
    succesiune aproape nelimitata a probelor in
    conditii similare.
  • Probabilitatea unui eveniment nu poate fi mai
    mare de 1 (100) sau mai mica decat 0 (0).

3
Aplicatii
  • Valorile probabile intr-o populatie sunt
    distribuite intr-o maniera definita care poate fi
    folosita pentru a analiza populatia.
  • Valorile probabile care nu urmeaza o distributie
    pot fi analizate folosind metode neparametrice.

4
Tipuri
  • Cele mai uzuale distributii de probabilitate
    sunt
  • a. distributia binomiala
  • b. distributia normala
  • c. distributia t
  • d. distributia ?2 (Chi)

5
Calcul
  • Probabilitatea unui eveniment este determinata de
    formula
  • Pr (A) n/N
  • Pr (A) probabilitatea evenimentului A
  • n nr. de cate ori evenimentul A s-a produs
  • N nr. de cate ori evenimentul A este posibil sa
    se produca (nr. total de evenimente posibile)

6
Reguli de calcul a probabilitatilor
  • Regula aditiva daca avem cel putin doua
    evenimente mutual exclusive sau disjuncte
    (realizarea unuia inseamna automat nerealizarea
    celuilalt) atunci probabilitatea lui A sau B se
    calculeaza prin insumarea probabilitatilor
    fiecarui eveniment.
  • Calcul Pr(A sau B)Pr(A)Pr (B)

7
Reguli de calcul a probabilitatilor
  • Regula multiplicativa se aplica in situatia a 2
    sau mai multe evenimente independente care se
    produc concomitent si consta in multiplicarea
    probabilitatilor individuale ale evenimentelor.
  • Calcul Pr(A si B)Pr(A)xPr(B)

8
Ipoteza nula
  • H0 este ipoteza care postuleaza faptul ca
    esantioanele sau populatiile pe care le avem de
    comparat in cadrul unui studiu, experiment sau
    test sunt similare, sau cu alte cuvinte, orice
    diferenta este atribuita sansei si nu unui anumit
    factor.

9
Aplicatii si caracteristici
  • Ipoteza nula postuleaza absenta unor deosebiri
    care pot aparea in orice problema de comparare
    statistica.
  • Este folosita pentru a defini semnificatia
    diferentei. Semnificatia diferentei, numita si
    semnificatie statistica, este concluzia ca
    diferenta intre esantioane, populatii sau ambele,
    este datorata unor factori altora decat sansa.
  • Diferenta semnificativa apare cand ipoteza nula
    este respinsa.

10
  • Cand ipoteza nula este respinsa, cel putin una
    din ipotezele alternative este acceptata, deci
    diferenta poate fi explicata prin alt factor
    decat sansa.
  • Cand nici o diferenta nu poate fi sustinuta intre
    2 populatii, inseamna ca se accepta ipoteza nula,
    dar nu inseamna ca mediile populatiilor sunt
    identice.
  • Valoarea probabilitatii pentru care diferenta se
    datoreaza numai sansei se numeste nivel de
    semnificatie. Daca el este de maximum 5 atunci
    ipoteza nula este respinsa si o ipoteza
    alternativa este acceptata spunem ca diferenta
    este statistic semnificativa.

11
  • Nivelul de semnificatie se noteaza cu a sau
    p-value si este ales de cercetator a priori.
  • In orice procedeu de comparare se pot emite 2
    tipuri de erori
  • Eroarea de speta I care reprezinta decizia de a
    respinge ipoteza nula cand ea este adevarata
  • Eroarea de spata aII-a care reprezinta decizia de
    a accepta ipoteza nula cand aceasta este falsa.

12
  • Probabilitatile erorilor asociate sunt
  • Pr (respH0/H0adevarat)ariscul erorii de speta
    I
  • Pr(acceptH0/H0fals)ßriscul erorii de speta
    aII-a
  • 1- ß puterea testului
  • Pe baza acestei interpretari, in spatiul
    esantioanelor multimea valorilor posibile
    calculate se divide in 2 intervale
  • Intervalul de acceptare sau intervalul critic
    reprezinta multimea valorilor pentru care daca o
    valoare a statisticii calculate se inscrie
    printre valorile sale, se accepta ipoteza nula.
  • Intervalul de respingere reprezinta multimea
    valorilor pentru care daca o valoare a
    statisticii calculate prin test se inscrie
    printre valorile sale se respinge ipoteza nula.

13
  • Diferentele statistic semnificative pot sa nu fie
    semnificative clinic, si diferentele clinic
    importante pot sa nu fie statistic semnificative.
  • Ipoteza nula poate fi testata fie prin test
    unilateral one-tailed test sau bilateral
    two-tailed test

14
Testul unilateral
  • Este acel test pentru care intervalul de
    respingere este format (dupa distributia normala)
    dintr-o singura coada stanga sau dreapta testul
    fiind unilateral stang sau drept.
  • Este folosit pentru a testa o ipoteza nula pentru
    care ipoteza alternativa este directionata,
    comparatia facandu-se intr-un singur sens , si
    este mai puternic ca un test bilateral.

15
Testul bilateral
  • Este acel test pentru care intervalul de
    respingere este format din 2 cozi-in stanga si
    in dreapta curbei
  • Este folosit pentru a testa o ipoteza nula
    nefiind necesara nici o presupunere privind
    ipoteza alternativa
  • Se folosesc cand generam ipotezele alternative si
    sunt mai utilizate in comparatie cu testele
    unilaterale

16
Calcul
  • H0P1-P00 sau P1P0
  • HaP1-P00 sau P1P0
  • Unde P1 este probabilitatea caracteristicii
    studiate in esantion, iar P0 este probabilitatea
    aceleiasi caracteristici in populatie sau o
    probabilitate teoretica sau din literatura.

17
Tabele de contingenta si grade de libertate
  • Reprezinta o clasificare a datelor in functie de
    2 criterii in cadrul carora datele sunt in
    continuare divizate in 2 sau mai multecategorii
    discrete si mutual exclusive.
  • Tabelul de contingenta in care sunt mai mult de 2
    categorii pentru fiecare din cele 2 criterii este
    numit tabelul rxc.
  • Un tabel de contingenta in care avem numai 2
    categorii pentru fiecare din cele 2 criterii de
    grupare este numit tabelul 2x2

18
Aplicatii
  • Este o metoda simpla de prezentare a datelor si
    mult folosita cand aplicam testul chi patrat sau
    alte teste neparametrice.
  • Tabelul 2x2 se foloseste in domeniul
    epidemiologiei.

19
Grade de libertate
  • Este un numar legat de efectivul valorilor
    dintr-o serie sau o distributie el poate fi in
    mod liber atribuit cand suma valorilor este
    fixata.
  • Intr-un tabel de contingenta, gradele de
    libertate reprezinta numarul celulelor din tabel
    carora li se pot atribui in mod liber valori,
    presupunand totalul si valorile marginale
    stabilite.
  • Daca valorile din aceste celule au fost
    stabilite, valorile tuturor celulelor ramase din
    tabel sunt determinate in mod automat.

20
Aplicatie si calcul
  • In cadrul unor distributii de probabilitate, cum
    ar fi distributia t si distributia ?2
    valorile probabilitatilor de respingere a
    ipotezei nule variaza in functie de numarul de
    grade de libertate ale esantionului.
  • Calcul cand distributia are fie o singura linie,
    fie o singura coloana, numarul de grade de
    libertate este determinat prin formula dfc-1,
    daca r1 sau dfr-1, daca c1
  • Cand tabelul are cel putin 2 linii si/sau cel
    putin 2 coloane, nr. de grade de libertate este
    determinat de formula df(r-1)x(c-1)

21
Distributia unui esantion de 100 nou-nascuti in
functie de sex si de mediul de rezidenta
Criteriul A (sex) Criteriul A (sex) Criteriul A (sex) Criteriul A (sex)
Criteriul B (mediu) Masculin Feminin Total
Urban a (21) b (19) ab (40)
Rural c (32) d (28) cd (60)
Total ac (53) bd (47) n (100)
22
Distributia binomiala
  • Este acea distributie a rezultatelor obtinute in
    cadrul unui experiment, cand acestea au numai
    valori discrete si mutual exclusive.
  • Aplicatii este folosita cand ne referim la
    probabilitatea a 2 rezultate mutual exclusive
    intr-un numar cunoscut de probe. Probabilitatea
    fiecaruia dintre cele 2 rezultate este aceeasi in
    fiecare proba, dar rezultatul fiecarei probe este
    independent de rezultatul altei probe.

23
Calcul
  • Pentru o distributie binomiala, probabilitatea
    este data de formula
  • f(x) n!/x!(n-x)!pxqn-x
  • f(x) probabilitatea obtinerii valorii x in probe
  • pprobabilitatea unuia din cele 2 rezultate
    posibile (un succes) intr-o singura proba
  • qprobabilitatea celuilalt rezultat posibil (un
    esec) intr-o singura proba
  • nnr. total de probe din cadrul experimentului
  • xnr. de succese obtinute in cadrul unui
    experiment de n probe
  • n-xnumarul de esecuri obtinute in cadrul
    aceluiasi experiment
  • !semnul factorial

24
  • Distributia binomiala se refera deci la o
    variabila aleatorie discreta x pentru care
    valoarea medie si dispersia sunt date de
    formulele
  • µxnp
  • ?2npq
  • Pentru diverse valori ale lui n si p se obtin
  • diverse curbe reprezentative pentru
  • probabilitatile f(x).
  • Pentru npgt10 si nqgt10, curbele devin
  • insuficient de simetrice in jurul valorii lui µx
    si se
  • poate asimila distributia binomiala cu o
    distributie
  • normala.

25
  • Daca in cazul distributiei binomiale consideram n
    foarte mare si probabilitatea p foarte mica,
    astfel ca produsul np?x devin
  • f(x)e- ?. Tx/x! probabilitati care conduc la
    distributia Poisson. Se demonstreaza ca valoarea
    medie si dispersia pentru aceasta distributie
    sunt µx ?
  • ?2 x ?
  • Prin cresterea lui ? se obtin curbe cat mai
  • simetrice, astfel pentru ?gt20 sau ?20,
    distributia
  • lui Poisson poate fi asimilata cu o distributie
  • normala.

26
Distributia normala (Gauss Laplace)
  • Este o distributie teoretica, continua,
    simetrica, unimodala, si poate, teoretic, sa
    varieze intre infinit si infinit.
  • Curba distributiei normale are doua cozi
    simetrice si este determinata prin media µ si
    deviatia standard a populatiei ?.
  • Media, mediana si modulul unei populatii
    distribuite normal sunt egale.

27
Aplicatii
  • Poate fi folosita pentru a studia multe populatii
    si esantioane, esantioanele trebuie sa fie de
    minimum 30 de cazuri.
  • Distributia normala si aproximarea normala
    constituie bazele unui numar de teste analitice,
    cum ar fi testul t sau chi patrat.

28
Raportul critic sau scorul z
  • Este numarul deviatiilor standard ce separa un
    indicator calculat in esantion de parametrul
    corespunzator intr-o populatie normala.
  • Cresterea raportului critic corespunde
    descresterii probabilitatii de acceptare a
    ipotezei nule
  • Pot fi calculate si listate proportiile
    populatiei in interiorul intervalului si/sau in
    afara intervalului.

29
  • Intr-o populatie distribuita normal, aproximativ
    68 din populatie este situata in interiorul unui
    raport critic, aproximativ 95 din populatie este
    situata in interiorul a 2 rapoarte critice ale
    mediei si in jur de 99,7 este situata in
    interiorul a 3 rapoarte critice mediei.
  • In esantioanele numeroase, raportul critic este
    folosit pentru a calcula intervalele de incredere
    in jurul mediei de esantion.

30
Calcul
  • zlx-µl/?
  • zraportul critic
  • xvaloarea de testat
  • µmedia populatiei
  • ?deviatia standard a populatiei

31
Testul t (student)
  • Este bazat pe distributia t, distributie care
    reflecta o mai mare variatie datorata sansei in
    comparatie cu distributia normala.
  • Este continua, simetrica, unimodala, variaza de
    la infinit la infinit, este mult mai larga in
    comparatie cu distributia normala.

32
  • Este utilizata pentru a analiza esantioane mici.
  • Cand volumele esantioanelor cresc, distributia t
    se apropie de distributia normala, astfel ca
    pentru un numar infinit de grade de libertate
    cele 2 distributii sunt identice si valorile
    critice ale lui t sunt egale cu raportul critic
    al distributiei normale.

33
Testul t pentru un esantion mic
  • Testul t pentru un singur esantion mic compara o
    singura medie (x) a esantionului cu media
    populatiei.

34
Aplicatii si caracteristici
  • Sunt folosite pentru a evalua ipoteza nula pentru
    variabile cantitative, pentru esantioane de volum
    mai mic de 30 de cazuri.
  • Sunt utilizate in analiza pentu care SD din
    esantioane sunt substituite ca estimatii pentru
    SD din populatii.
  • Valoarea probabilitatii de respingere a ipotezei
    nule, cand aceasta este adevarata ap-value este
    obtinuta din tabela t corespunzatoare lui dfn-1
    grade de libertate.
  • In cazul esantioanelor mici, sub 30 de cazuri,
    distributia t este folosita pentru a calcula
    intervalele de incredere in jurul mediei
    esantioniului.

35
Calcul
  • Valoarea calculata a testului pentru compararea
    mediei esantionului cu media populatiei este
    determinata prin formula
  • t(df)lx-µl/(SD/vn)
  • t(df)valoarea calculata a testului la df. gr. de
    libertate
  • dfnr. de grade de libertate
  • xvaloarea medie a esantionului
  • µmedia populatiei
  • SDdeviatia standard
  • nvolumul esantionului
  • Numitorul ecuatiei se numeste eroarea standard a
    mediei esantionului.

36
Testul t pentru esantioane independente
  • Compara valori medii a 2 esantioane mici.
  • Utilitatea si restrictiile sunt aceleasi cu
    exceptia ca esantioanele trebuie sa fie sub 30 de
    cazuri.
  • Este nepotrivit cand avem de comparat mai multe
    valori medii.

37
Calcul
  • t(df)lx-yl/SDpv1/n11/n2
  • SDpvS(xi-x)2 S(yi-y)2/(n1-1)(n2-1)
  • SDpdeviatia standard ponderata a celor 2
    esantioane

38
Testul t pentru esantioane perechi
  • Compara valorile medii a 2 esantioane perechi.
  • In acest caz numarul de perechi trebuie sa fie
    sub 30.
  • t(df)d /(SDp/vn)
  • SDp vS(di-d)2/(n-1)
  • didiferentele in cadrul fiecarei perechi
  • dvaloarea medie a diferentelor

39
  • Numitorul testului t pe perechi este eroarea
    standard a diferentei mediilor.
  • Valoarea calculata a testului t este folosita
    pentru a stabili probabilitatea ca diferenta
    intre esantioanele perechi, la gradele de
    libertate respective sa se datoreze sau nu sansei.

40
Eroarea standard si limitele de incredere
  • Este bazata pe un esantion al populatiei si este
    o estimatie a deviatiei standard a masuratorilor
    pentru populatie.
  • Este o masura a acuratetei mediei esantionului ca
    o estimatie a mediei populatiei.
  • Este raportul dintre deviatia standard si radical
    de ordinul 2 din volumul esantionului.
  • Este folosita pentru a construi limitele de
    incredere in jurul mediei esantionului.
  • Este folosita la testul t.
  • SEMSD/vn unde nnr. de obs. in esantion

41
Limitele de incredere ale valorii medii
  • Definesc valorile probabile pentru un parametru
    al populatiei, pe baza volumului esantionului si
    a valorii erorii standard.
  • Intervalele de incredere sunt exprimate in
    termenii probabilitatii bazate pe eroarea a.
  • Un interval de incredere (1- a), exprima faptul
    ca probabilitatea ca parametrul populatiei sa se
    gaseasca in intervalul de incredere este 1- a,
    iar probabilitatea ca parametrul populatiei sa se
    gaseasca in afara intervalului de incredere este
    a.

42
  • Limitele de incredere ale mediei populatiei (µ)
    definesc intervalul de incredere pentru media
    populatiei pe baza mediei esantionului.
  • Pentru esantioane mai mari sau egale cu 30
    limitele de incredere sunt bazate pe raportul
    critic corespunzator probabilitatii asociate.
  • Pentru esantioane mici sub 30 limitele de
    incredere sunt bazate pe valorile lui t din
    tabele, corespunzator numarului de grade de
    libertate si probabilitatii asociate.

43
Utilitate
  • Sunt folosite pentru a estima media populatiei pe
    baza mediei esantionului extras din populatie.
  • Cel mai des folosite sunt limitele de incredere
    de 95, care indica faptul ca probabilitatea ca
    valoarea mediei necunoscuta din populatie sa se
    afle intre aceste limite este de 95, iar in
    afara lor este de 5.

44
Calcul
  • Pentru esantioane mari
  • Limitele de incredere (1- a)xzaSEM
  • Pentru esantioane mici
  • Limitele de incredere (1- a)xtdf,aSEM

45
Testul chi patrat ?2
  • Compara o distributie de frecvente absolute
    observate cu o distributie teoretica (asteptata)
    de frecvente absolute pe baza distributiei de
    probabilitate chi patrat.
  • Este o distributie continua, simetrica si se
    bazeaza pe aproxiamtia normala a distributiei
    binomiale. Distributia chi patrat cu 1 grad de
    libertate este identica cu distributia patratului
    raportului critic.

46
Aplicatii si caracteristici
  • Testul chi patrat de tip rxc este folosit pentru
    a compara o distributie observata cu o
    distributie teoretica sau compara 2 sau mai multe
    distributii observate.
  • Categoriile de date folosite trebuie sa fie
    mutual exclusive si discrete.
  • Trebuie folosite numai valori absolute.
  • Frecventele teoretice trebuie sa fie mai mari
    decat 5, cele observate pot fi mai mici decat 5.
  • Valorile probabilitatii pentru respingerea
    ipotezei nule sunt obtinute din tabele speciale
    pentru distributia chi patrat corespunzator
    numarului de grade de libertate.

47
Corectia Yates
  • Deoarece distributia chi patrat este bazata pe
    aproximatia normala a distributiei binomiale, se
    impune o corectie de continuitate numita corectia
    Yates, aceasta consta intr-o modificare in
    formula de calcul a testului chi patrat
  • Corectia Yates se foloseste pentru esantioane
    mici si scade valoarea lui chi patrat, deci scade
    probabilitatea respingerii ipotezei nule.

48
Calcul
  • ?2c(df)S (Oi-Ei-1/2)2/Ei
  • ? 2c(df)valoarea calculata a testului chi patrat
    cu corecta Yates
  • Oifrecventele absolute observate din fiecare
    celula a tabelului
  • Eifrecventele teoretice corespunzatoare
    frecventelor observate
  • ½corectia yates

49
Testul chi patrat 2x2
  • Este un caz particular si se aplica pantru
    tabelele de contingenta de tip 2x2 si are un grad
    de libertate.
  • ?2c(1)n(ad-bc-n/2)2/(ab)(cd)(ac)(bd)

50
Testul McNemar
  • Este un test chi patrat 2x2 specific pentru
    compararea esantioanelor perechi.
  • Ipoteza nula care este de testat este aceea ca
    frecventele asteptate pentru perechile
    discordante sunt egale.
  • Testul are un grad de libertae si se poate
    calcula dupa formula
  • ?2c(f-g-1)2/fg unde f si g sunt valorile
    perechilor discordante
Write a Comment
User Comments (0)
About PowerShow.com