Y 7102 STATISTIQUE - PowerPoint PPT Presentation

1 / 52
About This Presentation
Title:

Y 7102 STATISTIQUE

Description:

Population est caract ris e par des param tres souvent inconnus que l 'on doit estimer. ... 'g' de Hedges: (M1 - M2)/ s combin s 'r' de Pearson: corr lation: voir PDF document 2. ... – PowerPoint PPT presentation

Number of Views:57
Avg rating:3.0/5.0
Slides: 53
Provided by: gilles75
Category:
Tags: statistique | m2

less

Transcript and Presenter's Notes

Title: Y 7102 STATISTIQUE


1
Y - 7102STATISTIQUE
S s g t w p m
q e r y u i a d z x
c b f l
THERE ARE LIES
THERE ARE DAMN LIES
AND THEN
THERE ARE STATISTICS
And beyond that, there are true lies meta
analyses
2
PARAMÈTRES vs STATISTIQUES
  • Population est caractérisée par des paramètres
    souvent inconnus que l on doit estimer.
  • Un échantillon est caractérisé par des
    statistiques ou des estimés.

3
Moyenne et écart-type
  • Population moyenne m S X/N écart-type
    s S(X-m)2/(N)
  • Échantillon moyenneX S X/N écart-type
    s S(X-X)2/(N-1)

4
s S(X-X)2/(N-1) Pourquoi N-1?
  • Supposons une moyenne de population de 5.
  • Si je prends 5 chiffres (donc un échantillon de 4
    sujets) et que ma moyenne de population est 5, le
    5e chiffre de ma distribution est fixé par les 4
    autres (147?2)/55
  • (14?)25 ?25-1411.
  • Chaque fois que je prendrai une nouvelle
    distribution, mon 5e chiffre sera dépendant des
    autres. Donc je peux le prédire avec les autres
    et la moyenne fixée. Il n est pas indépendant.

5
  • Moyenne et écart-type du nombre de mets dans la
    population

m
9.0
s
2.1
5 6 7 8 9 10 1 1 12

6
Moyenne des moyennes
7
Erreur type et écart-type
  • Erreur-type  écart-type  de la distribution
    des moyennes (standard error of mean SEM)
  • s (SEM) s/ VN
  • Écart-type d une distribution des données d un
    échantillon
  • s VS(X-X)2/(N-1)

8
Erreur-type vs écart-type
  • L erreur-type est la moyenne du carré des écarts
    entre les différentes valeurs possibles des X des
    échantillons et la moyenne de la population m.
    S(X-m)2 N
  • Erreur -type est fonction de l écart-type et
    du N. Plus N est grand, plus lerreur-type (SEM
    standard error of mean) est petit.

9
Erreur type et écart type
  • Erreur type (ET) indice de variabilité des
    moyennes par rapport à la moyenne m de la
    population. Un gt erreur type échantillon moins
    représentatif.
  • Conclusions tirées risquent d être fausses dans
    population.

10
Écart type (ÉT)
  • Moyenne du carré des écarts entre les scores et
    la moyenne de l échantillon. Indice de
    variabilité des scores autour de moyenne de
    échantillon X
  • sorte de moyenne des distances de chaque sujet
    par rapport à la moyenne du groupe
  • s VS(X-X)2/(N-1)

11
Représentation géométrique de ÉT
36
25
16
9
4
1
Somme des carrés des écarts à la moyenne
S(1,4,9,16,25,36) /6
VARIANCE
12
Différence entre ErT et ÉcT dans la notation
  • Supposons N100, X 8.5, s2.5
  • X 8.52 (sd) 95 des sujets de l échantillon
    sont entre 3.5 (8.5-2(2.5))et 13(8.52(2.5)).
  • X8.5 2(SEm) 95 de chance que la moyenne de
    population soit entre 8 (8.5-2(.25)) et 9
    (8.52(.25)).

13
Présentation graphique avec les erreurs-types
ns
14
Présentation graphique avec les écart-types
15
0,0228 0,1359 0,3413 0,3413
0,1359 0,0228
  • Une propriété importante de la distribution
    normale est énoncée par la règle
  • empirique selon laquelle,dans cette distribution
  • Environ 68 des valeurs se retrouvent entre -1 ÉT
    et 1 ÉT
  • Environ 95 des valeurs se retrouvent entre -2 ÉT
    et 2 ÉT
  • Presque 100 (99,72) des valeurs se retrouvent
    entre -3 ÉT et 3 ÉT    
  • Pour un test avec Moyenne 50 et ÉT 10 (si la
    distribution est normale)
  • Environ 68 des scores se retrouvent entre 40 et
    60
  • Environ 95 des scores se retrouvent entre 30 et
    70
  • Presque 100 (99,72) des scores se retrouvent
    entre 20 et 80
  • Quelques rares cas auront un score inférieur à 20
    ou supérieur à 80

16
Étapes de l inférence statistique
  • 1- Sélection dun échantillon aléatoire
    représentatif de la population.
  • 2- Répartition aléatoire des sujets en groupes
    expérimental et contrôle.
  • 3- Formulation de l hypothèse de recherche.

17
Étapes de l inférence statistique
  • 4- Formulation de l hypothèse nulle et des
    hypothèses alternatives.
  • 5- Choix du seuil alpha ainsi que de la
    puissance.
  • 7- Inférence à partir des résultats du test
    statistique.

18
Sélection et répartitionaléatoire
Groupe exp. N30
traitement
Échantillon aléatoire n60
X9
Répartition aléatoire
X
m
Groupe contrôle n30
population
X7
19
Hypothèse de recherche
  • Le groupe recevant le bêta bloqueur aura une
    meilleure performance à l effort, telle que
    mesurée par le tapis roulant.

20
Formulation des hypothèses nulle et alternative
Hypothèse nulle
me mc
e c
X
c mc e me
X
X
21
Formulation de l hypothèse alternative
Hypothèse alternative
ou
22
Hypothèse nulle
  • Hypothèse nulle le hasard seul amènerait aucune
    différence entre les groupes.
  • On cherche à réfuter Ho.
  • Pourquoi poser Ho?
  • Il est impossible de savoir ce qui arriverait
    dans la population. On assume Ho vrai jusquà
    preuve du contraire.

23
Bicaudal vs unicaudal(bidirectionnel vs
unidirectionnel(one tail vs two tails)
  • Rejet de Ho acceptation de Ha.
  • UNICAUDAL une seule possibilité. Le groupe
    expérimental ne peut pas être pire que le
    contrôle
  • BICAUDAL le groupe expérimental peut être
    meilleur mais pourrait être pire!!!!

24
Unicaudal
  • Situation à utiliser avec précaution.
  • On doit s appuyer sur la littérature ou sur une
    argumentation clinique solide pour négliger une
    des possibilités.
  • Si cela est possible, il y a augmentation de
    puissance

25
Probabilité dapparition dune valeur de z, avec
distribution dont la moyenne est 0
La probabilité davoir 1,65 du côté droit de la
courbe est 0.5. Pour un seuil bicaudal, je dois
diviser mon .05 par 2 .025. La valeur z
correspondant à .025 est 1.96.
26
Bicaudal vs unicaudal(bidirectionnel vs
unidirectionnel(one tail vs two tails)
t moy1-moy2 var1 var2 n1 n2
Valeur de t (.05) unidirectionnel 1,67 Valeur
de t (.10) bi directionnel 1,67 Valeur de t
(.05) bi directionnel 2,00 Valeur de t (.025)
unidirectionnel 2.00 Différence de moyennes
exigée pour unidirectionnel est lt que pour
bidirectionnelle, donc plus de puissance
27
Rejet de Ho
  • L hypothèse de recherche doit spécifier une
    direction.
  • Le rejet de Ho amène acception de Ha.
  • Non rejet de Ho n est pas confirmation de Ho. On
    ne confirme jamais Ho puisquelle est postulée
    vraie au départ. On ne peut que la rejeter ou
    non.
  • Conclusion étant donné taille de l échantillon,
    sa représentativité et la taille de l effet de
    traitement, on ne peut rejeter Ho.

28
Erreur a et erreur b
  • Rejet de Ho (memc) peut occasionner ERREUR ALPHA
    ou de type I.
  • Erreur alpha conclure que le traitement est
    efficace alors quil ne lest pas.
  • Coût donné à une clientèle un traitement
    potentiellement inutile ou dangereux.

29
Erreur a et erreur b
  • Non rejet de Ho (meltmc, megtmc) ERREUR BETA ou de
    type II.
  • Erreur beta conclure que le traitement n est
    pas efficace alors quil l est.
  • Coût priver une clientèle d un traitement
    potentiellement utile.

30
Erreur a et erreur b
Décision basée sur l inférence à partir
de léchantillon
Situation possible (inconnue) dans la
population Ho vraie Ho fausse (pas de
différence) (différences)
Ok pour a.05 95 chance non rejet Ho (1-
a)(1-.05).95
Erreur de type II ou ?(.20) 20 de chance de ne
pas rejeter Ho quand fausse.(.20)
Non rejet Ho Rejet Ho
Erreur de type I ou a. 5 de chance de rejeter Ho
si Ho vraie. (.05)
31
Conclusion sur les erreurs
  • Types d erreurs
  • Type I rejeter par erreur l hypothèse nulle
  • type II accepter par erreur l hypothèse nulle
  • type III résoudre le mauvais problème au mauvais
    moment dans la mauvaise organisation et par la
    mauvaise personne. (Mitroff, 1977) (error of the
    third kind)
  • Type IV poser des questions pour identifier un
    problème mal défini, quand la nature vraie ou
    fausse des questions est indéterminée au sens
    absolu. (Loveridge, 1997) (error of the fourth
    kind)

32
PUISSANCE
  • Probabilité de rejeter Ho si elle est fausse.
  • Probabilité de détecter une différence
    significative alors quil y a un effet.
  • Cest le contraire de erreur Beta.
  • Choix du seuil a niveau de probabilité de
    rejeter Ho. Ho toujours assumée vraie, on veut
    n avoir que 5 ou 1 de chance d observer une
    différence de taille Y.

33
Seuil alpha .05
  • Si Ho était vraie, 5 de chances d obtenir une
    différence de taille Y.
  • 5 de chances de rejeter Ho vraie avec une
    différence de taille Y.
  • 95 de chances de ne pas rejeter Ho si elle est
    vraie, avec une différence de taille lt Y.
  • Seuil alpha est décidé a priori. Fonction du coût
    de l erreur alpha. Voir document PDF 1

34
  • Winer  When the power of a test is likely to
    be low under these levels of significance (0,05
    or 0,01), and when the type 1 and the type 2
    errors are of approximately equal importance, the
    0.30 and 0,20 levels of significance may be more
    appropriate than the 0,05 and 0,01 levels p.14).
  • Cohen mentionne que dans de telles conditions,
    le rapport erreur Bêta / erreur Alpha devrait
    plutôt tendre vers 1 .
  • Winer, Statistical principles in experimental
    design. second edition ed. 1971, New York
    McGraw-Hill.
  • Cohen, Statistical power analysis for the
    behavioural sciences. 1969, New York Academic
    Press.

35
Puissance et seuil b
  • Un seuil de b .20
  • 20 de chance de ne pas rejeter Ho alors quelle
    est fausse,
  • 80 de pouvoir rejeter Ho alors quelle est
    fausse,
  • 80 de chance de pouvoir détecter une différence
    significative à un seuil a donné PUISSANCE

36
Exemple (niveau de dépression sur lInventaire de
dépression de Beck
Pré Post taille deffet post G1
18(8) 10(7) G2 19(9) 16(8) G3 18(7)
15(9) Diff.g1-g2 1
6 (6/7,5)0,8 Diff.g2-g3 1 1 (1/8,5)0,12

Si jai un seuil a de 0,05 et un seuil ? de 0,20
Jai 5 de chance que H0 soit fausse avec une
taille de 0,8 ou de 0,12. Jai 95 de chances que
H0 soit vraie avec une taille de 0,8 ou 0,12.
Jai 20 de chances que H0 soit vraie avec une
une taille de 0,8 ou 0,12. Jai 80 de chances de
pouvoir détecter une différence de 0,8 ou de 0,12
à un seuil de 0,05. Ces énoncés sont vrais si et
seulement si le nombre de sujets est suffisant.
Avec 700 sujets par groupe, je peux détecter la
taille deffet de 0,12. Le nombre de 26 par
groupe suffit pour la taille de 0,80. Question
est-ce que 0,12 représente quelque chose
dimportant????
37
Relation entre a, b et puissance
  • Choix de a sous décision du chercheur, selon le
    coût de a.
  • a plus sévère la puissance car difficile
    dobtenir une différence significative à .001
    quà .05.

38
Facteurs influençantla puissance
  • Le seuil alpha choisi seuil moins sévère (0.10
    ou 0.05 au lieu de 0.01) puissance.
  • Plus leffet de traitement (D) est grand plus la
    puissance .
  • Plus lécart-type(s) est petit, plus la puissance
    .
  • Plus la taille du N (avec seuil a, s et D
    constant) plus la puissance .

39
Calcul de la taille de leffet (effect size)
  • Pour une différence de moyenne entre deux
    groupes
  • d de Cohen (µ1 - µ2)/ s combinés
  • g de Hedges (M1 - M2)/ s combinés
  • r de Pearson corrélation
  • voir PDF document 2.

40
Critères pour choisir une taille d effet, a
priori
  • Recherches antérieures examiner les moyennes et
    écart type données dans les études.
  • Différence jugée cliniquement intéressante ou
    importante épidémiologie vs recherche clinique.
  • Convention petit, moyen grand
  • 0.20, 0.50, 0.80

41
(No Transcript)
42
  • Les valeurs choisies n'ont pas plus de fidélité
    comme base que ma propre intuition. Elles sont
    offertes comme convention parce qu'elles sont
    nécessaires dans un climat de recherche
    caractérisé par une négligence d'attention pour
    tout ce qui concerne la magnitude. (p.532) Et,
    en conclusion La taille de l'effet TE est
    indispensable pour l'analyse de puissance, comme
    c'est généralement le cas en science, et les
    définitions opérationnelles conventionnelles de
    la TE sont utiles, mais uniquement comme
    caractérisation de la magnitude absolue.
    Cependant, la signification de n'importe quelle
    TE est, dans une analyse finale, une fonction du
    contexte dans lequel elle est imbriquée. (p.555)
    cf statmanie

43
Calcul de la puissance
  • Calcul de delta d pour une moyenne d d ? ? N
  • d moy. 1 - moy. population moyenne des
    écarts type
  • Calcul de d pour 2 moyennes
  • d d ? ? N/2

44
Calcul de la puissance
  • Calcul de d pour échantillons reliés
  • d d /? N
  • ou d moy. 1 - moy. 2 s x1-x2
  • et s (x1-x2) s ? 2(1-r)

45
Calcul de la taille déchantillon nécessaire
  • En se servant de la table, on trouve le d qui
    correspond à la puissance recherchée pour un
    seuil alpha donné. Ex 80 à 0,05 donne un d de
    2.8. Dans la formule
  • N 2(d/d)2 si d0,5 on a
  • N2(2.8/0,5)2 63 sujets

46
Calcul du nombre initialpour contrôler la perte
de sujets
  • Faire le calcul de puissance selon les besoins de
    létude.
  • Appliquez la formule
  • Ni N / (1-Pd)
  • Ni nombre initial
  • N nombre calculé sans perte
  • Pd probabilité de perte

47
Logiciels calcul de puisance
  • Review of statistical power analysis software
  • http//www.zoology.ubc.ca/krebs/power.html
  • GPOWER
  • http//www.psycho.uni-duesseldorf.de/aap/projects/
    gpower/index.html
  • PASS 2000 power analysis
  • http//www.ncss.com/passinfo.html
  • NQuery
  • http//www.statsol.ie/index.html
  • Power and Precision
  • http//www.power-analysis.com/

48
(No Transcript)
49
  • Background
  • Given an observed test statistic and its degrees
    of freedom, one may compute the observed P value
    with most statistical packages. It is unknown to
    what extent test statistics and P values are
    congruent in published medical papers.

50
  • Methods
  • We checked the congruence of statistical results
    reported in all the papers of volumes 409412 of
    Nature (2001) and a random sample of 63 results
    from volumes 322323 of BMJ (2001). We also
    tested whether the frequencies of the last digit
    of a sample of 610 test statistics deviated from
    a uniform distribution (i.e., equally probable
    digits).

51
  • Results
  • 11.6 (21 of 181) and 11.1 (7 of 63) of the
    statistical results published in Nature and BMJ
    respectively during 2001 were incongruent,
    probably mostly due to rounding, transcription,
    or type-setting errors. At least one such error
    appeared in 38 and 25 of the papers of Nature
    and BMJ, respectively. In 12 of the cases, the
    significance level might change one or more
    orders of magnitude. The frequencies of the last
    digit of statistics deviated from the uniform
    distribution and suggested digit preference in
    rounding and reporting.

52
  • Conclusions
  • This incongruence of test statistics and P values
    is another example that statistical practice is
    generally poor, even in the most renowned
    scientific journals, and that quality of papers
    should be more controlled and valued.
Write a Comment
User Comments (0)
About PowerShow.com