Title: Diapositive 1
1Test paramétrique de comparaison de k
échantillons
2Lanalyse de variance à un critère de
classification (ANOVA)
Objectif comparer la moyenne de plusieurs (k)
groupes indépendants dobservations
On analyse la variance totale, intragroupe et
intergroupe (voir plus bas) pour comparer des
moyennes et tester lhypothèse H0 µ1 µ2
µk.
Pourquoi ne pas réaliser une série de tests t
pour comparer la moyenne de toutes les paires de
groupes ?
- Considérons 7 groupes dobservations tirées
indépendamment dune même population statistique. - - Il faudrait réaliser 7 (7 1)/2 21 tests t
pour comparer toutes les paires de groupes. - - Chaque test étant réalisé au niveau a 0,05,
on a, dans chaque cas, 5 - chances sur 100 de rejeter H0 même si H0 est
vraie (erreur de type I). - La probabilité de rejeter H0 au moins une fois au
cours de 21 tests est 0,66 et non 0,05. Calcul
basé sur distribution binomiale. - Pour être valide, le test global doit avoir une
erreur de type I lt a
3 Lappartenance des observations aux différents
groupes (variable nominale) sappelle le critère
de classification. Celui-ci peut représenter un
facteur contrôlé (fixed factor) ou un facteur
aléatoire (random factor).
Les hypothèses statistiques sont les suivantes
pour k groupes H0 µ1 µ2 µk. H1 au
moins lune des moyennes diffère des autres.
Pour savoir laquelle ou lesquelles, il faut avoir
recours, par la suite, aux tests de comparaisons
multiples
Notez bien il ne sagit pas de comparer les
variances des k groupes.
4Sources de variation
5SC Somme des carrés des écarts Dispersion
totale SCT Dispersion intragroupe (due aux
erreurs) SCE Dispersion intergroupe SCI
Mesure de la dispersion (variation) totale SCT
d.d.l. N-1
6Mesure de la dispersion (variation) intergroupe
SCI
d.d.l. k-1
Mesure de la dispersion (variation) intragroupe
(dûe aux erreurs) SCE
d.d.l. N-k
7CM Carré Moyen
Fc CMfacteur/CMerreur
Pour a 0,05, n1 k-1 et n2 N-k, Fa
(n1,n2) Puisque Fc gt Fa on rejette H0 au profit
de H1.
Le résultat de lANOVA nous dit simplement si au
moins une des moyennes diffère ou pas Un test
Post-Hoc paramétrique est nécessaire pour trouver
quelles moyennes diffèrent entre elles.
8Conditions dapplication de lANOVA
- Variable dépendante quantitative (pour pouvoir
calculer la moyenne et sx). - Indépendance des
observations (observations non autocorrélées). -
Normalité de la population doù est tiré chaque
groupe. - Homoscédasticité
9Effet de la violation des conditions
dapplication
- - Le test Fc de lANOVA est robuste face à une
certaine hétéroscédasticité. Ses résultats
resteront donc valides en présence dune certaine
quantité (pas trop élevée) dhétérogénéité des
variances. - Le test Fc de lANOVA est également robuste face
à une certaine asymétrie ou aplatissement des
distributions. Pour lasymétrie, on pourra
utiliser le critère
En cas de violation sévère de la condition de
normalité 1. Transformer les données avant
lanalyse. 2. Tester Fc par permutations. 3.
Utiliser plutôt le test non-paramétrique de
Kruskal-Wallis
10ANOVA à un critère de classification. Exemple 1
H0 est vraie
11(No Transcript)
12ANOVA à un critère de classification. Exemple 2
H0 est fausse
13(No Transcript)
14Tests paramétriques de comparaison
multiples (Tests post-hoc)
15HSD de Tuckey
Principe Comparer chaque moyenne de lexpérience
2 à 2
Conditions dapplications Celles de lAnova
Exemple. Concentrations moyenne de strontium dans
5 lacs (mg/ml)
Étape 1.
Ranger les moyennes de la plus petite à la plus
grande
16Étape 2.
Calculer les différences entre chaque couple de
moyennes
17Étape 3.
Calculer lerreur standard de chaque couple
Si n inégaux
Si n égaux
18Étape 4.
On calcule la statistique de Tuckey q
19Étape 5.
Hypothèses et Règle de décision
H0 µA µB H1 µA ? µB
Pour n égaux q(a,?1 n(k-1), ?2 k) Pour
n inégaux q(a,?1 N-k, ?2 k)
On rejette H0 au seuil a 0,05 si qcalc gt
q(a?1, ?2) q(0.05,24, 5) 4,166
20Étape 6.
Conclusions
21SNK Student Newman Keuls
Même procédure que le HSD de Tuckey pour le
calcul du test et les règles de décision. Seul
le q théorique diffère.
On lit dans la table de q une valeur pour qa,?,p
Avec p nombre moyen de moyennes dans létendue
de moyennes testées
22Test de Dunnet
Principe Contrôler si la moyenne dun groupe
contrôle diffère des moyennes des groupes
expérimentaux
Si n égaux
Si n inégaux
23On compare aux valeurs de la table de Dunnet q
qa(1) N-kk
Si qgt q alors H0 est rejetée
24Test non paramétrique de comparaison de k
échantillons
25Test de Kruskall Wallis
Le test de Kruskal-Wallis est une généralisation
de celui de Mann-Whitney, à un nombre quelconque
k d'échantillons.
Hypothèses H0 Les k échantillons sont extraits
dune même population H1 au moins un groupe est
issu dune population différente des autres
Exemple La densité (ffl.m-2) de la phanérogame
marine Posidonia oceanica a été mesurée en limite
inférieure dherbiers en 2003 dans 4 sites de la
Région PACA. Déterminer sil existe une
différence significative de densité entre ces 4
sites et où se situe cette différence (a 0,01).
26On ordonne les valeurs des 4 sites confondus par
ordre croissant
27On affecte un rang à chaque mesure de densité
28La statistique de décision
Kruskal Wallis ont défini la variable Hc (ou
KW) telle que
Hc H/C
Pour notre exemple on obtient H 16,1
29C 0,99
Don Hc 16,2
- Si k (nombre de groupes) 3 et si n1 et n2 et
n3 lt 5, on se réfère à la table de KW (petits
échantillons) pour décider de Ho - Pour tous les autres cas ( k gt3 ou si n1 ou n2
ou n3 gt 5) on se réfère à la table de ?² à k-1 ddl
30On compare à ?2 (0,01, 3) 11,34 Hc 16,26 gt
?2 (0,01, 3) 11,34 donc H0 est rejetée à 0,01
il y a donc une différence significative entre
les densités de P. oceanica dans les 4 sites.
31Tests non-paramétriques de comparaison
multiples (Tests post-hoc)
32Test de Nemeyi
Si n égaux
Tuckey
qa,8,k
SNK
qa,8,p
33Si n inégaux
Si il y a des ex-aequo
Qa,k
Si QltQa H0 est acceptée