Title: Tests non param
1Tests non paramétriques
2Tests libres
- Certains tests statistiques ne sont valables que
sous certaines conditions concernant la forme de
la distribution des variables le test de Student
suppose par exemple des lois normales. Lanova
également. - Dautres tests au contraire sont valables
indépendamment de toute distribution. Cest le
cas du test du khi², des signes, ou du
coefficient de Spearman. On les nomme tests
libres ou indépendants de toute
distribution (distribution-free tests).
3Tests paramétriques
- Certains tests ont pour but de démontrer une
inégalité sur des paramètres (moyenne en
général) anova, comparaisons de moyenne, test du
coefficient de corrélation, test de Levene
(variances) Ce sont des tests paramétriques. - Dautres testent des hypothèses plus générales
égalité de lois, indépendance de variables
nominales tests du khi², tests de
Kolmogorov-Smirnov, du tau de Kendall Ce sont
des tests non-paramétriques.
4Choix de tests
- Habituellement, les tests paramétriques sont plus
puissants on les choisira de préférence que
les tests non paramétriques. - De même les tests non libres sont généralement
plus efficaces que les tests libres. - Cependant, ils sont aussi plus contraignants, car
il faut vérifier les conditions dapplication,
plus nombreuses. On choisira généralement un test
libre ou non paramétrique lorsque - les conditions dutilisation des autres tests ne
sont pas vérifiées - il est impossible de vérifier ces conditions.
5Plan
- Les parieurs test des signes
- Baisse dattention Alzheimer Wilcoxon
(indépendant) ou Mann-Whitney - Les Japonais Kruskal-Wallis ou test des
médianes - Cigarette et anxiété Wilcoxon (apparié)
- Luttons contre la timidité Friedman
- La porte! test binomial
- Les étudiants trichent-ils? runs test (test des
séquences) - Le QI des dépressifs Kolmogorov-Smirnov à un
échantillon - Opinions racistes réactions extrêmes de Moses
- Effet de la cocaïne sur les compétences réelles
et imaginées tests de Kolmogorov-Smirnov pour
deux échantillons et de Wald-Wolfowitz. - Episodes stressants et dépression test de
Jonckheere-Terpstra - Ne pas jeter sur la voie publique Mc Nemar
- Ne pas jeter sur la voie publique II
Homogénéité marginale - Utilisabilité test Q de Cochran
61. Les parieurs
7Expérience
- Des joueurs parient à la machine à sous certaines
sommes dargent. Pour chacun des parieurs, on
relève la somme moyenne par pari sur 10 paris, et
cela dans deux situations dune part dans la
situation témoin (sans observateur), et dautre
part lorsque 2 témoins les regardent (situation
test). - Les groupes sont appariés pour le genre et
contrebalancés pour lordre des deux situations. - La question est les individus parient-ils plus
lorsquils sont observés?
8Student
- Le plus évident serait dutiliser un test de
comparaison de moyennes pour échantillons
appariés, afin de déterminer si la différence
DXtest-Xtémoin est nulle en moyenne ou non. - Il sagit alors dun test de Student, utilisé sur
la variable D. Notre échantillon est de taille
20, ce qui est faible. - Avant de commencer le test de Student, on
représente les données observées pour vérifier au
moins graphiquement la normalité.
9(No Transcript)
10(No Transcript)
11Donc
- Il nest pas légitime ici dutiliser le test
prévu, parce que léchantillon est petit et que
la variable D nest probablement pas normale. - On se rabat donc sur un test non paramétrique le
test des signes. Quelques remarques simposent.
12Remarques
- Nous voulions tester la différence moyenne entre
les paris avec et sans observateurs, mais nous
allons tester une autre hypothèse. Avec Student,
on vérifie que les paris témoin (par exemple)
sont inférieurs en moyenne aux paris test. Avec
le test des signes, on testera que les paris
témoins sont en général inférieurs aux paris
test. - Nous utilisons un test peu puissant. En fait, on
perd énormément dinformation, puisquon ne
conserve que le signe de D. Si D suivait une loi
normale, ou si on avait un gros échantillon, un
test de comparaison de moyennes serait de loin
préférable.
13Résultats
- On calcule par ordinateur les résultats pour le
test des signes, qui permet dopposer lhypothèse
nulle que la première valeur (test) est aussi
souvent supérieure quinférieure à la seconde
(témoin). - Dans les résultats qui suivent, on a utilisé la
différence témoin-test, si bien quune différence
négative indique des paris plus élevés dans la
situation test.
14statistiques descriptives
résultats du test des signes
15Conclusion
- Le test des signes fonctionne. On peut donc
conclure H1 (effet de la présence dobservateurs)
contre H0 (pas deffet). Cela au risque de 0.1. - Il resterait à étudier, bien entendu, le lien
entre les observateurs et les parieurs. Mais ça
nest pas un problème purement statistique. - Le test des signes permet de comparer deux
variables (i.e. deux échantillons appariés).
16Attention soutenue
Berardi, A. et al. Sustained Attention in Mild
Dementia of the Alzheimer Type. A paraître.
- Test U de Mann-Whitney
- Test de Wilcoxon pour échantillons indépendants
17Principe
- On dispose dun groupe témoin (n10) et de
patients de type Alzheimer (n10), appariés pour
lâge et le genre. - On relève par une variable X numérique la baisse
de lattention au cours dune séance dexercices
cognitifs (reconnaissance dune lettre
apparaissant à lécran). - On veut montrer entre autres que la baisse de
lattention est plus rapide chez les patients
(donc X est plus élevé). - Les distributions de X ne semblent pas normales,
et les variances diffèrent énormément. Il nous
faut une alternative au test de comparaison de
moyennes.
18Principe
- On utilisera donc le test U de Mann-Whitney ou
Test de Wilcoxon pour deux échantillons
indépendants. - Ce test permet de confronter les hypothèses H0
(les deux variables sont du même ordre de
grandeur) et H1 (lune des deux variables a
tendance à dépasser lautre). - On observe sur léchantillon la somme des rangs
la somme la plus élevée correspond aux valeurs
les plus grandes. Ici, le groupe Alzheimer est
numéroté 2, le groupe témoin est codé 1.
19Le test
le test U de Mann-Whitney utilise les rangs.
le test U de Mann-Whitney est identique au test
des sommes des rangs de Wilcoxon.
20Conclusion
- On peut donc conclure au risque de 2 que les
patients Alzheimer présentent globalement une
baisse plus marquée de lattention soutenue (de
manière rigoureuse X est stochastiquement
supérieure pour les patients Alzheimer.
21Estime corporelle
Kowner, R. (2002). Japanese body image Structure
and esteem scores in a cross-cultural
perspective. International Journal of Psychology,
37.
- Test H de Kruskal-Wallis
- Test des médianes
22Létude
- On relève dans différents pays un score destime
corporelle par une variable quantitative X. - On souhaite savoir si le pays P a un effet sur la
variable X. Il est donc tout naturel de
sorienter vers une analyse de variance simple.
On vérifie dans un premier temps les conditions
dapplication.
23Conditions dapplication
Conditions dapplication non vérifiées
24Létude
- Une solution est de transformer les données. Ici,
cest difficile parce que les distributions sont
franchement asymétriques, et dasymétries
opposées. - Nous abandonnons lidée dune anova, et utilisons
à la place un équivalent de lanova simple qui
utilise non les valeurs mais les rangs Lanalyse
de variance à un critère de classification de
Kruskal-Wallis (ou H de Kruskal-Wallis). - Nous pouvons aussi penser au test des médianes.
25Le test des médianes
- Le test des médianes calcule la médiane commune
des groupes, disons m, puis transforme la
variable dépendante en une variable dichotomique
(supérieure ou inférieure à m). Il ne reste plus
quà effectuer un test du khi² sur ces nouvelles
données. - Ce test a linconvénient dêtre très peu
puissant. On le réservera plutôt aux cas où lon
ne peut pas utiliser le test de Kruskal-Wallis
(trop dex æquo), à moins quon ne cherche
précisément une différence sur les médianes, ce
que détecte ce test.
26le tableau de contingence est propice au test du
khi² dindépendance
les données sont censurées (dichotomisées)
le khi² est significatif au risque de 2.5, mais
pas au risque de 2
27Kruskal-Wallis
Le test de Kruskal-Wallis utilise les rangs
La variable de décision suit une loi du khi² sous
lhypothèse nulle
28Résultats
- On peut donc conclure mais seulement au risque
de 2,5 que les différents pays ne donnent pas
les mêmes valeurs de X globalement. Il semblerait
que les Japonais aient une estime corporelle
inférieure à celle des Canadiens et des
Israéliens en général. - Il faudrait faire des tests supplémentaires pour
décider si la différence particulière
Japon-Canada par exemple est significative ou
non. Par exemple, une fera une série de tests de
Wilcoxon en faisant attention au risque.
29Tabac et anxiété
Juliano, L.M. Brandon, T.H. (2002). Effect of
nicotine dose, instructional set, and outcome
expectancies on the subjective effect of smoking
in the presence of a stressor. Journal of
Abnormal Psychology, 111.
- Test de Wilcoxon pour échantillons appariés
30Lidée
- On compare lanxiété chez des fumeurs ayant à
leur disposition des cigarettes (groupe test) et
des placebo (cigarettes sans nicotine groupe
témoin). Ils ne sont pas informés de labsence
éventuelle de nicotine. - On utilise un plan répété pour des raisons
defficacité et parce que les différences
inter-individuelles danxiété sont importantes
par rapport à leffet attendu de la nicotine.
Léchantillon est contrebalancé pour lordre. - Pour étudier leffet de la nicotine, le plus
logique est dutiliser un test de Student pour
échantillons pairés. Cependant, la variable
différence DXnicotine-Xplacebo est bimodale.
31Le test
- On utilisera alors un test de Wilcoxon pour
échantillons appariés, pour opposer lhypothèse
nulle que la nicotine na pas deffet (i.e. le
score X danxiété est globalement le même dans le
deux cas) contre lhypothèse inverse.
32Les données vont dans le sens voulu. La nicotine
semble plus efficace.
Le test de Wilcoxon se base sur les rangs de la
différence
33Thérapie comportementale
- Test de Friedman
- W de Kendall
34Idée
- Pour lutter contre la timidité, plusieurs
thérapies ont été testées, mais la plus
prometteuse est la thérapie comportementale. On
mesure, sur quelques patients qui suivent la
thérapie, une grandeur X de la gravité des
symptômes liées à la timidité. X est relevée 5
fois au cours de la thérapie (intervalles 8
jours). - On souhaite montrer un effet de la thérapie en
réalité, il faudrait comparer avec un groupe
témoin mais nous supposerons que sans thérapie il
ny a pas damélioration. Pour cela, on pourrait
envisager une anova pour plans répétés, mais les
conditions dapplication ne sont pas vérifiées.
35Idée
- On utilisera alors un équivalent de lanova pour
plans répétés, et qui utilise les rangs de la
variable pour chaque sujet le test de Friedman. - Malheureusement, cette méthode ne permet pas
ici cest sans importance de montrer un
éventuel effet du facteur sujet.
36Lordre est conforme à ce quon attend dune
thérapie efficace
37La variable de décision suit une loi du khi² sous
H0.
38Complément
- Le coefficient qui sert au test de Friedman a été
normalisé cest alors le W de Kendall. Lintérêt
du W de Kendall est quil se lit comme un
coefficient de corrélation (il est toujours
compris entre 0 et 1). - On peut donc linterpréter indépendamment de la
taille de léchantillon.
39Le W de Kendall (ou coefficient de concordance de
Kendall). Il montre ici un accord moyen. Il est
plus utile lorsque les différentes valeurs sont
données par des juges.
le khi² est celui de Friedman
40Conclusion
- Il y a donc un effet du temps sur la gravité des
symptômes. Les rangs vont dans le sens voulu. On
conclut à un effet positif de la thérapie. - Attention il faudrait normalement absolument
comparer ces résultats à ceux dun groupe témoin,
ne serait-ce quà cause du phénomène de
régression vers la moyenne.
41La porte
42Principe
- Pour des raisons de sécurité, il peut être
important de savoir si les gens auront tendance à
pousser ou à tirer la porte. - On relève sur un échantillon qui pousse et qui
tire la porte. On veut tester lhypothèse que la
distribution pousser/tirer nest pas uniforme
(50-50). - On pourrait pour cela utiliser un test du khi² de
conformité, mais la variable de décision ne suit
pas une vraie loi du khi² il sagit dune
approximation. On préfèrera alors un test exact.
43Test binomial
- On utilisera ici le test binomial.
- Ce test nest valable que dans le cas dune
unique variable dichotomique dont on veut tester
la distribution.
44les données vont dans le sens voulu (hypothèse
alternative)
soit 0.3 en bilatéral, donc 0.15 unilatéral
proportion théorique
45Les étudiants trichent-ils?
- test des suites en séquences
- runs test procedure
46Données
- On dispose dun paquet de copies, qui est encore
classé dans lordre où les étudiants étaient
assis. - On aimerait savoir, comme dans le cas courant
dun échantillon pseudo-aléatoire, si les
étudiants ont répondu indépendamment lun de
lautre ou si lon trouve au contraire trop de
suites de réponses identiques qui se suivent. - Pour le savoir, on raisonne sur les
séquences . Prenons par exemple la réponse à
lune des questions, qui était le calcul dun
écart type. Une bonne partie des étudiants sest
trompée, soit en calculant lécart type corrigé,
soit en oubliant de prendre la racine carrée
47Données
- Nous disposons de nombreuses valeurs différentes
de la réponse. - Par rapport à la médiane (ici 4), certaines
valeurs sont trop faibles (strictement), ce quon
notera - et dautres trop grandes (ou égales
à la médiane), ce quon notera . On compte
alors le nombre de séquences, qui devrait être ni
trop petit (les voisins copient) ni trop élevé
(les voisins font le contraire lun de lautre). - Le test des séquences (runs test) permet de
vérifier que le nombre de séquences est
raisonnable.
48séquence 2
séquence 7
séquence 1
49Séquences
- Nous avons ici 7 séquences. Est-ce trop? trop
peu? Le test des séquences y répond. - Ce que nous testons ici par rapport à la médiane
peut aussi être testé par rapport à nimporte
quelle valeur (notamment la bonne réponse 8). Il
ne faut pas, bien entendu, tester un trop grand
nombre de valeurs distinctes, car cela fausserait
la signification. - Nous testons ici avec le runs test la médiane et
la bonne réponse.
50la médiane et 4
16 valeurs sont inférieures à la médiane
et 27 supérieures
On a 6 séquences sur une suite de 43 valeurs.
Les étudiants ont triché
On attendait plus de séquences (zlt0)
51Les résultats sont identiques quand on compare à
la bonne valeur 8 , même si la signification
est moindre.
52Dépression et QI
- Test de Kolmogorov-Smirnov pour un échantillon
53Problématique
- On dispose des QI dun échantillon de 25 patients
dépressifs. On souhaite savoir si les dépressifs
présentent un QI conforme à la population
générale, et en particulier si ce QI suit une loi
normale. Ce type de questions est important
lorsquon envisage de procéder à un test fondé
sur des lois normales. - Pour cela, on peut utiliser le test du khi², mais
il obligerait à perdre une grande partie de
linformation (car il faudrait regrouper les
valeurs en catégories). On préfère alors un test
de Kolmogorov-Smirnov pour un échantillon.
54Problématique
- Ce test compare une distribution observée à une
distribution théorique, et sapplique bien aux
variables numériques. - Il se fonde sur la statistique du plus grand
écart entre les fonctions de répartition
théorique et observée
55Les paramètres ne sont pas ceux de la population
générale. Le test de KS justifie lutilisation du
test de Student.
Il semble que la distribution du QI suive une loi
proche de la normale
56Opinions racistes
- Test des réactions extrêmes de Moses
57Expérience
- On relève par une note X la position des sujets
face au racisme. On souhaite comparer deux
groupes. Le groupe témoin remplit directement le
questionnaire. Le groupe test entend dabord un
discours anti -raciste particulièrement
violent. - On pense que la variable groupe G a un effet,
mais non pas sur la moyenne (plutôt sur la
variance) lidée est que le discours du groupe
test va radicaliser les positions, qui
sécarteront de la moyenne. - Cest une situation idéale pour lutilisation du
test des réactions extrêmes de Moses.
58Expérience
- Ce test compare deux groupes selon une variable
numérique. Il se fonde plus ou moins sur
lamplitude des valeurs, et utilise les rangs. - Lidée est que les rangs du groupe test auront
tendance sous H1 à se retrouver dans les extrêmes.
59il y a bien une différence entre les groupes. Le
discours a un effet.
leffet est encore significatif si on filtre la
variable (en enlevant les valeurs extrêmes).
on élimine les valeurs extrêmes pour éviter de
prendre en compte les erreurs.
60La cocaïne
- Kolmogorov-Smirnov (2 échantillons indépendants)
- Test de Wald-Wolfowitz
61Présentation
- On relève sur deux groupes indépendants (variable
G) de consommateurs de cocaïne lun étant sous
linfluence de la cocaïne et lautre non les
résultats à un test de compétences logiques
(variable REEL). On explique le barème aux sujets
qui doivent estimer leurs compétences (variable
PERCU). - Notre hypothèse est que REEL ne changera pas dun
groupe à lautre, mais que PERCU variera. - Les échantillons sont petits et les variables
nont pas lair gaussiennes.
62Présentation
- On peut utiliser un test de Mann-Whitney, mais il
existe deux tests équivalents plus généraux, et
plus puissants dans les cas courants - Le test de Kolmogorov-Smirnov pour deux
échantillons indépendants et le test de
Wald-Wolfowitz. - Nous utilisons ici exceptionnellement les
deux tests (chacun deux fois). - Notons que le test WW nutilise que les rangs
on perd de linformation, et donc de la puissance.
63on utilise des différences de répartition.
Détecte bien les formes différentes.
la variable de décision est normale sous H0
conforme à lhypothèse de départ
64dans le cas où nous nous trouvons, le test de
Wald-Wolfowitz nest pas adapté. Il ne repère pas
la différence entre les groupes
le test de Wald-Wolfowitz utilise les séquences.
65Remarques
- Le test KS pour 2 échantillons est assez
puissant. Il repère des différences de fonctions
de répartition. - Le test WW se fonde sur les séquences dans les
données rangées si on range les données dans
lordre, certaines sont dans le groupe 1 dautre
dans le groupe 2. On peut ainsi déterminer une
suite de la forme 1112212112 Le test WW sera
sensible au fait que les séquences dans cette
suite sont peu ou très nombreuses. Ainsi, on
détectera facilement une différence si lun des
groupes donne une distribution bimodale et
lautre unimodale. En revanche une différence de
moyennes sera éventuellement difficilement
détectée. - Entre les deux tests, on décidera donc
essentiellement en fonction de ce quon pense de
H1 (ce quon veut montrer).
66Episodes stressant
- Test de Jonckheere-Terpstra
67Principe
- On classe des patients en fonction de la durée
cumulée des épisodes stressants récents
(difficultés familiales, professionnelles,
deuils) en 3 catégories (court/moyen/long) ainsi
que la gravité de létat dépressif, notée par une
valeur X. - Les conditions dapplication de lanova ne sont
pas vérifiées. On pourrait penser à un test de
Kruskal-Wallis, plus puissant que celui des
médianes, mais on est ici dans un cas
particulier. - On sattend en effet à ce que le lien entre les
groupes (naturellement ordonnés) et X soit
monotone. Dans ce cas, mieux vaut utiliser un
autre test celui de Jonckheere-Terpstra.
68Principe
- Ce test est en effet particulièrement puissant
dans le cas dun lien monotone entre la VI et la
VD. Cest celui que nous utiliserons ici.
69la test est concluant au risque de 1.1.
70Ne pas jeter sur la voie publique
71Les données
- On distribue des papiers à des passants. Un
observateur caché relève si le papier est jeté
dans un poubelle ou non. - On donne un second papier aux mêmes passants un
peu plus loin, en leur précisant de ne pas les
jeter sur la voie publique. On relève à nouveau
la même valeur. - Le but est de comparer le comportement avant et
après, disons COMPAVT et COMPAPR. On ne peut pas
utiliser de test de Student, à moins davoir des
échantillons énormes. Dautre part, le test des
signes ou de Wilcoxon (cas pairé) nest pas
adapté.
72Le test
- En effet, les variables sont dichotomiques
(beaucoup dex æquo). - On raisonne alors de la manière suivante si la
consigne na pas deffet, on devrait observer,
parmi les passants qui changent de comportement,
autant de changements dans un sens que dans
lautre, ce quon teste avec un khi² corrigé. - Cest le test de McNemar.
- Si le test est concluant, on peut dire que la
consigne est efficace. Mais attention si la
consigne pousse 10 des personnes à changer
davis, indépendamment de leur comportement
premier, on trouvera peut-être un khi²
significatif.
73la probabilité de changer de comportement si lon
nutilisait pas la poubelle est de 60
la probabilité de changer de comportement si lon
utilisait la poubelle est de 60
pourtant le conseil a un effet sur les résultats
de léchantillon (contre productif). Est-il
significatif?
74au risque de 2.3, on peut dire que la consigne a
un effet négatif sur les résultats (mais non sur
les passants).
75Remarques
- Il ne faut surtout pas contrôler la variable
COMPAVT (pour avoir par exemple des échantillons
de même taille), car alors le résultat naurait
plus le même sens. - On contrôlera la variable si lon souhaite savoir
si le conseil a un effet sur les passants (ici
non), mais pas pour savoir sil est efficace.
76Ne pas jeter non plus
77Idée
- On reprend lexpérience précédente, mais les
variables COMPAVT et COMPAPR ont désormais trois
modalités (poubelle, emporté, autre) selon que
les passants jettent dans une poubelle, emporte,
ou laisse par terre le papier. - On se pose la même question la consigne a-t-elle
un effet. Le test de McNemar nest plus
utilisable car les variables sont nominales mais
plus dichotomiques. On utilise alors léquivalent
nominal du test de McNemar le test dhomogénéité
marginale.
78les marges permettent de voir lévolution des
comportements. On voit ici que poubelle
varie, mais autre aussi.
79le test étudie seulement les changements
il y a un changement significatif sur
léchantillon.
80Conclusion
- Le changement est significatif, mais il semble
quil ne soit pas positif. On observe sur
léchantillon une augmentation du nombre
emporté , ce qui pourrait correspondre tout
simplement à un comportement social pour éviter
le conflit, le passant jettera le papier beaucoup
plus loin. - Le nombre de papiers finissant à la poubelle près
de lendroit où il est distribué est diminué.
81Utilisabilité
82Principe
- On construit un site Internet de vente par
correspondance. Pour savoir si le site est bien
fait, on demande à 5 personnes de venir tester le
site. Chaque personne doit réaliser 6 tâches, qui
ont été sélectionnées de manière à être si le
site est utilisable de même difficulté. - Chaque tâche est une variable. Chaque sujet un
individu. On cherche si les tâches sont de
difficultés identiques. - Si la réponse était numérique, on utiliserait une
anova pour plans répétés. En cas de violation des
conditions dapplications, on utiliserait un test
de Friedman.
83Principe
- Mais ici se pose le problème suivant lordre est
mal défini, parce que la variable est
dichotomique. On utilise donc un équivalent de
lanova pour plans à mesures répétées
généralisation du test de McNemar Le Q de
Cochran (sic).
84échec
tâche numéro 1
réussite
les tâches sont les variables
tâche numéro 6
85les tâches ne sont pas identiques (risque 2.4)
un sujet est un individu
Q est la variable de décision
le degré de liberté dépend du nombre de variables
(i.e. modalités du facteur)
86Conclusion
- Il faut développer la support list.
- Le développement dun site commercial est très
coûteux. Il est important quil soit conforme au
cahier des charges. - Lentreprise na pas réussi, pour linstant, à
rendre les 6 tâches également simples. Elle devra
améliorer lutilisabilité de son site.