Title: Tests statistiques
1Tests statistiques
- Définition le test statistique donne une règle
permettant de décider si lon peut rejeter une
hypothèse, en fonction des observations relevées
sur des échantillons. - Démarche scientifique
- Poser une hypothèse
- Conduire une expérience
- Analyser la compatibilité de cette hypothèse avec
les observations issues de lexpérience
2Hypothèses
- Hypothèse nulle lhypothèse dont cherche à
savoir si elle peut être rejetée, notée
H0souvent définie comme une absence de
différence - Hypothèse alternative hypothèse concurrente,
notée H1
3Hypothèses exemple
- Une nouvelle molécule est proposée pour traiter
le cancer de lestomac localisé. - Le but est daméliorer la survie à 1 an par
rapport au traitement habituel - Hypothèse nulle la proportion de patients
survivants à 1 an avec le nouveau traitement est
égale à celle du traitement habituel - Hypothèse alternative survie différente
4Comment rejeter lhypothèse nulle ?
- Définir une zone de rejet de lhypothèse nulle
construite sur une base de vraisemblance en
probabilité - Valeurs expérimentales les plus extrêmes ayant
une probabilité faible de se réaliser si
lhypothèse nulle est vraie. - Risque de première espèce probabilité que lon
a de rejeter lhypothèse nulle quand elle est
vraie (fixé arbitrairement à 5)
5Zone de rejet exemple
- Sachant lintervalle de pari dune proportion, on
peut construire un test pour une proportion
théorique ?avec po la proportion observée
dans un échantillon de taille n (n ? et n (1-?)
? 5)
6Zone de rejet exemple
- Sachant lintervalle de pari dune proportion, on
peut construire un test pour une proportion
théorique ?z suit une loi normalecentrée
réduite - avec po la proportion observée dans un
échantillon de taille n conditions n ? et n
(1-?) ? 5 - Zone de rejet z gt 1,96 pour un risque 5
7Conclusion du test
- Lorsque le résultat du test appartient à la
région de rejet on rejette H0on conclut que le
test est significatif au risque ? (5) - Lorsque le résultat du test nappartient pas à
la région de rejet on ne rejette pas H0on
conclut que le est non significatif(en abrégé
NS)
8Test exemple
- Dans un échantillon de 300 individus, un
caractère est présent chez 68 alors quen
théorie (loi de Mendel) on sattendrait à
lobserver chez 75. - Calcul
- z gt 1,96 appartient à la région de rejet de H0
- Le test est significatif le caractère est moins
fréquent que ne le prédit la loi de Mendel.
9Degré de signification
- Lorsque le test est significatif, il est dusage
de quantifier le degré de signification du test. - Définition le degré de signification est la
plus petite taille du test (valeur du risque de
1ère espèce) qui aurait permis avec ces données
de rejeter le test (il sagit dune probabilité a
posteriori) - Exemple pour z2,8 la table 3.3 donne p0,0051
- On se contente souvent dune inégalité plt5
plt1 plt1
10Interprétation dun test non significatif
- Lorsque le test nest pas significatif, on
sabstient daffirmer quil nexiste pas de
différence - Il faut tenir compte du risque de 2e espèce ?
probabilité que lon a de ne pas rejeter
lhypothèse nulle quand elle est fausse - Il sagit du défaut de puissance du test,
quantité malheureusement inconnue
11Puissance dun test statistique
- Définition la puissance est la probabilité de
rejeter lhypothèse nulle si elle est fausse - La puissance (1??) dépend à la fois
- de lhypothèse alternative plus la différence à
mettre en évidence est importante, meilleure est
la puissance du test - de la taille de léchantillon la puissance
croît avec le carré de la taille de léchantillon - Dépend aussi de la variabilité du critère
(quantitatif)
12Comparer une répartition observée à une
répartition théorique. Test du Chi-Deux
- H0 la répartition est ?1, ?2 , ?k
- On observe parmi n sujets n1 , n2 , nk
- On attendait e1n?1, e2n?2 , ekn?k
- La quantité Q (condition
ei?5)suit une loi du ?² (Chi-Deux) à k-1 degrés
de liberté (d.d.l.). Voir table 4 p.227
13(No Transcript)
14Table de la distribution du Chi-Deux
p/ddl
1
2
3
4
5
6
7
8
9
10
0,0001
0,001
0,01
0,025
0,05
0,1
0,95
0,975
0,0001
0,001
0,005
0,01
0,05
0,1
0,95
0,975
15Test du Chi-Deux dajustement exemple
- On cherche à savoir si lincidence dune maladie
a un caractère saisonnier. On dispose des dates
de diagnostic de 120 cas - On teste H0 ?m1/12 pour tout mois mdoù n ?m
10 pour chaque mois (condition remplie) - Calcul (164191416140925)/109
- Table ?5 , 11 ddl rejet si Qgt21,92
- Le test est donc NS
16Relation entre deux variables qualitativesTest
du Chi-Deux dindépendance
- Dans un échantillon de n individus, on étudie
simultanément chez chaque sujet - une variable X à L catégories
- et une variable Y à C catégories
- Les individus se répartissent dans un tableau de
contingence en fonction des LxC croisements
possibles
17Tableau de contingence LxC
- Ne pas confondre effectifs (nombres) et
proportions (3 types ref ligne, colonne ou
total)
18Tableau de contingence LxCeffectifs attendus
sous H0 indépendance
- (Total de la ligne par total de la colonne sur
total général)
19Statistique du Chi-Deux dindépendance
- La quantité ?²
suit une loi du ?² (Chi-Deux) - à (L-1)x(C-1) degrés de liberté (d.d.l.)exemple
un tableau 3x2 a 2 d.d.l. - condition tous les eij ? 5
20Chi-Deux dindépendance exemple
- Dans une enquête sur l'étiologie, du cancer du
col utérin, on a interrogé 4 catégories de femmes
hospitalisées - pour cancer du col utérin
- témoins cancéreuses cancer ne portant pas sur la
sphère génitale - témoins malades maladie autre que le cancer
- témoins non malades accident de la circulation
ou du travail - La question principale de cette enquête
concernait les antécédents de maternité, à la
recherche d'une relation éventuelle avec la
survenue du cancer du col utérin. Le tableau
suivant indique le classement obtenu.
21Tableau de contingence observé
22Tableau de contingence observé / théorique
- Tous les effectifs attendus sont supérieurs à 5
23Calcul du Chi-Deux dindépendance
- ?² 8,490,614,252,673,520,251,761,11
- ?² 22,66
- Table à 3 ddl rejet si ?² gt7,81 (?5)
24Chi-Deux dindépendance conclusion
- Le résultat du test appartient à la région de
rejet, donc on rejette lhypothèse nulle
dindépendance au risque ?5 - On conclut à une liaison entre les antécédents de
maternité et la survenue dun cancer du col
utérin - Degré de signification table 4, colonne 3 ddl
(21,11), donc plt0,0001Excel fonction
loi.khideux p0,000048
25Chi-Deux dindépendance interprétation
- Le rejet de H0 permet de conclure que la
fréquence des antécédents de maternité nest pas
égale pour tous les groupes. - La fréquence apparaît plus élevée dans le groupe
cancer du col utérin (83), plus faible dans les
deux groupes témoin (62 et 64) - Un test complémentaire aiderait à interpréter
lécart entre témoins cancéreuses et témoins non
cancéreuses.
26Comparer une moyenne observée à une moyenne
théorique.
- Comme pour une proportion, on déduit de
lintervalle de pari de la moyenne - Suit une loi normale centrée réduite
- Condition n ? 30pas de condition de
distribution
27Comparaison de deux moyennes
- Suit une loi normale centrée réduite
- Condition n ? 30pas de condition de
distribution
28Comparaison de deux moyennescas des petits
échantillons test de Student
- Suit une loi de Student à nAnB-2 ddl (table 5)
- Condition Loi normale variances égales
29(No Transcript)
30(No Transcript)
31Comparer une moyenne observée à une moyenne
théorique petit échantillon
- Suit une loi de Student à n-1 ddl
- Condition loi normale