Title: L2 STE
1Introduction aux statistiques Le test du c2
L2 STE
2Test du ?2
Test du ?2 dadéquation/conformité Il s'agit de
juger de l'adéquation entre une série de données
statistiques et une loi de probabilité définie a
priori ou à une population donnée. Test du ?2
dhomogénéité Il s'agit alors de se demander si
deux listes de nombres de même effectif peuvent
dériver de la même loi de probabilité.
Principe Lanalyse se fait à laide dun tableau
de corrélation (variables quantitatives
regroupées en classes) ou (plus souvent) de
contingence (variables qualitatives). Il ne
concerne que des données discrètes. On calcule
les fréquences attendues de chacune des cases
puis les écarts entre celles-ci et les fréquences
observées.
3Préparation des données. Test du ?2
Tableau de contingence les MnMs transgéniques
4Préparation des données. Test du ?2
Les tableaux de corrélation le territoire et la
masse des marsupiaux
5Conformité. Test du ?2
Pour calculer la statistique ?2, on a besoin
des - fréquences absolues observées - fréquences
absolues attendues
Remarque importante les fréquences du tableau
sont des fréquences absolues observées, jamais
des fréquences relatives!
6Conformité. Test du ?2
Les fréquences attendues (théoriques) sont
nécessaires
1. Si on connaît déjà (grâce à une théorie) les
fréquences attendues théoriques, on les utilise
directement. Exemple l'hérédité des pois de
Mendel
7Conformité. Test du ?2
Test du ?2
H0 Je me conforme à la théorie ?2 0 H1 Je
ne me conforme pas à la théorie ?2 gt 0
8Conformité. Test du ?2
où, si N est la fréquence totale
H0 c20 H1 c2gt0
Si c2 0, fréq théoriques identiques aux fréq.
obs., si c2 gt 0, elles ne sont pas exactement
identiques.
9La loi du Khi carré c2
Si Z1, Z2, Zn sont des variables aléatoires
normales centrées réduites et indépendantes
entres elles, la somme des carrées de ces
varaibles aléatoires obéit à la loi du c2 à n
degrés de libertés
10La loi du Khi carré c2
11La loi du Khi carré c2
En fait, les calculs sont fastidueux -gt TABLES
12La loi du Khi carré c2
13Conformité. Test du ?2
Un exemple
Le tableau suivant montre la distribution des
unités 0, 1,2, , 9 dune table de nombres
aléatoires comportant 250 nombres. Est-ce que la
distribution observée est significativement
différente de la distribution théorique?
Unités 0 1 2 3 4 5 6 7 8 9
Fréq Obs 17 31 29 18 14 20 35 30 20 36
Fréq Est. 25 25 25 25 25 25 25 25 25 25
Solution
critique à n 10-1 9 degrés de liberté
16,92 23.3gt16,92. Cette table de nombre aléatoire
est suspecte.
14Degré de liberté. Test du ?2
- Pourquoi 9 degrés de liberté dans lexemple
précédent? - k -1 si les fréquences théoriques peuvent être
calculées sans avoir à estimer les paramètres de
la population à partir des statistiques
déchantillon. - k 1 m si les fréquences théoriques peuvent
être calculées en nestimant que m paramètres de
la population à partir des statistiques
déchantillon.
Idéalement, au moins 5 occurrences par case!
15Degré de liberté. Test du ?2
16Homogénéité. Test du ?2
17Homogénéité. Test du ?2
18Homogénéité. Test du ?2
Guérit Ne guérit pas Total
Groupe A (serum) 75 25 100
Groupe B (sans sérum) 65 35 100
Total 140 60 200
Fréquences observées
Guérit Ne guérit pas Total
Groupe A (serum) 70 30 100
Groupe B (sans sérum) 70 30 100
Total 140 60 200
Fréquences attendues sous H0
Impossibilité de rejeter H0
19Homogénéité. Test du ?2
Exemple Tableau de contingence du nombre de
joueurs de hockey de différentes nationalités
utilisant différentes marques de bâtons de hockey.
Étape 1 Question biologique
Le choix de la marque du bâton de hockey que les
joueurs utilisent est-il influencé par lorigine
du joueur?
20Homogénéité. Test du ?2
Étape 2 Déclaration des hypothèses
H0 il ny a pas de préférence de marque de bâton
de hockey chez les joueurs de différentes
nationalités (donc la variable "marque de bâton"
et la variable "nationalité" sont indépendantes)
?2 0 H1 les joueurs de différentes
nationalités ont des préférences différentes au
niveau de la marque de bâton de hockey quils
utilisent ?2 gt 0
Étape 3 Test statistique utilisé
Étape 4 Conditions dapplication
données sous forme de fréquences indépendance
des observations fréquences distribuées
normalement
21Homogénéité. Test du ?2
Calcul des fréquences théoriques
fth(i,j) (ni nj)/N
exemple, la première cellule
22Homogénéité. Test du ?2
Étape 5 Distribution de la variable auxiliaire
Si H0 est vraie, la statistique ?2calc suit une
distribution de ?2 à ? (l 1) (c 1) (5
1) (6 1) 20 d.d.l. On rejette H0 si ?2calc
?2(0,05, 20) 31,41
Étape 6 Règle de décision
Étape 7 Calcul du test
Étape 8 Décision statistique
On ne rejette pas H0 au seuil a 0,05 car si
?2calc lt ?2(0,05, 20)
Étape 9 Interprétation biologique
Les joueurs de différentes nationalités
nutilisent pas des bâtons de hockey de marques
différentes car les compagnies font la promotion
de leurs bâtons avec la même intensité dans les
pays étudiés.