Title: Infrence statistique
1Inférence statistique
- Distribution déchantillonnage
- Estimation de la moyenne, de la variance de la
distribution des moyennes à partir des données de
l'échantillon - Estimation de la variance d'une population Ã
partir des données de l'échantillon - Estimation dun paramètre dune distribution
- Intervalle de confiance
- Nombre de sujets nécessaires
1
2Estimation des paramètres de la population
- Variables quantitatives moyenne et écart type
- Rappels
- N Effectif de l'échantillon (nombre de mesures)
- T Total des valeurs
- U Total des carrés
- SCE somme des carrés des écarts à la moyenne
Note p nombre de valeurs différentes
Moyenne
Ecart type
2
3La distribution de la moyenne
- Supposons que dans une population on ait prélevé
un premier échantillon de N individu - Si lon prélève dans les mêmes circonstance un
2ième, 3ième échantillon, on obtient x1. xn
et x1xn avec les moyennes correspondantes. - On peut considérer la suite infinie des
observations x1, x1, x1. Comme des valeurs
observées dune VA X1 et ainsi de suite pour x2,
x2, x2. Dune VA X2 Dans ces conditions, les
moyennes observées sont elles même des valeurs
dune VA
4Distribution de la moyenne
- Tout comme X1. Xn la VA X possède une
distribution de probabilité. Cest las
distribution déchantillonnage de la moyenne. - Les VA X1. Xn ont toutes la même distribution de
probabilité dont la moyenne est désignée par m et
la variance par s2.
5Estimation de la moyenne de la population
- La distribution des moyennes d'échantillons
indépendants de faible effectif tirés de la même
population suit une loi normale si la
distribution de la variable est normale. - Au delà de 30, la distribution des moyennes peut
être approchée par une loi normale sans
condition sur la distribution de la variable. - La moyenne de l'échantillon est le meilleur
estimateur de la moyenne de la population. - L'écart type de la distribution des moyennes
d'échantillons indépendants tirés de la même
population peut être estimé à partir de l'écart
type de l'échantillon S (ou de l'estimateur de
l'écart type de la population s ).
S
ESM
m
N-1
(Standard deviation of the mean)
La variable aléatoire
X - m
suit une loi de student à N-1 DDL
t
gt Si N gt 30, il y a une probabilité de 95 que
la moyenne se trouve dans l'intervalle m 2
ESM
4
6Estimation de l'écart type de la population
- L'écart type de l'échantillon n'est pas un bon
estimateur de l'écart type de la population. Il
existe une erreur systématique c'est un
estimateur biaisé. - La distribution des variances d'échantillons
aléatoires indépendants a comme moyenne
et comme variance dans le cas d'une population
normale
Dans le cas d'une population normale la
quantité
2
N S
suit une loi du khi 2 Ã N-1 DDL
2
s
Notons que si
2
2
N S
est une bonne estimation de la variance, sa
racine carré n'est pas une estimation absolument
correcte de l'écart type. On peut montrer que les
résultats ainsi obtenus sont systématiquement
trop faibles avec une erreur relative de 1/4(N-1)
s
(N-1)
5
7Méthode du maximum de vraisemblance (likelihood)
- On appelle fonction de vraisemblance la
probabilité ou la densité de probabilité relative
aux valeurs observées x1xn, exprimée en fonction
du ou des paramètres de la population. Pour un
échantillon aléatoire simple et pour une
population définie par un seul paramètre g, la
fonction de vraisemblance est - Les estimateurs du maximum de vraisemblance
correspondent par définition au maximum de cette
fonction. La recherche de ce maximum peut être
réalisé en annulant la dérivé de cette fonction
ou en annulant la dérivé de son logarithme - Cette notion peut être tendue au cas de plusieurs
paramètres, la recherche du maximum nécessite
alors le calcul des dérivés partielles
8Méthode du maximum de vraisemblance (likelihood)
- Exemple estimation dun pourcentage. Soit une
population infinie, dont les individus possèdent
ou non un caractère (yeux bleu) et supposons que
lon veuille estimer la proportion des p
individus possédant ce caractère. - On associe au caractère une VA X qui vaut 1 quand
le caractère est présent et 0 lorsquil est
absent. - La distribution de probabilité est
- P(X1 p et P(X0) 1-p
- Pour un échantillon aléatoire simple deffectif N
dont x individus sont porteurs du caractère
considéré le logarithme de la fonction de
vraisemblance est - Sa dérivée par rapport à p est
- Lestimation du maximum de vraisemblance est
La fréquence relative est le meilleur estimateur
du pourcentage
9Le problème
Population
Échantillon
m s
Inconnus
X S
Connus
- A partir des paramètres obtenus sur l'échantillon
on veut estimer les paramètres de la population
dont cet échantillon est extrait. - Ceci peut se faire uniquement si
- L'échantillon a été correctement constitué
(notion d'échantillon représentatif). Que
penseriez vous d'un expérimentateur qui voudrait
généraliser les observations qu'il a réalisées,
vis à vis du mal de dos, en n'ayant observé que
des secrétaires médicales ? - Si la loi de probabilité qui régit la
distributions des paramètres à estimer est connue
gt respect des conditions d'application - Au-delà de lestimation ponctuelle un risque
accepté sur la méthode permet de bâtir un
intervalle de confiance
3
10L'intervalle de confiance de la moyenne
- L'estimation ponctuelle d'un paramètre ne
présente que peu d'intérêt si on a aucune idée de
la précision de l'estimation obtenue. - Supposons que l'on s'intéresse à la moyenne m
dont on possède un estimateur X et que l'on
s'efforce de déterminer de part et d'autre de X
les limites G1 et G2 d'un intervalle qui a forte
probabilité de contenir m. Pour résoudre se
problème, on se donne un coefficient de confiance
(ou de sécurité) voisin de 1, en général 0,95
(95). L'intervalle G1-G2 est appelé intervalle
de confiance avec un risque a 1- coefficient
de confiance - Cependant le fait de fixer le degré de confiance
ne suffit pas pour connaître les limites G1 et
G2. En général, on répartit le risque d'erreur en
deux partie égale P(mltG1) P(mgtG2) a /2 - Les bornes de l'intervalle de confiance de la
moyenne sont obtenues par
t suit une loi de Student à N-1 DDL
ESM
Si N gt 30 et a 0,05 on approche par la loi
normale et l'intervalle devient X 1,96 ESM
Attention à l'interprétation si a 0,05,
cela ne veut pas dire qu'il y ait 95 chance sur
100 que m se trouve dans l'intervalle. m est une
constante et n'est pas une variable aléatoire.
En conséquence, elle est ou n'est pas dans
l'intervalle. Ce sont les bornes de l'intervalle
qui sont des variables aléatoires. Il est exact
de dire que dans 95 des cas, l'intervalle
ainsi construit contient m
6
11Application au PMSI
- Les contrôles de qualité ancienne méthode avait
comme objectif de savoir si les points ISA
transmis par un établissement devaient être
redressés ou non en fonction du résultat du
contrôle de qualité. Pour cela on tirait au sort
100 RSS et lon faisait la différence,x, pour
chaque RSS des points ISA transmis et des points
ISA contrôle.. - Construire un intervalle de confiance autour au
de la moyenne au risque 5 - Méthode
- Lintervalle de confiance est
12Nombre de sujets nécessaires pour atteindre une
précision donnée dans l'estimation de la moyenne
- Cette question est liée à l'intervalle de
confiance. Soit l'erreur maximum toléré d pour un
degré de confiance 1 - a, c'est à dire que
l'écart X-m ne dépasse d qu'avec une
probabilité alpha - Pour résoudre ce problème, il faut que
préalablement soit fixés alpha, d et s - On a, en utilisant l'approximation normale et
alpha 0,05 (approximation u97,5 2)
Il faut quadrupler le nombre de sujets pour
doubler la précision (réduire de moitié la
longueur de l'intervalle) Le calcul du nombre
de sujets nécessaires dépendant du type de
problème (précision d'estimation d'un paramètre,
tests statistiques...). Pour chaque problème des
formules ou des tables existent mais il faut
toujours que préalablement un certain nombre de
paramètres soit fixés.
7