Infrence statistique - PowerPoint PPT Presentation

1 / 12
About This Presentation
Title:

Infrence statistique

Description:

Estimation de la variance d'une population partir des donn es de l' chantillon ... Au-del de l'estimation ponctuelle un risque accept sur la m thode permet de b tir un ... – PowerPoint PPT presentation

Number of Views:56
Avg rating:3.0/5.0
Slides: 13
Provided by: Fet53
Category:

less

Transcript and Presenter's Notes

Title: Infrence statistique


1
Inférence statistique
  • Distribution déchantillonnage
  • Estimation de la moyenne, de la variance de la
    distribution des moyennes à partir des données de
    l'échantillon
  • Estimation de la variance d'une population à
    partir des données de l'échantillon
  • Estimation dun paramètre dune distribution
  • Intervalle de confiance
  • Nombre de sujets nécessaires

1
2
Estimation des paramètres de la population
  • Variables quantitatives moyenne et écart type
  • Rappels
  • N Effectif de l'échantillon (nombre de mesures)
  • T Total des valeurs
  • U Total des carrés
  • SCE somme des carrés des écarts à la moyenne

Note p nombre de valeurs différentes
Moyenne
Ecart type
2
3
La distribution de la moyenne
  • Supposons que dans une population on ait prélevé
    un premier échantillon de N individu
  • Si lon prélève dans les mêmes circonstance un
    2ième, 3ième échantillon, on obtient x1. xn
    et x1xn avec les moyennes correspondantes.
  • On peut considérer la suite infinie des
    observations x1, x1, x1. Comme des valeurs
    observées dune VA X1 et ainsi de suite pour x2,
    x2, x2. Dune VA X2 Dans ces conditions, les
    moyennes observées sont elles même des valeurs
    dune VA

4
Distribution de la moyenne
  • Tout comme X1. Xn la VA X possède une
    distribution de probabilité. Cest las
    distribution déchantillonnage de la moyenne.
  • Les VA X1. Xn ont toutes la même distribution de
    probabilité dont la moyenne est désignée par m et
    la variance par s2.

5
Estimation de la moyenne de la population
  • La distribution des moyennes d'échantillons
    indépendants de faible effectif tirés de la même
    population suit une loi normale si la
    distribution de la variable est normale.
  • Au delà de 30, la distribution des moyennes peut
    être approchée par une loi normale sans
    condition sur la distribution de la variable.
  • La moyenne de l'échantillon est le meilleur
    estimateur de la moyenne de la population.
  • L'écart type de la distribution des moyennes
    d'échantillons indépendants tirés de la même
    population peut être estimé à partir de l'écart
    type de l'échantillon S (ou de l'estimateur de
    l'écart type de la population s ).

S
ESM

m
N-1
(Standard deviation of the mean)
La variable aléatoire
X - m
suit une loi de student à N-1 DDL
t
gt Si N gt 30, il y a une probabilité de 95 que
la moyenne se trouve dans l'intervalle m 2
ESM
4
6
Estimation de l'écart type de la population
  • L'écart type de l'échantillon n'est pas un bon
    estimateur de l'écart type de la population. Il
    existe une erreur systématique c'est un
    estimateur biaisé.
  • La distribution des variances d'échantillons
    aléatoires indépendants a comme moyenne

et comme variance dans le cas d'une population
normale
Dans le cas d'une population normale la
quantité
2
N S
suit une loi du khi 2 à N-1 DDL
2
s
Notons que si
2
2
N S
est une bonne estimation de la variance, sa
racine carré n'est pas une estimation absolument
correcte de l'écart type. On peut montrer que les
résultats ainsi obtenus sont systématiquement
trop faibles avec une erreur relative de 1/4(N-1)
s

(N-1)
5
7
Méthode du maximum de vraisemblance (likelihood)
  • On appelle fonction de vraisemblance la
    probabilité ou la densité de probabilité relative
    aux valeurs observées x1xn, exprimée en fonction
    du ou des paramètres de la population. Pour un
    échantillon aléatoire simple et pour une
    population définie par un seul paramètre g, la
    fonction de vraisemblance est
  • Les estimateurs du maximum de vraisemblance
    correspondent par définition au maximum de cette
    fonction. La recherche de ce maximum peut être
    réalisé en annulant la dérivé de cette fonction
    ou en annulant la dérivé de son logarithme
  • Cette notion peut être tendue au cas de plusieurs
    paramètres, la recherche du maximum nécessite
    alors le calcul des dérivés partielles

8
Méthode du maximum de vraisemblance (likelihood)
  • Exemple estimation dun pourcentage. Soit une
    population infinie, dont les individus possèdent
    ou non un caractère (yeux bleu) et supposons que
    lon veuille estimer la proportion des p
    individus possédant ce caractère.
  • On associe au caractère une VA X qui vaut 1 quand
    le caractère est présent et 0 lorsquil est
    absent.
  • La distribution de probabilité est
  • P(X1 p et P(X0) 1-p
  • Pour un échantillon aléatoire simple deffectif N
    dont x individus sont porteurs du caractère
    considéré le logarithme de la fonction de
    vraisemblance est
  • Sa dérivée par rapport à p est
  • Lestimation du maximum de vraisemblance est

La fréquence relative est le meilleur estimateur
du pourcentage
9
Le problème
Population
Échantillon
m s
Inconnus
X S
Connus
  • A partir des paramètres obtenus sur l'échantillon
    on veut estimer les paramètres de la population
    dont cet échantillon est extrait.
  • Ceci peut se faire uniquement si
  • L'échantillon a été correctement constitué
    (notion d'échantillon représentatif). Que
    penseriez vous d'un expérimentateur qui voudrait
    généraliser les observations qu'il a réalisées,
    vis à vis du mal de dos, en n'ayant observé que
    des secrétaires médicales ?
  • Si la loi de probabilité qui régit la
    distributions des paramètres à estimer est connue
    gt respect des conditions d'application
  • Au-delà de lestimation ponctuelle un risque
    accepté sur la méthode permet de bâtir un
    intervalle de confiance

3
10
L'intervalle de confiance de la moyenne
  • L'estimation ponctuelle d'un paramètre ne
    présente que peu d'intérêt si on a aucune idée de
    la précision de l'estimation obtenue.
  • Supposons que l'on s'intéresse à la moyenne m
    dont on possède un estimateur X et que l'on
    s'efforce de déterminer de part et d'autre de X
    les limites G1 et G2 d'un intervalle qui a forte
    probabilité de contenir m. Pour résoudre se
    problème, on se donne un coefficient de confiance
    (ou de sécurité) voisin de 1, en général 0,95
    (95). L'intervalle G1-G2 est appelé intervalle
    de confiance avec un risque a 1- coefficient
    de confiance
  • Cependant le fait de fixer le degré de confiance
    ne suffit pas pour connaître les limites G1 et
    G2. En général, on répartit le risque d'erreur en
    deux partie égale P(mltG1) P(mgtG2) a /2
  • Les bornes de l'intervalle de confiance de la
    moyenne sont obtenues par

t suit une loi de Student à N-1 DDL
ESM
Si N gt 30 et a 0,05 on approche par la loi
normale et l'intervalle devient X 1,96 ESM
Attention à l'interprétation si a 0,05,
cela ne veut pas dire qu'il y ait 95 chance sur
100 que m se trouve dans l'intervalle. m est une
constante et n'est pas une variable aléatoire.
En conséquence, elle est ou n'est pas dans
l'intervalle. Ce sont les bornes de l'intervalle
qui sont des variables aléatoires. Il est exact
de dire que dans 95 des cas, l'intervalle
ainsi construit contient m
6
11
Application au PMSI
  • Les contrôles de qualité ancienne méthode avait
    comme objectif de savoir si les points ISA
    transmis par un établissement devaient être
    redressés ou non en fonction du résultat du
    contrôle de qualité. Pour cela on tirait au sort
    100 RSS et lon faisait la différence,x, pour
    chaque RSS des points ISA transmis et des points
    ISA contrôle..
  • Construire un intervalle de confiance autour au
    de la moyenne au risque 5
  • Méthode
  • Lintervalle de confiance est

12
Nombre de sujets nécessaires pour atteindre une
précision donnée dans l'estimation de la moyenne
  • Cette question est liée à l'intervalle de
    confiance. Soit l'erreur maximum toléré d pour un
    degré de confiance 1 - a, c'est à dire que
    l'écart X-m ne dépasse d qu'avec une
    probabilité alpha
  • Pour résoudre ce problème, il faut que
    préalablement soit fixés alpha, d et s
  • On a, en utilisant l'approximation normale et
    alpha 0,05 (approximation u97,5 2)

Il faut quadrupler le nombre de sujets pour
doubler la précision (réduire de moitié la
longueur de l'intervalle) Le calcul du nombre
de sujets nécessaires dépendant du type de
problème (précision d'estimation d'un paramètre,
tests statistiques...). Pour chaque problème des
formules ou des tables existent mais il faut
toujours que préalablement un certain nombre de
paramètres soit fixés.
7
Write a Comment
User Comments (0)
About PowerShow.com