Title: STT2000 chantillonnage
1STT-2000Échantillonnage
- Pierre Duchesne
- courriel duchesne_at_dms.umontreal.ca
- téléphone 343-7267
- bureau 4251
- web www.dms.umontreal.ca/duchesne
- Version 22 août 2003
2Plan de cours
- 1. Structure dune enquête par sondage.
- 2. Méthodes déchantillonnage.
- 3. Utilisation de variables auxiliaires.
- 4. Sondages empiriques.
- 5. Types derreur de sondage.
- 6. Méthode de Monte Carlo.
3Barême
- Le barême proposé est le suivant
- Examen intra 30.
- Examen final 40.
- Sondage 10.
- Devoirs 20.
Ouvrages de référence
- Särndal, Swensson et Wretman (1992), Model
Assisted Survey Sampling, NY Springer-Verlag
(Obligatoire). - Lohr (1999), Sampling Design and Analysis, NY
Duxbury Press (Fortement recommandé).
4Échantillonnage (STT-2000)
- Section 1
- Structure dune enquête par sondage.
5Quest ce quun sondage?
- Dans la société actuelle, nous avons besoin dune
grande quantité dinformation qui doit être
précise. - Préférences, choix.
- Besoins.
- Comportement des individus.
6Quest ce quun sondage?
- La partie la plus visible du grand public sont
les sondages dopinion. - De manière générale, on peut considérer que ceux
qui ont besoin des sondages sont - Gouvernements.
- Entreprises.
- Institutions sociales.
7Industries des sondages
- Secteur gouvernemental
- Statistique Canada, Bureau de la statistique du
Québec, U.S. Bureau of Census - Secteur privé
- Gallup, Harris Survey, Reid. Ces agences sondent
lopinion publique sur des sujets chauds . - Recherche
- Universités, hôpitaux.
- Gestion, affaires
- Études de marché, marketing.
8Définition dun sondage
- Méthode de collecte de linformation sur un
échantillon dindividus (unités). Ces unités
pourraient être des humains, des animaux, des
maisons ou encore des entreprises. - Remarque léchantillon nest quune fraction de
la population, contrairement à un recensement où
tous les membres de la population sont étudiés.
9Exemples de sondages
- Exemple 1Un échantillon de personnes aptes à
voter est questionnée à lavance sur une élection
pour déterminer comment le public perçoit un
candidat et les résultats. - Exemple 2 Département de la santé publique veut
déterminer la proportion des enfants allant à
lécole primaire qui ont été vaccinés contre les
maladies infentiles (polio, tétanos, etc).
10Concentrons-nous sur le second exemple
- Pour des raisons administratives un mois.
- Option 1
- On réunit le personnel nécessaire et on va voir
chaque enfant dans la région/province. - Frais du personnel? Temps? Frais de déplacement?
Contraintes de coûts? - Option 2
- On choisit un échantillon représentatif,
cest-à-dire un sous-ensemble de toutes les
mesures, la population. - Pour une fraction du coût, permet de gagner du
temps.
11Erreurs lorsque lon dispose dun échantillon
(SSW, p. 14 Lohr, p.15)
- Erreurs dues à léchantillonnage.
- Échantillon nest pas la population.
- Erreurs non dues à léchantillonnage.
- Erreurs de mesures biais de sélection.
- Biais de sélection (Lohr p. 4)
- Représentation exagérée dune partie de la
population Sous-couverture de la population
doubles dans la base de sondage interviewer
néglige certaines personnes population cible
nest pas la population échantillonnée choix
délibéré des personnes à interviewer
non-réponse. - Avec un recensement, quen est-il?
12Échantillon versus recensement
- Un échantillon est souvent plus fiable quun
recensement! - Il ne faut pas penser strictement en termes
mathématiques! - Il est vrai quavec un échantillon, pas derreurs
quantitatives dues à léchantillonnage. - Cependant, les ressources nécessaires pour
effectuer un recensement peuvent être telles que - Besoin de personnel qualifié en quantité
suffisante. - Travail bâclé sil est trop denvergure.
- Jamais à labri de la non-réponse pouvant fausser
les résultats. - Avec un échantillon, on peut mobiliser les
ressources afin de contrôler la qualité de
linformation recueillie.
13Comment choisir léchantillon?
- À laveuglette? NON!
- On veut une méthode objective.
- Parmi les volontaires? NON!
- Sur les questions sensibles, seulement ceux qui
se sentent concernés sans être compromis sont
susceptibles de participer. - NON aux SLOPS! (self-selected opinion polls)
- Sondages télé où les gens appellent lignes
ouvertes. - Les gens avec des préjugés, fortes opinions
(souvent négatives) sexpriment souvent sur ces
questions (avortement, racisme, etc).
14Comment choisir léchantillon? (suite)
- On veut une méthode scientifique telle que chaque
personne dans la population possède une chance
mesurable (que lon peut quantifier) de
sélection. - Commenter laffirmation suivante pour obtenir un
échantillon, il faut que chaque unité possède une
chance égale de faire partie de léchantillon.
(ATTENTION au piège!)
15Avantages de la méthode scientifique
- Avec la méthode scientifique, tout le monde se
voit poser les mêmes questions dans le même
ordre. - On peut projeter les résultats de léchantillon
sur toute la population. - Le but dun sondage nest pas de décrire un
individu en particulier. On veut une image, un
profil, de la population.
16Taille de léchantillon?
- Cest quoi le n?
- On va y revenir! Il faut introduire des
critères. - De manière générale, cela dépends de la qualité
de linformation que lon désire. - Dans les sondages nationaux, souvent n1000 fait
laffaire. - Si 1000 individus peut refléter plusieurs
caractéristiques de la population qui peut
comporter des millions dindividus, cela donne un
poids à lutilisation des sondages en pratique. - Remarque dans une population de 100 000 ou 1 000
000 dindividus, n1000 fournira une précision
comparable. La taille de la population nest pas
une considération si importante que ça.
17Les étapes dun sondage
- 1. Sélection dun échantillon.
- 2. Collecte de données.
- 3. Vérification et imputation.
- 4. Estimation et analyse.
- 5. Publication des résultats.
18Sélection dun échantillon
- On doit procéder à lidentification de la
population cible population visée? - Construction dune base de sondage.
- Idéalement, on tente de trouver une base de
sondage existante. Sinon, lon doit en
construire une. - Une base de sondage contient la numérotation de
tous les éléments de la population cible elle
contient des étiquettes.
19Base de sondage versus population visée
- Choses à être conscient
- Est que la base de sondage corresponds à la
population visée? - Si on sintéresse à la population québécoise et
que lon utilise les listes de téléphone, est-ce
que la population cible base de sondage? - On peut contourner certaines difficultés?
- Conséquences sinon?
201. Sélection dun échantillon
- Une fois que lon dispose dune base de sondage,
on cherche à choisir un échantillon s dans la
population - U1,2,,k,,N.
- On aura ainsi que .
- Pour obtenir léchantillon, on procède à un
échantillonnage, cest-à-dire que lon procède à
une sélection dans U selon un plan
déchantillonnage p.
212. Collecte des données
- On a besoin dinstruments
- Téléphone (méthode CATI).
- Interview personnelle (interviewer qui se déplace
à la maison) (méthode CAPI). - Courrier (mail surveys). Doit retourner un
questionnaire. - Accès Internet.
- Pour lenregistrement
- Papier/crayon versus ordinateur (CATI/CAPI)
22Méthode CATI (Computer assisted telephone
interview)
- Linterviewer a devant lui un ordinateur.
- Les questions apparaissent à lécran.
- La personne interviewée réponds et les données
sont immédiatement entrées. - Avantages ordre dans les questions toujours le
même, rapide, qualité. - Inconvénients peut être dispendieux à mettre en
uvre pour les petites boîtes et pour les
sondages non-répétés (occasionnels).
23Méthode CAPI (Computer assisted personal
interview)
- Linterviewer se présente chez les gens avec un
ordinateur portatif (laptop). - Linterviewer ou le répondant peut entrer
directement les réponses. - Exemple le sondage mensuel CPS (Current
Population Survey) de la population américaine
utilise un mélange des méthodes CAPI/CATI.
24Interviewers
- Traditionnellement, travail à temps partiel.
- De plus en plus, être interviewer est un travail
à plein temps dans les grosses boîtes. - Entraînement,
- Formation,
- Etc.
25Questionnaire (Lohr, p.10)
- Nécessite la présence des experts du sujet
(sociologues, psychologues). - Les questions doivent être validées.
- Exemple Aux USA, dans un sondage NBC/Wall Street
J. - 1. Êtes-vous en faveur de couper dans les
programmes tels la sécurité du revenu, les soins
médicaux, les subventions agricoles afin de
réduire de déficit? - 2. Êtes-vous en faveur de coupures
gouvernementales afin de réduire le déficit?
26Résultats du sondage NBC/Wall Street J.
- Gens qui ont répondus à la première question
- Pour 23
- Contre 66
- Sans opinion 11.
- Gens qui ont répondus à la seconde question
- Pour 61
- Contre 25
- Sans opinion 14.
273. Vérification et analyse
- Si pas déjà dans un fichier ordinateur, alors il
faut procéder à une transcription des données. - Codification. Parfois les logiciels traitent
seulement linformation chiffrées. - Variable Sexe 1H, 2F.
- Vérification
- Est-ce que linformation est cohérente?
- Date de naissance 29/03/90 Permis de conduire
Oui. - Vérification manuelle/automatique.
28Imputation (SSW, Chap. 15)
- Linformation peut être manquante.
- Questionnaire non-rendu.
- Trous dans le questionnaire
- Non-réponse par item (au moins une question est
répondue mais pas toutes) - Non-réponse par unité (la personne ou lunité ne
donne aucune réponse). - Dans de tels cas, il peut être envisagé de
procéder à de limputation. Imputation méthodes
pour boucher les trous.
29Méthodologie dans un recensement
- Il est intéressant de noter que si un recensement
est entrepris, beaucoup de la méthodologie des
sondages doit être mise en uvre - Base de sondage à créer, valider,
- Personnel à former pour les interviews,
- Etc.
- Rappelons les sources derreurs reliées à un
recensement
304. Estimation et analyse
- On doit choisir un estimateur pour chaque
paramètre à estimer de la population finie.
Exemples - Moyenne.
- Total.
- Variance.
31Estimations ponctuelles
- Une estimation ponctuelle consiste en un seul
chiffre pour estimer un paramètre. - On pourrait le noter
- Un seul chiffre nest cependant suffisant pour
apprécier de la qualité de lestimation. On
utile un estimateur de la variance
32Estimateurs
- En fait, le chiffre qui servira à estimer le
paramètre inconnu est un estimateur. - Un estimateur est une variable aléatoire. Pour
chaque échantillon possible, lestimateur prend
une certaine valeur. - La distribution de lestimateur est obtenue sur
lensemble de tous les échantillons possibles.
33V versus V chapeau
- Remarque On aimerait idéalement utiliser la
vraie variance de lestimateur - Cependant, cette dernière est inconnue en
pratique.
34Estimation par intervalles de confiance
- Un intervalle de confiance de niveau 95 pour le
paramètre moyenne est donné par - Pour que cet intervalle marche, que faut-il?
355. Publication des résultats
- La dernière étape du sondage consiste à publier
les résultats. - Cette étape ne doit pas être prise à la légère.
- On devrait retrouver
- Conditions de la réalisation du sondage.
- Lignes de conduite (dans la précision des
résultats). - Discussions des erreurs
- Erreurs non dues à léchantillonnage.
- Erreurs dues à léchantillonnage.
- Présentation de linformation
- Tableaux, graphiques, couleurs, etc.