Title: Collecte de donnes
1Collecte de données
2Généralités
- Recensement / Echantillonnage
Recensement Tous les sujets de la population
sont examinés
Population
- Echantillonnage Une partie des sujets de la
population sont examinés - Plusieurs échantillons peuvent être constitués
- Léchantillon en lui-même nest pas intéressant,
ce sont les conclusions sur la population que
lon peut tirer de son observation qui en font
lintérêt Inférence
3Étapes pour sélectionner un échantillon
- Établir les objectifs de lenquête
- Évaluer les avantages et les inconvénients dun
recensement par rapport à un échantillon ou
lutilisation de dossiers administratifs
4Étapes pour sélectionner un échantillon
- Définir la population cible
- Cest la population totale pour laquelle on a
besoin de linformation - Il faut définir les unités qui composent la
population sous forme de caractéristiques les
identifiant - Nature des données dont on a besoin sur des
personnes, des hôpitaux - Emplacement géographique périmètre géographique
(région, canton) - Période de référence Date
- Autres caractéristiques dont on veut pouvoir
tenir compte caractéristiques
sociodémographiques par exemple
5Étapes pour sélectionner un échantillon
- Déterminer les données à recueillir
- Définition des termes
- Libellé des questions
- Définitions des méthodes de mesures
- Sassurer que les exigences de lenquête seront
respectées sur le plan opérationnel - Fixer le degré de précision
- Il y a un degré dincertitude associé aux
estimations établies à partir dun échantillon
qui dépend notamment de la méthode
déchantillonnage et de la taille de
léchantillon - Quel degré peut-on accepter ?
- Il faut établir un compromis entre le degré
dincertitude et le budget disponible pour
lenquête
6La population observée
- La population cible est définie à partir des
éléments précédant - Lenquête prend en compte une population
différente la population observée - Certains membres de la population cible ne sont
pas observés par exemple du fait du coût de la
collecte des données - Les conclusions ne sappliqueront quà la
population réellement observée
7La base de sondage
- Permet davoir accès à la population
- Deux types
- Les nomenclatures
- Liste de noms et dadresses qui donnent
directement accès à des unités - Exemple
- Liste dhôpitaux
- Liste des étudiants inscrits en médecine
- Registre des entrées
- Les bases aléatoires
- Liste de régions qui donnent accès
indirectement à des unités - Exemple
- Quartier dune ville
- Service dun hôpital
8La base de sondage
- Doit être complète et à jour
- Aucun membre de la population observée ne devrait
en être exclu ni y être représenté plusieurs fois - Aucune unité ne faisant pas partie de la
population ne doit y figurer (décédé)
9Les unités denquête
- Lunité déchantillonnage
- Fait partie de la base de sondage
- Peut être ou non sélectionnée
- Lunité déclarante
- Fournit linformation quexige lenquête
- Lunité danalyse ou de référence
- Cest lunité au sujet de laquelle linformation
est fournie
10Exemple
- Enquête sur les nouveau-nés
- Unité déchantillonnage
- Ménage
- Unité déclarante
- Lun des deux parents ou le tuteur
- Unité danalyse
- Le nouveau-né
11La taille de léchantillon
- Est souvent un compromis entre le degré de
précision à atteindre et le budget de lenquête
mais aussi dautre contraintes opérationnelle
comme le temps disponible - Repose notamment sur
- La variabilité des caractéristiques que lon
mesure - La taille de la population
- Les méthodes déchantillonnage et destimation
12Deux approches pour construire un échantillon
Méthodes non aléatoires (non probabiliste)
Méthodes aléatoires (probabiliste) Chaque unité
a une chance que lon peut quantifier dêtre
sélectionnée
13Les méthodes aléatoires
- Léchantillon aléatoire simple
- Léchantillonnage systématique
- Léchantillonnage avec une probabilité
proportionnelle à la taille - Léchantillonnage stratifié
- Léchantillonnage en grappes
- Léchantillonnage à plusieurs degrés
- Léchantillonnage à plusieurs phases
14Léchantillonnage aléatoire simple
- consiste à choisir des individus de telle sorte
que chaque membre de la population a une chance
égale de figurer dans léchantillon. - Ce choix peut se faire avec remise ou sans
remise - Avec remise, un individu peut être choisi
plusieurs fois - Sans remise, un individu déjà choisi ne peut
lêtre de nouveau. Cest le cas habituel.
15Léchantillonnage aléatoire simple
- Avantage de cette méthode On peut espérer un
échantillon représentatif puisque la méthode
donne à chaque individu de la population une
chance égale. - Difficultés la méthode nest applicable que
lorsquil existe une liste exhaustive de toute la
population.
16Comment procéder ?
- A- Procédure générale
- 1. On numérote tous les individus de la liste
correspondant aux individus de la population avec
des nombres comportant un même nombre de
chiffres. - 2. En utilisant une table de nombres aléatoires,
une calculatrice ou un programme informatique, on
obtient des nombres aléatoires comportant le
nombre de chiffres désiré. - 3. On sélectionne les nombres qui coïncident avec
la liste. On rejette les nombres qui ne
coïncident pas avec la liste ou qui se répètent,
on sarrête après avoir sélectionné n individus
- (n représentant le nombre dindividus souhaités
dans léchantillon).
17Comment procéder ?
- Avec Excel
- Première colonne identifie avec un nombre
chaque individu de la liste de référence. - Deuxième colonne alea()
- Recopier les deux colonnes en valeur à la même
place. - Trier les deux colonnes en fonction de lordre
croissant (ou décroissant) de la deuxième
colonne. - Retenir les n premiers individus dans la colonne
1 - Application
- Choisir au hasard un échantillon de 10 personnes
parmi les individus numérotés de 100 à 199 dune
population de 100 individus
18Combien peut-on réaliser déchantillon ?
- Si lon note n la taille de léchantillon et N la
taille de la population. - Avec remise
- Sans remise
19Calcul de la probabilité dinclusion
- Dans tout sondage à taille fixe n, si on Pi la
probabilité qua lindividu i dêtre présent dans
léchantillon et si on note N la taille de la
population, on a - Si p(s) est la probabilité de tirer
léchantillons, alors on obtient Pi par - Dans un sondage aléatoire simple
lt Fraction de sondage
20Léchantillonnage systématique
- Léchantillonnage systématique est une méthode
qui exige aussi lexistence dune liste de la
population où chaque individu est numéroté de 1
jusquà N. - Notons n, le nombre dindividus que doit
comporter léchantillon (la taille de
léchantillon). Lentier voisin de N/n sera noté
r et appelé raison de sondage ou pas de sondage.
21Léchantillonnage systématique
- Pour constituer léchantillon il faut
- Choisir au hasard un entier naturel d entre 1 et
r (cet entier sera le point de départ), - Lindividu dont le numéro correspond à d est
le premier individu, - Pour sélectionner les autres, il suffit dajouter
à d la raison de sondage les individus choisis
seront alors ceux dont les numéros correspondent
à - d r
- d 2r
- d 3r
- etc.
22Léchantillonnage systématique
- Avantages facile à sélectionner parce quun
seul individu est choisi au hasard. - On peut obtenir une bonne précision parce que la
méthode permet de répartir léchantillon dans
lensemble de la liste. - Désavantages Les données peuvent être biaisées
à cause de la périodicité. - Application Étudier les déplacements par
autobus sur 365 jours en prenant un échantillon
de taille 60. (N365 jours et n60).
23Léchantillonnage systématique
- Remarques
- On a une population de 400 individus, on veut un
échantillon de 100 individus - R 4
- On a donc que 4 échantillons possibles
- 1, 5, 9, . 397
- 2, 6, 10, 398
- 3, 7, 11, .399
- 4, 8, 12, 400
- Si la population est distribuée au hasard dans la
base de sondage, un échantillonnage systématique
donnera des résultats similaire à ceux dun
échantillonnage aléatoire simple - Cette méthode est très utilisée dans les
contrôles de qualité
24Léchantillonnage avec une probabilité
proportionnelle à la taille
- Si la base de sondage renferme de linformation
sur la taille de chaque unité (comme le nombre de
médecins dun hôpital) et si la taille des ces
unité varie, on peut utiliser cette information
pour accroître lefficacité de léchantillonnage. - Plus la taille de lunité est grande, plus sa
chance dêtre incluse dans léchantillon est
élevée
25Léchantillonnage stratifié
- Démarche de sélection
- 1. On subdivise la population en strates (groupes
relativement homogènes) qui sont mutuellement
exclusives - 2. Proportionnellement à son importance dans la
population, on calcule combien il faut
dindividus au sein de léchantillon pour
représenter chaque strate. - 3.Dans chacune des strates, on choisit au hasard
le nombre nécessaire dindividus
26Léchantillonnage stratifié
- Les variables de starification doivent être
- Simple à utiliser
- Facile à observer
- Étroitement reliées au thème de lenquête
27Léchantillonnage stratifié
- Avantages Il est peu probable de choisir un
échantillon absurde puisquon sassure de la
présence proportionnelle de tous les divers
sous-groupes composant la population. - Désavantages La méthode suppose lexistence
dune liste de la population. Il faut aussi
connaître comment cette population se répartit
selon certaines strates. - Exemple choisir par échantillonnage stratifié
10 étudiants dans un groupe de 60, en tenant
compte du fait que 50 dentre eux sont en PCEM1,
30 en PCEM2 et 20 en DCEM1.
28Léchantillonnage stratifié
- La variance totale est la somme de la variance
intrastrate et de la variance interstrate. - On cherche a avoir la plus petite variance
intrastrate et une grande variance interstrate
29Estimation
- Echantillonnage aléatoire simple intrastrate
- Moyenne générale
- H Nombre de strates
- Précision
- Avec
- fh taux de sondage dans la strate h
- nh taille de léchantillon de la strate h
- S2h dispersion vraie au sein de la strate h
30Application numérique
- On dispose de 1060 hôpitaux. On sintéresse au
nombre moyen Y de médecins par hôpital. La
population est définie par 5 strates par tranches
de taille en fonction du nombre de médecins.
Cette information est obtenue à partir de
documents de lAGHN ne donnant pas le nombre
exact de médecins mais seulement la tranche de
taille. Réalisant un sondage aléatoire simple
dans chaque strate h selon un budget permettant
denquêter globalement 300 hôpitaux, on mesure yh
et la dispersion Sh2 de la variable nombre de
médecins dans léchantillon des hôpitaux tirés.
Les allocations par strates sont données dans la
dernière colonne du tableau.
31Application numérique
- Quel est lestimateur de Y, et quelle est sa
précision ?
32Application numérique
- Quelle serait lallocation proportionnelle ?
33Léchantillonnage par grappes
- Dans les méthodes précédentes, lunité
statistique était choisie individuellement. - La technique de léchantillonnage en grappes
entraîne la division de la population en groupes
ou grappes. - On sélectionne au hasard un certain nombre de
grappes (unités primaires) pour représenter la
population. - On sélectionne tous les individus des grappes
choisies
34Léchantillonnage par grappes
- Avantages la méthode ne nécessite pas une
liste globale de la population puisque seules les
individus inclus dans les grappes comptent. Elle
permet de limiter léchantillon à des groupes
compacts ce qui permet de réduire les coûts de
déplacement, de suivi et de supervision. - Désavantage la méthode peut entraîner des
résultats imprécis (moins précis que les méthodes
précédentes) puisque les unités voisines ont
tendance se rassembler. Elle ne permet pas de
contrôler la taille finale de léchantillon. - Exemple Choisir par grappes 600 individus à
laide dun certain nombre de ménages.
35Léchantillonnage à plusieurs degrés
- Ressemble à léchantillonnage en grappes, sauf
que dans ce cas on prélève un échantillon à
lintérieur de chaque grappe - On a au moins deux degrés
- On identifie au premier les grandes grappes
(unités primaires). Ces grappes renferment plus
dunités quil nen faut dans léchantillon - Au second degré, à lintérieur de chaque grappes,
on sélectionne les unités (unités secondaires)
qui vont faire partie de léchantillon - On peut utiliser plus de 2 degrés
- Niveau 1 Ville
- Niveau 1 Établissement de santé
- Niveau 3 Médecins
36Léchantillonnage à plusieurs degrés
- Avantage Échantillon plus concentré ce qui
réduit les coûts, pas besoin de disposer de la
liste de toutes les unités. La méthode permet de
contrôler la taille de léchantillon notamment
par stratification. - Désavantage précision des résultats
37Léchantillonnage à plusieurs phases
- Les données de base sont collectées auprès dun
échantillon dunité de grande taille, ensuite
pour un sous-échantillon de ces unités, la
collecte des données est plus détaillée. - Le plus couramment on utilise deux phase ou
échantillonnage double
38Léchantillonnage à plusieurs phases
- Exemple on a besoin dinformation sur les
éleveurs de bétail. Dans la base de sondage sont
énumérés les type dexploitation agricoles
bétail, grains, porc, volaille, fruit légumes.
mais on ny aucune donnée auxiliaire. - On pourrait mener un enquête sur un premier
échantillon de grande taille dont la seule
question serait Vous consacrez vous en totalité
au bétail ? - Puis sur la sélection des éleveurs uniquement de
bétail on extrait un second échantillon plus
petit que le premier auquel on pose des questions
détaillées.
39Méthodes empirique ou non aléatoires
- On oppose aux méthodes aléatoires les méthodes
non aléatoires. - Les méthodes non aléatoires sont des méthodes où
le concept de chance égale est absent. Ce sont
des méthodes généralement peu fiables. - Elles ne nécessite pas de base de sondage
- Elles sont souvent utilisées
- pour des études exploratoires
- pour réduire les coûts
- quand il est impossible ou non envisageable
dutiliser la méthode aléatoire.
40Méthodes non aléatoires
- On distingue
- léchantillonnage à laveuglette ou de
commodité Ex. .. Déguster un échantillon de
vin. - Léchantillonnage de volontaires Ex
Expériences médicales ou psychologiques. - Léchantillonnage au jugé cette méthode
implique la sélection dindividus en fonction de
lidée quon se fait de la composition de la
population. On le fait pour des essais auprès des
groupes cibles. - Léchantillonnage par quotas il est largement
utilisé dans les enquêtes dopinion et les études
de marché notamment parce quil ne suppose pas de
liste des individus de la population. On parle
aussi déchantillonnage dirigé ou par choix
raisonné. On demande aux enquêteurs de faire un
nombre dentrevues dans divers groupes établis en
fonction du secteur géographique, de lâge, du
sexe ou dautres caractéristiques Lenquêteur
doit respecter son quota.
41Méthodes non aléatoires
- Avantages Moins coûteuse et plus facile à
réaliser. - Désavantages Beaucoup de non-réponses
difficulté de trancher lorsquil sagit de
sélectionner des individus dun groupe dâge
ouvert (Ex 65 ans et plus faut-il prendre 66
ans, 70 ans ).
42Les erreurs
- Les méthodes déchantillonnage peuvent être
sources derreurs. Un certain nombre derreurs
pourront être éliminées, certaines pourront être
réduites, mais dautres persisteront.
43Les erreurs dues aux instruments de mesure
- Un instrument est fidèle sil répond exactement
de la même façon quand il est placé dans deux
situations identiques. Exemple le thermomètre.
Une question claire est dite fidèle quand tout le
monde la comprend de la même façon. - Un instrument est valide lorsquil mesure
vraiment ce quil est censé mesurer.
44Les erreurs dues à lorganisation
- Ce sont les erreurs qui se glissent lors de la
collecte des données. - Est-ce que les consignes ont été respectée?
- Les enquêteurs ont-ils agi de la même façon?
- Pour éviter ces erreurs il faut utiliser les
mêmes instruments, les mêmes conditions.
45 Les erreurs dues à la méthode déchantillonnage
- Il faut toujours vérifier, à la lumière des
objectifs de létude statistique, que la méthode
déchantillonnage est adaptée. -
- En particulier éviter la surreprésentation de
certaines parties de la population.
46Les erreurs dues au phénomène de non-réponse
- Même avec la meilleure méthode déchantillonnage,
il se présente toujours un certain nombre de
non-répondants, ce qui peut entacher la
représentativité de léchantillon et amener des
conclusions erronées.
47Lerreur déchantillonnage
- Le fait détudier un échantillon plutôt quun
autre engendre forcément une erreur. - Cette erreur appelée erreur déchantillonnage est
inévitable.
48Lerreur totale
- Erreur total Erreur déchantillonnage
- Erreur dobservation
- Erreur due au défaut de
- couverture et au non réponse
49Pour en savoir plus
- www.statcan.ca/francais/edu/power/ch13/first13_f.h
tm - Les techniques de sondage P. Ardilly, édition
TECHNIP 1994 - http//www.unu.edu/unupress/food2/UIN12F/uin12f0c.
htm