Collecte de donnes - PowerPoint PPT Presentation

1 / 49
About This Presentation
Title:

Collecte de donnes

Description:

Recensement : Tous les sujets de la population sont ' examin s ' ... les inconv nients d'un recensement par rapport un chantillon ou l'utilisation de dossiers administratifs ... – PowerPoint PPT presentation

Number of Views:433
Avg rating:3.0/5.0
Slides: 50
Provided by: bod67
Category:

less

Transcript and Presenter's Notes

Title: Collecte de donnes


1
Collecte de données
  • F. Kohler

2
Généralités
  • Recensement / Echantillonnage

Recensement Tous les sujets de la population
sont examinés
Population
  • Echantillonnage Une partie des sujets de la
    population sont examinés
  • Plusieurs échantillons peuvent être constitués
  • Léchantillon en lui-même nest pas intéressant,
    ce sont les conclusions sur la population que
    lon peut tirer de son observation qui en font
    lintérêt Inférence

3
Étapes pour sélectionner un échantillon
  • Établir les objectifs de lenquête
  • Évaluer les avantages et les inconvénients dun
    recensement par rapport à un échantillon ou
    lutilisation de dossiers administratifs

4
Étapes pour sélectionner un échantillon
  • Définir la population cible
  • Cest la population totale pour laquelle on a
    besoin de linformation
  • Il faut définir les unités qui composent la
    population sous forme de caractéristiques les
    identifiant
  • Nature des données dont on a besoin sur des
    personnes, des hôpitaux
  • Emplacement géographique périmètre géographique
    (région, canton)
  • Période de référence Date
  • Autres caractéristiques dont on veut pouvoir
    tenir compte caractéristiques
    sociodémographiques par exemple

5
Étapes pour sélectionner un échantillon
  • Déterminer les données à recueillir
  • Définition des termes
  • Libellé des questions
  • Définitions des méthodes de mesures
  • Sassurer que les exigences de lenquête seront
    respectées sur le plan opérationnel
  • Fixer le degré de précision
  • Il y a un degré dincertitude associé aux
    estimations établies à partir dun échantillon
    qui dépend notamment de la méthode
    déchantillonnage et de la taille de
    léchantillon
  • Quel degré peut-on accepter ?
  • Il faut établir un compromis entre le degré
    dincertitude et le budget disponible pour
    lenquête

6
La population observée
  • La population cible est définie à partir des
    éléments précédant
  • Lenquête prend en compte une population
    différente la population observée
  • Certains membres de la population cible ne sont
    pas observés par exemple du fait du coût de la
    collecte des données
  • Les conclusions ne sappliqueront quà la
    population réellement observée

7
La base de sondage
  • Permet davoir accès à la population
  • Deux types
  • Les nomenclatures
  • Liste de noms et dadresses qui donnent
    directement accès à des unités
  • Exemple
  • Liste dhôpitaux
  • Liste des étudiants inscrits en médecine
  • Registre des entrées
  • Les bases aléatoires
  • Liste de régions qui donnent accès
    indirectement à des unités
  • Exemple
  • Quartier dune ville
  • Service dun hôpital

8
La base de sondage
  • Doit être complète et à jour
  • Aucun membre de la population observée ne devrait
    en être exclu ni y être représenté plusieurs fois
  • Aucune unité ne faisant pas partie de la
    population ne doit y figurer (décédé)

9
Les unités denquête
  • Lunité déchantillonnage
  • Fait partie de la base de sondage
  • Peut être ou non sélectionnée
  • Lunité déclarante
  • Fournit linformation quexige lenquête
  • Lunité danalyse ou de référence
  • Cest lunité au sujet de laquelle linformation
    est fournie

10
Exemple
  • Enquête sur les nouveau-nés
  • Unité déchantillonnage
  • Ménage
  • Unité déclarante
  • Lun des deux parents ou le tuteur
  • Unité danalyse
  • Le nouveau-né

11
La taille de léchantillon
  • Est souvent un compromis entre le degré de
    précision à atteindre et le budget de lenquête
    mais aussi dautre contraintes opérationnelle
    comme le temps disponible
  • Repose notamment sur
  • La variabilité des caractéristiques que lon
    mesure
  • La taille de la population
  • Les méthodes déchantillonnage et destimation

12
Deux approches pour construire un échantillon
Méthodes non aléatoires (non probabiliste)
Méthodes aléatoires (probabiliste) Chaque unité
a une chance que lon peut quantifier dêtre
sélectionnée
13
Les méthodes aléatoires
  • Léchantillon aléatoire simple
  • Léchantillonnage systématique
  • Léchantillonnage avec une probabilité
    proportionnelle à la taille
  • Léchantillonnage stratifié
  • Léchantillonnage en grappes
  • Léchantillonnage à plusieurs degrés
  • Léchantillonnage à plusieurs phases

14
Léchantillonnage aléatoire simple
  • consiste à choisir des individus de telle sorte
    que chaque membre de la population a une chance
    égale de figurer dans léchantillon.
  • Ce choix peut se faire avec remise ou sans
    remise 
  • Avec remise, un individu peut être choisi
    plusieurs fois
  • Sans remise, un individu déjà choisi ne peut
    lêtre de nouveau. Cest le cas habituel.

15
Léchantillonnage aléatoire simple
  • Avantage de cette méthode  On peut espérer un
    échantillon représentatif  puisque la méthode
    donne à chaque individu de la population une
    chance égale.
  • Difficultés  la méthode nest applicable que
    lorsquil existe une liste exhaustive de toute la
    population.

16
Comment procéder ?
  • A- Procédure générale
  • 1. On numérote tous les individus de la liste
    correspondant aux individus de la population avec
    des nombres comportant un même nombre de
    chiffres.
  • 2. En utilisant une table de nombres aléatoires,
    une calculatrice ou un programme informatique, on
    obtient des nombres aléatoires comportant le
    nombre de chiffres désiré.
  • 3. On sélectionne les nombres qui coïncident avec
    la liste. On rejette les nombres qui ne
    coïncident pas avec la liste ou qui se répètent,
    on sarrête après avoir sélectionné n individus
  • (n représentant le nombre dindividus souhaités
    dans léchantillon).

17
Comment procéder ?
  • Avec Excel
  • Première colonne identifie avec un nombre
    chaque individu de la liste de référence.
  • Deuxième colonne alea()
  • Recopier les deux colonnes en valeur à la même
    place.
  • Trier les deux colonnes en fonction de lordre
    croissant (ou décroissant) de la deuxième
    colonne.
  • Retenir les n premiers individus dans la colonne
    1
  • Application
  • Choisir au hasard un échantillon de 10 personnes
    parmi les individus numérotés de 100 à 199 dune
    population de 100 individus

18
Combien peut-on réaliser déchantillon ?
  • Si lon note n la taille de léchantillon et N la
    taille de la population.
  • Avec remise
  • Sans remise

19
Calcul de la probabilité dinclusion
  • Dans tout sondage à taille fixe n, si on Pi la
    probabilité qua lindividu i dêtre présent dans
    léchantillon et si on note N la taille de la
    population, on a
  • Si p(s) est la probabilité de tirer
    léchantillons, alors on obtient Pi par
  • Dans un sondage aléatoire simple

lt Fraction de sondage
20
Léchantillonnage systématique
  • Léchantillonnage systématique est une méthode
    qui exige aussi lexistence dune liste de la
    population où chaque individu est numéroté de 1
    jusquà N.
  • Notons n, le nombre dindividus que doit
    comporter léchantillon (la taille de
    léchantillon). Lentier voisin de N/n sera noté
    r et appelé raison de sondage ou pas de sondage.

21
Léchantillonnage systématique
  • Pour constituer léchantillon il faut 
  • Choisir au hasard un entier naturel d entre 1 et
    r  (cet entier sera le point de départ),
  •   Lindividu dont le numéro correspond à d est
    le premier individu,
  • Pour sélectionner les autres, il suffit dajouter
    à d la raison de sondage  les individus choisis
    seront alors ceux dont les numéros correspondent
    à
  • d r
  • d 2r
  • d 3r
  • etc.

22
Léchantillonnage systématique
  • Avantages  facile à sélectionner parce quun
    seul individu est choisi au hasard.
  • On peut obtenir une bonne précision parce que la
    méthode permet de répartir léchantillon dans
    lensemble de la liste.
  • Désavantages  Les données peuvent être biaisées
    à cause de la périodicité.
  • Application  Étudier les déplacements par
    autobus sur 365 jours en prenant un échantillon
    de taille 60. (N365 jours et n60).

23
Léchantillonnage systématique
  • Remarques
  • On a une population de 400 individus, on veut un
    échantillon de 100 individus
  • R 4
  • On a donc que 4 échantillons possibles
  • 1, 5, 9, . 397
  • 2, 6, 10, 398
  • 3, 7, 11, .399
  • 4, 8, 12, 400
  • Si la population est distribuée au hasard dans la
    base de sondage, un échantillonnage systématique
    donnera des résultats similaire à ceux dun
    échantillonnage aléatoire simple
  • Cette méthode est très utilisée dans les
    contrôles de qualité

24
Léchantillonnage avec une probabilité
proportionnelle à la taille
  • Si la base de sondage renferme de linformation
    sur la taille de chaque unité (comme le nombre de
    médecins dun hôpital) et si la taille des ces
    unité varie, on peut utiliser cette information
    pour accroître lefficacité de léchantillonnage.
  • Plus la taille de lunité est grande, plus sa
    chance dêtre incluse dans léchantillon est
    élevée

25
Léchantillonnage stratifié
  • Démarche de sélection 
  • 1. On subdivise la population en strates (groupes
    relativement homogènes) qui sont mutuellement
    exclusives
  • 2. Proportionnellement à son importance dans la
    population, on calcule combien il faut
    dindividus au sein de léchantillon pour
    représenter chaque strate.
  • 3.Dans chacune des strates, on choisit au hasard
    le nombre nécessaire dindividus

26
Léchantillonnage stratifié
  • Les variables de starification doivent être
  • Simple à utiliser
  • Facile à observer
  • Étroitement reliées au thème de lenquête

27
Léchantillonnage stratifié
  • Avantages  Il est peu probable de choisir un
    échantillon absurde puisquon sassure de la
    présence proportionnelle de tous les divers
    sous-groupes composant la population.
  • Désavantages  La méthode suppose lexistence
    dune liste de la population. Il faut aussi
    connaître comment cette population se répartit
    selon certaines strates.
  •  Exemple  choisir par échantillonnage stratifié
    10 étudiants dans un groupe de 60, en tenant
    compte du fait que 50 dentre eux sont en PCEM1,
    30 en PCEM2 et 20 en DCEM1.

28
Léchantillonnage stratifié
  • La variance totale est la somme de la variance
    intrastrate et de la variance interstrate.
  • On cherche a avoir la plus petite variance
    intrastrate et une grande variance interstrate

29
Estimation
  • Echantillonnage aléatoire simple intrastrate
  • Moyenne générale
  • H Nombre de strates
  • Précision
  • Avec
  • fh taux de sondage dans la strate h
  • nh taille de léchantillon de la strate h
  • S2h dispersion vraie au sein de la strate h

30
Application numérique
  • On dispose de 1060 hôpitaux. On sintéresse au
    nombre moyen Y de médecins par hôpital. La
    population est définie par 5 strates par tranches
    de taille en fonction du nombre de médecins.
    Cette information est obtenue à partir de
    documents de lAGHN ne donnant pas le nombre
    exact de médecins mais seulement la tranche de
    taille. Réalisant un sondage aléatoire simple
    dans chaque strate h selon un budget permettant
    denquêter globalement 300 hôpitaux, on mesure yh
    et la dispersion Sh2 de la variable nombre de
    médecins dans léchantillon des hôpitaux tirés.
    Les allocations par strates sont données dans la
    dernière colonne du tableau.

31
Application numérique
  • Quel est lestimateur de Y, et quelle est sa
    précision ?

32
Application numérique
  • Quelle serait lallocation proportionnelle ?

33
Léchantillonnage par grappes
  • Dans les méthodes précédentes, lunité
    statistique était choisie individuellement.
  • La technique de léchantillonnage en grappes
    entraîne la division de la population en groupes
    ou grappes.
  • On sélectionne au hasard un certain nombre de
    grappes (unités primaires) pour représenter la
    population.
  • On sélectionne tous les individus des grappes
    choisies

34
Léchantillonnage par grappes
  • Avantages  la méthode ne nécessite pas une
    liste globale de la population puisque seules les
    individus inclus dans les grappes comptent. Elle
    permet de limiter léchantillon à des groupes
    compacts ce qui permet de réduire les coûts de
    déplacement, de suivi et de supervision.
  • Désavantage  la méthode peut entraîner des
    résultats imprécis (moins précis que les méthodes
    précédentes) puisque les unités voisines ont
    tendance se rassembler. Elle ne permet pas de
    contrôler la taille finale de léchantillon.
  • Exemple  Choisir par grappes 600 individus à
    laide dun certain nombre de ménages.

35
Léchantillonnage à plusieurs degrés
  • Ressemble à léchantillonnage en grappes, sauf
    que dans ce cas on prélève un échantillon à
    lintérieur de chaque grappe
  • On a au moins deux degrés
  • On identifie au premier les grandes grappes
    (unités primaires). Ces grappes renferment plus
    dunités quil nen faut dans léchantillon
  • Au second degré, à lintérieur de chaque grappes,
    on sélectionne les unités (unités secondaires)
    qui vont faire partie de léchantillon
  • On peut utiliser plus de 2 degrés
  • Niveau 1 Ville
  • Niveau 1 Établissement de santé
  • Niveau 3 Médecins

36
Léchantillonnage à plusieurs degrés
  • Avantage Échantillon plus concentré ce qui
    réduit les coûts, pas besoin de disposer de la
    liste de toutes les unités. La méthode permet de
    contrôler la taille de léchantillon notamment
    par stratification.
  • Désavantage précision des résultats

37
Léchantillonnage à plusieurs phases
  • Les données de base sont collectées auprès dun
    échantillon dunité de grande taille, ensuite
    pour un sous-échantillon de ces unités, la
    collecte des données est plus détaillée.
  • Le plus couramment on utilise deux phase ou
    échantillonnage double

38
Léchantillonnage à plusieurs phases
  • Exemple on a besoin dinformation sur les
    éleveurs de bétail. Dans la base de sondage sont
    énumérés les type dexploitation agricoles
    bétail, grains, porc, volaille, fruit légumes.
    mais on ny aucune donnée auxiliaire.
  • On pourrait mener un enquête sur un premier
    échantillon de grande taille dont la seule
    question serait Vous consacrez vous en totalité
    au bétail ?
  • Puis sur la sélection des éleveurs uniquement de
    bétail on extrait un second échantillon plus
    petit que le premier auquel on pose des questions
    détaillées.

39
Méthodes empirique ou non aléatoires
  • On oppose aux méthodes aléatoires les méthodes
    non aléatoires.
  • Les méthodes non aléatoires sont des méthodes où
    le concept de chance égale est absent. Ce sont
    des méthodes généralement peu fiables.
  • Elles ne nécessite pas de base de sondage
  • Elles sont souvent utilisées
  • pour des études exploratoires
  • pour réduire les coûts
  • quand il est impossible ou non envisageable
    dutiliser la méthode aléatoire.

40
Méthodes non aléatoires
  • On distingue 
  • léchantillonnage à laveuglette ou de
    commodité  Ex. .. Déguster un échantillon de
    vin.
  • Léchantillonnage de volontaires  Ex 
    Expériences médicales ou psychologiques.
  • Léchantillonnage au jugé  cette méthode
    implique la sélection dindividus en fonction de
    lidée quon se fait de la composition de la
    population. On le fait pour des essais auprès des
    groupes cibles.
  • Léchantillonnage par quotas  il est largement
    utilisé dans les enquêtes dopinion et les études
    de marché notamment parce quil ne suppose pas de
    liste des individus de la population. On parle
    aussi déchantillonnage dirigé ou par choix
    raisonné. On demande aux enquêteurs de faire un
    nombre dentrevues dans divers groupes établis en
    fonction du secteur géographique, de lâge, du
    sexe ou dautres caractéristiques Lenquêteur
    doit respecter son quota.

41
Méthodes non aléatoires
  • Avantages  Moins coûteuse et plus facile à
    réaliser.
  • Désavantages Beaucoup de non-réponses
    difficulté de trancher lorsquil sagit de
    sélectionner des individus dun groupe dâge
    ouvert (Ex  65 ans et plus  faut-il prendre 66
    ans, 70 ans ).

42
Les erreurs
  • Les méthodes déchantillonnage peuvent être
    sources derreurs. Un certain nombre derreurs
    pourront être éliminées, certaines pourront être
    réduites, mais dautres persisteront.

43
Les erreurs dues aux instruments de mesure
  • Un instrument est fidèle sil répond exactement
    de la même façon quand il est placé dans deux
    situations identiques. Exemple le thermomètre.
    Une question claire est dite fidèle quand tout le
    monde la comprend de la même façon.
  • Un instrument est valide lorsquil mesure
    vraiment ce quil est censé mesurer.

44
Les erreurs dues à lorganisation
  • Ce sont les erreurs qui se glissent lors de la
    collecte des données.
  • Est-ce que les consignes ont été respectée?
  • Les enquêteurs ont-ils agi de la même façon?
  • Pour éviter ces erreurs il faut utiliser les
    mêmes instruments, les mêmes conditions.

45
 Les erreurs dues à la méthode déchantillonnage
  • Il faut toujours vérifier, à la lumière des
    objectifs de létude statistique, que la méthode
    déchantillonnage est adaptée.
  • En particulier éviter la surreprésentation de
    certaines parties de la population.

46
Les erreurs dues au phénomène de non-réponse
  • Même avec la meilleure méthode déchantillonnage,
    il se présente toujours un certain nombre de
    non-répondants, ce qui peut entacher la
    représentativité de léchantillon et amener des
    conclusions erronées.

47
Lerreur déchantillonnage
  • Le fait détudier un échantillon plutôt quun
    autre engendre forcément une erreur.
  • Cette erreur appelée erreur déchantillonnage est
    inévitable.

48
Lerreur totale
  • Erreur total Erreur déchantillonnage
  • Erreur dobservation
  • Erreur due au défaut de
  • couverture et au non réponse

49
Pour en savoir plus
  • www.statcan.ca/francais/edu/power/ch13/first13_f.h
    tm
  • Les techniques de sondage P. Ardilly, édition
    TECHNIP 1994
  • http//www.unu.edu/unupress/food2/UIN12F/uin12f0c.
    htm
Write a Comment
User Comments (0)
About PowerShow.com