1. Overview - PowerPoint PPT Presentation

About This Presentation
Title:

1. Overview

Description:

Controle-correction des donn es: Introduction Atelier r gional des Nations Unies sur le traitement des donn es de recensement: les technologies modernes pour la ... – PowerPoint PPT presentation

Number of Views:75
Avg rating:3.0/5.0
Slides: 22
Provided by: uno143
Learn more at: https://unstats.un.org
Category:
Tags: mode | overview

less

Transcript and Presenter's Notes

Title: 1. Overview


1
Controle-correction des données Introduction
2
Objectifs de la session
le correction-controle (editing) est la
procédure pour détecter et corriger des erreurs
dans les données l'Imputation est la
procédure qui consiste à assigner des valeurs à
des données manquantes ou incohérentes l'objecti
f de la session est de présenter une vue
d'ensemble des concepts et définitions, et d'en
discuter l'application et les problèmes
3
Plan
  • Types d'erreurs dans le processus de recensement
  • Objectifs de la phase de controle-correction
  • Comment et pourquoi corriger? exemples
    illustratifs
  • Principes du controle-correction comment mettre
    en oeuvre
  • Types de controles
  • Micro-controle vs Macro-controle
  • Controle manuel vs automatique
  • Impact du mode de saisie
  • Risques du sur-controle-correction
  • Autres considerations

4
Types d'erreurs dans le processus de recensement
  • Erreurs de couverture
  • cartes des ZR Incompletes/imprecises
  • enumeration Incomplete de toutes les unites
  • doubles comptes
  • Omission de personnes ne desirant pas etre
    recensees
  • traitement errone des visiteurs ou des etrangers
    non-residents
  • (speciallement en relation avec la methode de
    jure versus de facto)
  • perte ou destruction d'enregistements apres
    enumeration

5
Types d'erreurs dans le processus de recensement
  • Erreurs de contenu
  • Erreurs dans le questionnaire
  • Erreurs de l'agent recenseur
  • Erreurs des repondants
  • Erreurs de codage
  • Erreurs de saisie
  • Erreurs dans les programmes de controle-correction
  • Erreurs de tabulation

6
Types d'erreurs dans le processus de recensement
  • Deux types d'erreurs pendant l'exploitation
  • Celles qui bloquent la suite de l'exploitation
  • Celles qui produisent des resultats invalides/
    incoherents sans interrompre la suite de
    l'exploitation
  • TOUTES les erreurs du premier type doivent etre
    corrigees et le plus possible d'erreurs du second
    type

7
Objectifs des controles-corrections
  • Objectifs (Granquist, 1984)
  • Nettoyer les donnees pour faciliter l'analyse
    (creation du fichier complet)
  • Identifier les types et les sources d'erreurs
    (pour l'analyse de la qualite des donnees)
  • Ameliorer la qualite des donnees du recensement
    (pour l'actuel et lle futur)
  • Important non seulement de detecter les erreurs
    mais aussi d'identifier les causes, afin de
    prendre les mesures correctives appropriees et
    ameliorer la qualite globale

8
(No Transcript)
9
Comment corriger (redresser)? TABLEAU 1
Population par age et sexe, brut et corrige
  • Comment gerer les donnees non declarees?
  • Distribuer les ages et sexes non declares dans
    les memes proportions que pour les valeurs
    correspondantes connues
  • Par exemple, pour 23 sexe inconnus, distribuer
    (2033/4147)23 12 en masculin (et les 11
    restant en feminin par soustraction)
  • Similairement, distribuer 15 ages inconnus dans
    les 6 groupes d'age en proportion des valeurs
    connues
  • Cette methode peut donner des resultats biaises
    si le nombre de non-reponses est eleve et si la
    distribution des repondants et des non-repondants
    sont tres differentes
  • Une strategie amelioree serait d'utiliser des
    distributions multivariees impliquant d'autres
    variables comme le relations entre membres du
    menage

10
(No Transcript)
11
Pourquoi corriger? TABLES 2 and 3 Population
par age avec/sans ND pour 2000 et 2010
  • Un autre probleme est que les non-declares
    peuvent affecter l'analyse de tendances
  • Dans le tableau 2, si les ND ne sont ps pris en
    compte, le pourcentage de personnes agees de
    15-29 ans apparait en augmentation de 27.2 en
    2000 a 30.3 en 2010
  • Redistribuer les ND peut changer cette evolution
  • Dans le tableau 3, apres distribution de ND, il y
    seulement une augmentation de 28.7 en 2000 a
    29.3 en 2010

12
(No Transcript)
13
Principes du controle-correction
  • En general, le systeme de correction-controle
    doit etre
  • Minimaliste (ne changer que les erreurs evidentes
    et aussi peu que possible)
  • Automatise (autant que possible, pour la
    detection et la correction)
  • Systematique
  • Coherent avec les autres enquetes de l'ONS
  • En accord avec les standards internationaux de
    l'ONU ou d'autres organisations

14
Types de controles
  • Types de controles
  • Certains identifient les erreurs avec certitude
  • Douteux identifient des erreur potentielles
  • Les controles certains identifient les erreurs
    fatales, qui comprennent les entrees invalides ou
    manquantes de meme que les erreurs liees a des
    incoherences
  • Les controles douteux identifient les valeurs
    hors de fourchettes subjectives, ou qui semblent
    trop elevees ou trop basses comparees avec
    d'autres donnees du meme questionnaire
  • Les erreur fatales doivent etre resolues mais les
    erreurs douteuses sont plus difficiles a
    corriger, apportent moins de gains en qualite et
    compliquent le processus
  • Pour les erreurs douteuses, des specialistes du
    domaine doivent investiguer les controles
    developpes pour le recensement pilote et ceux
    developpes pendant l'exploitation pour s'assurer
    de leur efficacite et efficience (ex., examiner
    les compteurs de redressement)

15
Micro-controles vs Macro-controles
  • Micro-controles consistent a s'assurer de la
    validite et de la coherence de chaque
    enregristrement individuel et des relations entre
    les enregistrements d'un meme menage
  • Macro-controles portent sur des donnees agregees
    pour s'assurer de la vraisemblance globale
  • Exemple, si les resultats du recensement montrent
    un fort pourcentage de personnes sans age
    declare, imputer les ages au niveau individuel
    produira un fichier de donnees complet
  • MAIS il est encore plus important de s'assurer au
    niveau maro que l'imputation n'a pas biaise la
    distribution par age

16
Impact du mode de saisie
  • Types de mode de saisie typiquement utilises
    manuel (dactylo), OMR, OCR/ICR, PDA, Internet
  • Pour la saisie manuelle, PDA, Internet quelque
    detection et correction d'erreurs limitees
    peuvent etre effectuees en temps reel
  • Pas possible pour OMR ou OCR/ICR limite au
    controle batch apres coup

17
controle manuel vs automatique
  • controles manuels peuvent etre faits a
    differentes etapes du processus agent
    recenseur, superviseur, codeur, operateur de
    saisie, etc
  • Inconvenients couteux en ressources humaines et
    en temps
  • faisable seulement si le fichier de donnees est
    petit
  • controles automatiques reduisent le temps
    necessaire, limite l'introduction d'erreurs
    humaines, et sont reproductibles
  • Au contraire de l'imputation manuelle, les
    controles automatiques permettent d'imputer les
    reponses sur la base d'autres informations du
    questionnaire ou selon d'autres enregistrements
    de la base de donnees

18
Risques du sur-controle-correction
  • Allonge les delais
  • Accroit les couts
  • Distortion potentielle de vraies valeurs
  • Faux sentiment de securite

19
Autres Considerations
  • Determination de seuils de tolerance pour la
    detection d'erreurs
  • il y a toujours un petit pourcentage de
    repondants qui ne donnent pas de reponses
    acceptables
  • Toutes les incoherences ou erreurs ne sont pas
    susceptibles de fausser les resultats et ne
    doivent pas necessairement etre corrigees
  • Il peut etre utile de faire un premier passage
    pour mesurer l'ampleur de certaines erreurs avant
    de decider d'une action corrective
  • Important de faire intervenir dans la decision
    des specialistes du sujet
  • Pour des variables de base comme l'age et le
    sexe, les taux de non reponse sont typiquement
    bas (1-2) tandis que pour des variables comme
    la literacie ou le handicap, les taux sont plus
    eleves (5-10)
  • Dans certains cas, il peut etre necessaire de
    revenir aux enquetes, soit sur le terrain soit
    par telephone
  • lecons du processus de controle-corrections
  • Des iterations peuvent etre utiles pour ameliorer
    la qualite du recensement actuel et de futurs
    enquetes ou recensement
  • Compteurs d'occurence, traces de
    controles-corrections, mesures de performance
    sont utiles pour le diagnostique

20
Autres considerations
  • Cout de la phase de correction-controle
  • Couts n'ont pas vraiment diminue au cours des 20
    derniere annees, meme si les processus ont pu
    etre rationalises par une exploitation continue
    des evolutions technologiques
  • En general, cette phase prend une part trop
    grande du temps d'exploitation relativement aux
    autres activites
  • Peut peser sur les delais de diffusion des
    resultats du recensement
  • Archivage
  • Les deux fichiers brut et redresse doivent etre
    archives pour analyses futures
  • Documentation doit comprendre tous les elements
    pour pouvoir reconstruire le meme processes
    ulterieurement

21
MERCI !
Write a Comment
User Comments (0)
About PowerShow.com