Title: CALIBRATION, PAST, PRESENT and FUTURE?
1CALIBRATION, PAST, PRESENT and FUTURE?
- Jean-Claude DEVILLE
- Ecole Nationale de la Statistique et de lAnalyse
de lInformation/crest/Laboratoire de Statistique
dEnquête, - Campus de Ker-Lann, 2 rue Blaise Pascal
35170-BRUZ -deville_at_ensai.fr -
20-Standard calibration principle
Calibration equations xk p-vector of
auxiliary variables X total of the xk dk
design weights We are seeking for new weights wk
is a p-vector and the Fk are regular functions of
ONE variable verifying
3Standard calibration principle
The modified estimator is approximately unbiased
and its variance is given by the residual trick
where the ek are the residuals of the regression
with weights qk
Their classical form comes from the fact that thy
are deduced by minimizing a distance function
between the old and the new weights.
4 1 Generalized calibration
We start from functions Fk and we seek for
weights having the form
where
with
Define
Therefore we have
The simplest case (linear) is obtained with Fk(u)
zk is then a variable with p componants known on
the sample.
- The usual case is thegeneralized linear where
we use only one function F monotonic, regular,
verifying F(0)1 .
5The calibrated weights have the expression
The calibration equations are
with
We then get
Results are as in Deville-Särndal(1992) -
convergence and negligable bias. -All the
estimators having the same zk have the same
asymptotic variance . -It can be evaluated from
the linear case, where we have
6Generalized calibration
This is exactly the instrumental regression
(Fuller (1987)) using the zk as instruments. The
variance of the estimator is computed by the
residual trick using the residuals of this
regression. Variance estimation follows the same
lines. The "instruments" zk have to be known
ONLY on the sample they are NOT an external
auxiliary information.
Generalized calibration is one of the novelties
included in CALMAR II (Sautory,Le
Guennec(2003))
72-CALIBRATION FOR DEALING WITH NON-RESPONSE
- A parametric model for response probabilities is
defined by
In practice a generalized linear model
The calibration estimating equations are
8Non-response
9non-response
REMARK it possible to include in the response
model variables which are NOT observed for the
non-respondant. In particular they may also be
variable of interest. This give interesting
perspectives for non-ignorable non-response.
10A GOOD EXAMPLE/EXERCISE
11 Les corrections destinées à compenser les effets
de la non réponse demandent une connaissance très
précise des facteurs qui la causent. En
particulier, si ce que lon veut mesurer influe
directement sur la probabilité de réponse, on est
amené à prendre des risques avec les données.
Voici un petit exemple fictif un groupe
détudiants est interrogé sur sa consommation de
drogue. Les résultats de lenquête sont les
suivants
Naïvement on dirait que le pourcentage de
consommateurs est estimé par 60/(24060)25.
Cette estimation est faite sous lhypothèse que
les non-répondants ont le même comportement que
les répondants. Mais on remarque que le taux de
réponse des filles est plus important que celui
des garçons. Pour corriger cela, on calcule le
taux de consommateurs chez les filles, soit 1/9,
et chez les garçons soit 3/9, et on conclut que
la population étudiante observée est
consommatrice à 2/922,2. Si maintenant on
pense que cest le fait de consommer qui induit
la non-réponse, le modèle a deux paramètres poui
et pnon , respectivement probabilité de répondre
des consommateurs et des non-consommateurs. On
trouve que ces probabilités valent respectivement
0,2 et 0,8. Le nombre estimé de consommateurs est
donc de 200 chez les garçons et 100 chez les
filles et lestimation du pourcentage global est
de 50 !
12CALIBRATION ON IMPRECISE DATA
Linformation auxiliaire X est maintenant
supposée incertaine (autres enquêtes,
destimations dexperts). X et estiment sans
biais le même vecteur X0 ,les variances de ces
deux quantités étant connues ou estimées de façon
fiable. Cette estimation peut être comprise comme
une estimation par la régression raccourcie
(ridge) chercher un estimateur linéaire de Y de
la forme laissant
lestimation sans biais. Si X est indépendant de
le vecteur optimisant est évidemment
B ((Var( ) Var(X))-1 Cov( ) Une
approximation commode de cette quantité, exacte
en cas de sondage aléatoire simple, est ce qui
donne les poids
13Autrement dit la régression est du genre ridge et
on peut montrer que la variance de lestimateur
vaut On lestime par celle de lestimateur
GREG augmentée dun terme connu. Il est
intéressant de noter que cet estimateur reçoit
aussi une interprétation en termes de calage. Si
on lapplique aux xk , on obtient en effet
soit lestimateur (quasi)optimal formé par
combinaison linéaire de X et . On peut
donc dire que lestimateur est calé sur et en
déduire une autre expression des poids et de la
variance en fonction de au lieu de X. Des
idées analogues peuvent être développées dans le
cadre du calage généralisé (avec non réponse).
14CALAGE ET ECHANTILLONNAGE INDIRECT
Léchantillonnage indirect (ou Méthode
généralisée du partage des poids, Lavallée(2002))
consiste à échantillonner dans une population UA
liée à une population UB quelle permet
dattraper. Elle conduit à des estimateurs sans
biais de variance connue et estimable pour les
variables de UB. On peut aussi, grâce au calage
généralisé, renforcer lestimateur naturel en
le calant simultanément sur des totaux
auxiliaires connus de variables de UA et de UB.
Lessentiel des résultats se trouve dans
Lavallée(2002), chapitre 7. Le calage sur des
informations relatives à plusieurs unités
statistiques emboîtées (ménages et individus par
exemple) est un cas particulier de cette approche
15CALAGE SUR DES FONCTONS DE REPARTITION
Ren(2000), Breidt et Opsomer (2000),
Goga(2002,2005) Le calage sur la fonction de
répartition dune variable auxiliaire continue
nest autre quune variante de la
poststratification à laide de tranches de cette
variable. La question est de choisir un
estimateur de lespérance de yk conditionnelle à
xk (à condition de donner un sens à cette notion
dans le cadre des populations finies).
Lestimateur du total des yk est alors Cest
toujours un estimateur linéaire (pondéré), et,
idéalement, sa variance est voisine de celle de
. Le calage sur plusieurs fonctions de
répartition na pas donné lieu à publication.
Cest une extension de la technique du
raking-ratio analogue à lextension de la
poststratification décrite ci-dessus.
16CALAGE INVERSE ET DONNEES ABERRANTES
(Ren et Chambers (2003)) On commence par définir
un estimateur robuste du total Y. On cherche
ensuite à modifier les valeurs aberrantes
vraies , par des valeurs
plus normales telles que La contribution au
total robuste des valeurs aberrantes est connue
et vaut Lobjectif est donc dimputer des
valeurs ,telles que De plus,
on recherche des valeurs imputées proches des
valeurs vraies. En posant, pour ,
avec
et , on retrouve un problème
de calage où ? est solution de Si, par exemple,
F est linéaire on trouve
173-ESTIMATION OF A NON-LINEAR FUNCTIONAL BY
CALIBRATION ON A SET OF FUNCTIONNALS
(hypercalibration?)
18hypercalibration
19hypercalibrationexample
20hypercalibration variance and variance
estimation
21hypercalibrationweighted estimator
22Hypercalibrationweighted estimator 2
is the solution of
where
As
We get the linearized variable
As
is
the linearized of
tk B sk
where
- B is the regression of t on s using z as
instument. - In the case of totals, we get the previous
results.
23Hypercalibrationexample of weighted estimator 2
An example TY/X (ratio) is to be estimated,
and skyk /xk is observed on the sample and
available on the frame. One can build a weighted
estimator with the calibration function
(sample slt)
Instruments!
(sample sgt)
The calibration equation is
And finally
24Exportation towards classical statistics
Empirical Likelihood? Seems to be nothing else
than classical calibration using Kulback-Leibler
distance centered at the model instead of the
true value.Already present in my paper of 92.
The likelihood argument was cut in th final
version to make it short and to avoid
pedantry.See for instance papers by Changbao Wu
or JNK Rao.
Calibration principe its what I called
hypercalibration. Applicable to classical
statistics in problems like estimating a median
knowing the mean of the distribution. In
parametric statistics, estimation by maximum
likelihood using the known true value of an
auxiliary parameter(eg log-normal law) is a
particular case of the principe. Variance
estimation seems to be tackled by balanced
bootstrap, a technique in progress which poses
some intricate questions of balancing a sample
WITH replacement!