Title: X ENCUENTRO DE MATEM
1X ENCUENTRO DE MATEMÁTICAS Y SUS APLICACIONES
- IMPUTACIÓN DE DATOS
- CUÁNTO AYUDAN LOS PAQUETES ESTADÍSTICOS?
- Dr. Holger Capa Santos
- Departamento de Matemática
- Escuela Politécnica Nacional
- Quito, julio, 2006
2CONTENIDO
- LA NO RESPUESTA
- PROBLEMAS CON IMPUTACIÓN SIMPLE
- LA IMPUTACIÓN MÚLTIPLE (IM)
- SOFTWARE PARA IM
- CONCLUSIONES
3LA NO RESPUESTA
- POR QUÉ SE PRODUCE LA NO RESPUESTA?
-
- Al realizar la recolección de datos, a través de
encuestas o de procesos administrativos, en
general ocurren dos situaciones - 1. No respuesta por unidad hay unidades que no
han respondido o de las cuales no se tiene
información. - 2. No respuesta por ítem no respuesta en ciertas
preguntas del formulario.
4LA NO RESPUESTA
- LA SOLUCIÓN INICIAL
-
- No respuesta por unidad trabajar solamente
con los datos entregados (se ignora a quienes no
tienen información). - No respuesta por ítem eliminar los
registros con datos incompletos y se trabaja
solamente con aquellos que están completos.
5LA NO RESPUESTA
- PREGUNTAS FUNDAMENTALES
- Para qué análisis estadístico se van a utilizar
los datos? - Cuál es el tamaño de la muestra y cuántos los
datos faltantes?
6LA NO RESPUESTA
- REQUERIMIENTO DE DATOS COMPLETOS
- Regresión lineal, ACP, Análisis de varianza, etc.
requieren de datos completos. - Producir algoritmos para estos modelos con datos
faltantes puede ser demasiado complicado y
costoso. - Las bases de datos producidas por instituciones
estatales serán utilizadas por especialistas en
diferentes campos. Dejar la imputación de datos
al libre albedrío puede ser muy peligroso.
7LA NO RESPUESTA
- CUÁNDO SE PUEDEN UTLIZAR DATOS INCOMPLETOS?
- Si se requiere calcular solamente ciertos
resúmenes de las variables (medias, varianzas). - En general si las no respuestas se pueden
considerar unidades seleccionadas completamente
al azar. En este caso, también los estimadores
continuarán siendo insesgados. - Si el tamaño de la muestra retenida es lo
suficientemente grande para que no afecte
demasiado la precisión. No es lo mismo que falten
25 de los datos en una muestra objetivo de 400
datos que en una de 20.000.
8PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE
-
- Al remplazar un valor a través de la imputación
simple media, regresión, etc., se están
generando estimadores sesgados. - En general, quienes no responden pueden tener
razones sistemáticas para ello (preguntas
sensibles como ingresos, consumo de drogas,
aprovechamiento académico, etc.).
9PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE
- CÓMO SE EVALÚA EL SESGO?
- Es muy difícil, pues no se conocen las causas
precisas de la no respuesta. - Se deberían realizar seguimientos posteriores
para tratar de estudiar el comportamiento de las
variables de interés en quienes no responden. - Más adelante se presentarán algunos resultados
al respecto.
10PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE
- CÓMO AFECTA A LA VARIANZA?
- EFECTOS EN LA VARIANZA DE LA MEDIA MUESTRAL
- Considérese el caso de imputación por la media
- Población de tamaño N
- Muestra de tamaño n
- Media poblacional µ
- Media muestral
- Varianza muestral s2
11PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE
- Se puede demostrar que aproximadamente
(1)
Si solamente se han observado de los
elementos de la muestra (por no respuesta
aleatoria) entonces, aproximadamente
(2)
12PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE
- Supóngase que en lugar de utilizar (2), se
utiliza (1) sin distinguir entre registros
observados e imputados. Entonces, la media
muestral para los n valores es
cuya varianza muestral
13PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE
- Por tanto, para los n valores, utilizando la
imputación igual a la media muestral, la varianza
muestral será
(3)
Si se realiza el cociente entre (3) y (1) se
obtiene
14PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE
- Así, para n1 y N/n1 grandes y n1ltn, se obtiene
que la varianza de dada en (1) es menor que la
varianza dada en (2) por un factor aproximado de
(n1 /n)2.
15PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE
- CONSECUENCIA DE LA SUBESTIMACIÓN DE LA VARIANZA
- Ganancia en precisión ficticia en la estimación
de µ - La hipótesis µ0, será rechazada con mayor
frecuencia de lo que debería. - NOTA Otros mecanismos de imputación simple
comúnmente utilizados también conducen a
subestimar la varianza por ejemplo
16PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE
- Hot deck (selección aleatoria entre los datos
observados). - Dato emparejado.
- Arrastre de la última observación disponible.
- Arrastre de la peor observación disponible o
valor mínimo. - Regresión simple o múltiple.
17PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE
- HAY OTRAS CONSECUENCIAS MÁS GRAVES?
- LAMENTABLEMENTE SI
- MECANISMOS DE AUSENCIA DE DATOS
- Ausencia no aleatoria o no ignorable (NMAR) la
ausencia depende de los valores observados y de
los faltantes. - Ausencia aleatoria (MAR) la ausencia depende
solo de los datos observados. - Ausencia completamente aleatoria (MCAR) la
ausencia no depende de los datos observados ni de
los datos ausentes.
18 EJEMPLO Considérese un vector aleatorio normal
(X,Y) tal que
Se consideran los siguientes mecanismos para
ausencia de datos para X MCAR Un valor de X
está ausente con probabilidad 0,5. MAR Un
valor de X está ausente si Ylt0. NMAR Un valor
de X está ausente si Xlt0.
19LA IMPUTACIÓN MÚLTIPLE
- UNA ALTERNATIVA
- Rubin (1986, 2004), propone un mecanismo de
imputación múltiple (para mecanismo de ausencia
MAR). La estrategia básica consiste en generar m
opciones distintas de valores para cada dato
ausente, para tratar de incorporar la
variabilidad de la medida objetivo y la
incertidumbre de valores ausentes (en realidad se
estaría considerando una distribución de valores
ausentes para cada dato). La justificación
teórica y la bondad de este método se justifican
en el contexto bayesiano.
20LA IMPUTACIÓN MÚLTIPLE
- El procedimiento se resume en los cuatro pasos
siguientes - Selección del método de imputación (explícito o
implícito). - Generación de conjuntos de valores a imputar
(generalmente entre 5 y 20). - Análisis de los diferentes conjuntos de valores
imputados. - Combinación de estos resultados para obtener
una estimación promedio.
21LA IMPUTACIÓN MÚLTIPLE
- El siguiente gráfico resume el procedimiento
señalado
DATO IMPUTADO
ANÁLISIS
COMBINACIÓN
DATO FALTANTE
RESULTADOS FINALES
22LA IMPUTACIÓN MÚLTIPLE
- Para comprender mejor las ideas planteadas por
Rubín, se considera el siguiente ejemplo (Rubin,
2004) - En una encuesta sobre una población de 1.000
elementos, se elige una muestra aleatoria de 10
unidades. Se conoce la información para la
variable X en 1970, sobre toda la población, y
se trata de obtener información de la variable Y
sobre la muestra sin embargo, dos elementos no
respondieron. Con datos completos, se propone
estimar la media poblacional de Y, µY, con el
estimador de la razón µX
además, un intervalo de confianza de nivel 95 se
obtiene - con la fórmula µX 1,96SD/n½, donde se
supone que la media poblacional de X, µX12. En
este caso
23LA IMPUTACIÓN MÚLTIPLE
En este caso
24- TABLA 1 Ejemplo artificial de datos con
imputación múltiple
25(No Transcript)
26TABLA 2 Análisis de los datos con imputación
múltiple
27LA IMPUTACIÓN MÚLTIPLE
- A continuación, se combinan las dos respuestas
obtenidas sobre el mismo modelo (réplicas) para
obtener inferencias para µY en cada modelo
considerado. Se considera como centro del
intervalo resultante al promedio de las
estimaciones. La varianza asociada con estas
estimaciones tiene dos componentes - Varianza total promedio de varianzas con
imputación (11/m)varianza entre imputaciones
28LA IMPUTACIÓN MÚLTIPLE
- Para el modelo 1
- Estimación de µY (13,3813,57)/2 13,48
- Varianza total (2,963,19)/2
(11/2)(13,38-13,48)2(13,57-13,48)2
29LA IMPUTACIÓN MÚLTIPLE
- GENERACIÓN DE DATOS A IMPUTAR
- Inicialmente, Rubin había propuesto generalizar
las técnicas de imputación simple para generar
los valores a imputar. Sin embargo, los métodos
más utilizados en la actualidad son - Aproximación bayesiana bootstrap.
- Montecarlo para cadenas de Markov (MCMC)
30LA IMPUTACIÓN MÚLTIPLE
- UN EJEMPLO COMPARATIVO (GÓMEZ J., PALAREA J.,
2003) - Se considera una matriz de datos completos 203,
de un vector normal (Y,X1,X2)en los cuales se ha
generado un 35 de faltantes con un mecanismo
MAR. Se considera el - problema de la regresión de Y sobre X1 y X2. La
siguiente tabla recoge las estimaciones
obtenidas, en donde se observa que la IM-MCMC se
destaca, en general, con respecto a los otros
métodos.
31Tabla 3 Inferencia basada en imputación en
problemas con información incompleta
32SOFTWARE EN IM
- Windows WinMICE, NORM
- SPLUS o R MICE, L. Schafer.
- SAS IVEWARE, PROCMI, PROC MIANALIZE
- STATA ICE
- DOS, GAUSS AMELIA (series de tiempo)
- L. Schafer (gratuito) NORM, CAT, MIX, PAN
(sobre S-PLUS) - CARACTERÍSTICA GENERAL no interactivo se
requiere algo de programación.
33CONCLUSIONES
- La imputación de datos es una tarea necesaria,
pero muy delicada. - Existe un gran desarrollo para el mecanismo
MAR. - La imputación simple, en general, no es
adecuada. - IM es el camino correcto. Se deben aprovechar
las nuevas técnicas de simulación (MCM, por
ejemplo). - Se requiere mucho cuidado para elegir el
software apropiado no todo lo existente es útil.
34BIBLIOGRAFÍA
- Gómez J., Palarea J., Inferencia basada en
imputación múltiple en problemas con información
incompleta, IX Conferencia Española de Biometría,
La Coruña, 2003. - Rubin D., Multiple imputation for nonresponse
in surveys, Wiley Classics Library, 2004. - Von Hippel P., Biases in SPSS 12.0 Missing
Value Analysis, The American Statistician, Vol.
58, No. 2, 2004. - http//www.multiple-imputation.com/