X ENCUENTRO DE MATEM - PowerPoint PPT Presentation

1 / 34
About This Presentation
Title:

X ENCUENTRO DE MATEM

Description:

IMPUTACI N DE DATOS CU NTO AYUDAN LOS PAQUETES ESTAD STICOS? Dr. Holger Capa Santos Departamento de Matem tica Escuela Polit cnica Nacional – PowerPoint PPT presentation

Number of Views:87
Avg rating:3.0/5.0
Slides: 35
Provided by: edue138
Category:

less

Transcript and Presenter's Notes

Title: X ENCUENTRO DE MATEM


1
X ENCUENTRO DE MATEMÁTICAS Y SUS APLICACIONES
  • IMPUTACIÓN DE DATOS
  • CUÁNTO AYUDAN LOS PAQUETES ESTADÍSTICOS?
  • Dr. Holger Capa Santos
  • Departamento de Matemática
  • Escuela Politécnica Nacional
  • Quito, julio, 2006

2
CONTENIDO
  • LA NO RESPUESTA
  • PROBLEMAS CON IMPUTACIÓN SIMPLE
  • LA IMPUTACIÓN MÚLTIPLE (IM)
  • SOFTWARE PARA IM
  • CONCLUSIONES

3
LA NO RESPUESTA
  • POR QUÉ SE PRODUCE LA NO RESPUESTA?
  • Al realizar la recolección de datos, a través de
    encuestas o de procesos administrativos, en
    general ocurren dos situaciones
  • 1. No respuesta por unidad hay unidades que no
    han respondido o de las cuales no se tiene
    información.
  • 2. No respuesta por ítem no respuesta en ciertas
    preguntas del formulario.

4
LA NO RESPUESTA
  • LA SOLUCIÓN INICIAL
  • No respuesta por unidad trabajar solamente
    con los datos entregados (se ignora a quienes no
    tienen información).
  • No respuesta por ítem eliminar los
    registros con datos incompletos y se trabaja
    solamente con aquellos que están completos.

5
LA NO RESPUESTA
  • PREGUNTAS FUNDAMENTALES
  • Para qué análisis estadístico se van a utilizar
    los datos?
  • Cuál es el tamaño de la muestra y cuántos los
    datos faltantes?

6
LA NO RESPUESTA
  • REQUERIMIENTO DE DATOS COMPLETOS
  • Regresión lineal, ACP, Análisis de varianza, etc.
    requieren de datos completos.
  • Producir algoritmos para estos modelos con datos
    faltantes puede ser demasiado complicado y
    costoso.
  • Las bases de datos producidas por instituciones
    estatales serán utilizadas por especialistas en
    diferentes campos. Dejar la imputación de datos
    al libre albedrío puede ser muy peligroso.

7
LA NO RESPUESTA
  • CUÁNDO SE PUEDEN UTLIZAR DATOS INCOMPLETOS?
  • Si se requiere calcular solamente ciertos
    resúmenes de las variables (medias, varianzas).
  • En general si las no respuestas se pueden
    considerar unidades seleccionadas completamente
    al azar. En este caso, también los estimadores
    continuarán siendo insesgados.
  • Si el tamaño de la muestra retenida es lo
    suficientemente grande para que no afecte
    demasiado la precisión. No es lo mismo que falten
    25 de los datos en una muestra objetivo de 400
    datos que en una de 20.000.

8
PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE
  • Al remplazar un valor a través de la imputación
    simple media, regresión, etc., se están
    generando estimadores sesgados.
  • En general, quienes no responden pueden tener
    razones sistemáticas para ello (preguntas
    sensibles como ingresos, consumo de drogas,
    aprovechamiento académico, etc.).

9
PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE
  • CÓMO SE EVALÚA EL SESGO?
  • Es muy difícil, pues no se conocen las causas
    precisas de la no respuesta.
  • Se deberían realizar seguimientos posteriores
    para tratar de estudiar el comportamiento de las
    variables de interés en quienes no responden.
  • Más adelante se presentarán algunos resultados
    al respecto.

10
PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE
  • CÓMO AFECTA A LA VARIANZA?
  • EFECTOS EN LA VARIANZA DE LA MEDIA MUESTRAL
  • Considérese el caso de imputación por la media
  • Población de tamaño N
  • Muestra de tamaño n
  • Media poblacional µ
  • Media muestral
  • Varianza muestral s2

11
PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE
  • Se puede demostrar que aproximadamente

(1)
Si solamente se han observado de los
elementos de la muestra (por no respuesta
aleatoria) entonces, aproximadamente
(2)
12
PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE
  • Supóngase que en lugar de utilizar (2), se
    utiliza (1) sin distinguir entre registros
    observados e imputados. Entonces, la media
    muestral para los n valores es

cuya varianza muestral
13
PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE
  • Por tanto, para los n valores, utilizando la
    imputación igual a la media muestral, la varianza
    muestral será

(3)
Si se realiza el cociente entre (3) y (1) se
obtiene
14
PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE
  • Así, para n1 y N/n1 grandes y n1ltn, se obtiene
    que la varianza de dada en (1) es menor que la
    varianza dada en (2) por un factor aproximado de
    (n1 /n)2.

15
PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE
  • CONSECUENCIA DE LA SUBESTIMACIÓN DE LA VARIANZA
  • Ganancia en precisión ficticia en la estimación
    de µ
  • La hipótesis µ0, será rechazada con mayor
    frecuencia de lo que debería.
  • NOTA Otros mecanismos de imputación simple
    comúnmente utilizados también conducen a
    subestimar la varianza por ejemplo

16
PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE
  • Hot deck (selección aleatoria entre los datos
    observados).
  • Dato emparejado.
  • Arrastre de la última observación disponible.
  • Arrastre de la peor observación disponible o
    valor mínimo.
  • Regresión simple o múltiple.

17
PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE
  • HAY OTRAS CONSECUENCIAS MÁS GRAVES?
  • LAMENTABLEMENTE SI
  • MECANISMOS DE AUSENCIA DE DATOS
  • Ausencia no aleatoria o no ignorable (NMAR) la
    ausencia depende de los valores observados y de
    los faltantes.
  • Ausencia aleatoria (MAR) la ausencia depende
    solo de los datos observados.
  • Ausencia completamente aleatoria (MCAR) la
    ausencia no depende de los datos observados ni de
    los datos ausentes.

18


EJEMPLO Considérese un vector aleatorio normal
(X,Y) tal que
Se consideran los siguientes mecanismos para
ausencia de datos para X MCAR Un valor de X
está ausente con probabilidad 0,5. MAR Un
valor de X está ausente si Ylt0. NMAR Un valor
de X está ausente si Xlt0.
19
LA IMPUTACIÓN MÚLTIPLE
  • UNA ALTERNATIVA
  • Rubin (1986, 2004), propone un mecanismo de
    imputación múltiple (para mecanismo de ausencia
    MAR). La estrategia básica consiste en generar m
    opciones distintas de valores para cada dato
    ausente, para tratar de incorporar la
    variabilidad de la medida objetivo y la
    incertidumbre de valores ausentes (en realidad se
    estaría considerando una distribución de valores
    ausentes para cada dato). La justificación
    teórica y la bondad de este método se justifican
    en el contexto bayesiano.

20
LA IMPUTACIÓN MÚLTIPLE
  • El procedimiento se resume en los cuatro pasos
    siguientes
  • Selección del método de imputación (explícito o
    implícito).
  • Generación de conjuntos de valores a imputar
    (generalmente entre 5 y 20).
  • Análisis de los diferentes conjuntos de valores
    imputados.
  • Combinación de estos resultados para obtener
    una estimación promedio.

21
LA IMPUTACIÓN MÚLTIPLE
  • El siguiente gráfico resume el procedimiento
    señalado

DATO IMPUTADO
ANÁLISIS
COMBINACIÓN
DATO FALTANTE
RESULTADOS FINALES
22
LA IMPUTACIÓN MÚLTIPLE
  • Para comprender mejor las ideas planteadas por
    Rubín, se considera el siguiente ejemplo (Rubin,
    2004)
  • En una encuesta sobre una población de 1.000
    elementos, se elige una muestra aleatoria de 10
    unidades. Se conoce la información para la
    variable X en 1970, sobre toda la población, y
    se trata de obtener información de la variable Y
    sobre la muestra sin embargo, dos elementos no
    respondieron. Con datos completos, se propone
    estimar la media poblacional de Y, µY, con el
    estimador de la razón µX
    además, un intervalo de confianza de nivel 95 se
    obtiene
  • con la fórmula µX 1,96SD/n½, donde se
    supone que la media poblacional de X, µX12. En
    este caso

23
LA IMPUTACIÓN MÚLTIPLE
En este caso
24
  • TABLA 1 Ejemplo artificial de datos con
    imputación múltiple

25
(No Transcript)
26
TABLA 2 Análisis de los datos con imputación
múltiple
27
LA IMPUTACIÓN MÚLTIPLE
  • A continuación, se combinan las dos respuestas
    obtenidas sobre el mismo modelo (réplicas) para
    obtener inferencias para µY en cada modelo
    considerado. Se considera como centro del
    intervalo resultante al promedio de las
    estimaciones. La varianza asociada con estas
    estimaciones tiene dos componentes
  • Varianza total promedio de varianzas con
    imputación (11/m)varianza entre imputaciones

28
LA IMPUTACIÓN MÚLTIPLE
  • Para el modelo 1
  • Estimación de µY (13,3813,57)/2 13,48
  • Varianza total (2,963,19)/2
    (11/2)(13,38-13,48)2(13,57-13,48)2

29
LA IMPUTACIÓN MÚLTIPLE
  • GENERACIÓN DE DATOS A IMPUTAR
  • Inicialmente, Rubin había propuesto generalizar
    las técnicas de imputación simple para generar
    los valores a imputar. Sin embargo, los métodos
    más utilizados en la actualidad son
  • Aproximación bayesiana bootstrap.
  • Montecarlo para cadenas de Markov (MCMC)

30
LA IMPUTACIÓN MÚLTIPLE
  • UN EJEMPLO COMPARATIVO (GÓMEZ J., PALAREA J.,
    2003)
  • Se considera una matriz de datos completos 203,
    de un vector normal (Y,X1,X2)en los cuales se ha
    generado un 35 de faltantes con un mecanismo
    MAR. Se considera el
  • problema de la regresión de Y sobre X1 y X2. La
    siguiente tabla recoge las estimaciones
    obtenidas, en donde se observa que la IM-MCMC se
    destaca, en general, con respecto a los otros
    métodos.

31
Tabla 3 Inferencia basada en imputación en
problemas con información incompleta
32
SOFTWARE EN IM
  • Windows WinMICE, NORM
  • SPLUS o R MICE, L. Schafer.
  • SAS IVEWARE, PROCMI, PROC MIANALIZE
  • STATA ICE
  • DOS, GAUSS AMELIA (series de tiempo)
  • L. Schafer (gratuito) NORM, CAT, MIX, PAN
    (sobre S-PLUS)
  • CARACTERÍSTICA GENERAL no interactivo se
    requiere algo de programación.

33
CONCLUSIONES
  • La imputación de datos es una tarea necesaria,
    pero muy delicada.
  • Existe un gran desarrollo para el mecanismo
    MAR.
  • La imputación simple, en general, no es
    adecuada.
  • IM es el camino correcto. Se deben aprovechar
    las nuevas técnicas de simulación (MCM, por
    ejemplo).
  • Se requiere mucho cuidado para elegir el
    software apropiado no todo lo existente es útil.

34
BIBLIOGRAFÍA
  • Gómez J., Palarea J., Inferencia basada en
    imputación múltiple en problemas con información
    incompleta, IX Conferencia Española de Biometría,
    La Coruña, 2003.
  • Rubin D., Multiple imputation for nonresponse
    in surveys, Wiley Classics Library, 2004.
  • Von Hippel P., Biases in SPSS 12.0 Missing
    Value Analysis, The American Statistician, Vol.
    58, No. 2, 2004.
  • http//www.multiple-imputation.com/
Write a Comment
User Comments (0)
About PowerShow.com