Title: An
1Análisis de valores perdidos
- Ana María López
- Departamento de Psicología Experimental
2Introducción
- La presencia de valores perdidos (información
ausente o faltante) es un problema común a
cualquier investigación y no puede ser ignorado
en el análisis de datos. Ignorar los datos
ausentes puede tener repercusiones graves que van
desde la perdida de potencia del estudio hasta la
aparición de sesgos inaceptables. La eliminación
de sujetos con características especiales limita
la representatividad o validez externa de los
resultados del estudio. - Las razones para la ausencia de datos pueden ser
diversas fallos en los instrumentos de medida,
los sujetos no asisten a la entrevista (en
diseños longitudinales pueden abandonar el
estudio en una oleada concreta), no contestan a
una serie de preguntas o responden con la opción
no sabe/no contesta incorporada en el
cuestionario, etc. Por todas estas razones y
muchas otras los datos perdidos son ubicuos en la
investigación en ciencias sociales y de la salud
(Allison, 2002).
3Introducción
- Hay una solución fácil para el tratamiento de
bases de datos con valores perdidos y consiste en
analizar sólo los casos con Información completa
en el conjunto de variables. Esta solución, es la
opción por defecto de la mayoría de los paquetes
estadísticos, se conoce como análisis de casos
completos (Casewise, Listwise). El análisis de
casos completos tiene la ventaja de su
simplicidad pero el inconveniente de que se
pueden excluir a muchos casos y perder potencia
en los análisis estadísticos.
4Patrones de pérdida de información
- La forma o patrón para la pérdida de datos puede
ser muy variada. En la figura siguiente aparecen
representada tres posibles matrices de datos con
perdida de información univariante, monótona y
aleatoria.
5Mecanismos de perdida de datos
- Se distinguen tres mecanismos de perdida de
datos - Datos perdidos completamente al azar (MCAR
missing completely at random) - Datos perdidos al azar (MAR missing completely
at random) - Datos perdidos no ignorables o no debidos al azar
(MNImissing non-ignorable, o MNARmissing not at
random).
6Mecanismos de perdida de datos
- Se considera que los datos perdidos son MCAR
cuando las características de los sujetos con
información son las mismas que las de los sujetos
sin información. Dicho de otra manera la
probabilidad de que un sujeto presente un valor
ausente en una variable no depende ni de otras
variables del cuestionario ni de los valores de
la propia variable con valores perdidos. Las
observaciones con datos perdidos son una muestra
aleatoria del conjunto de observaciones. Ejemplo
de MCAR - 1. Las personas que no nos proporcionan su
salario tienen, en promedio, el mismo salario que
las personas que nos lo proporcionan. - 2. Las características estadísticas (media,
porcentajes) del resto de las variables son las
misma para los sujetos que nos proporcionan su
salario y para los que no lo proporcionan.
7Mecanismos de perdida de datos
- La perdida de datos es MAR cuando los sujetos
con datos incompletos son diferentes
significativamente de los que presentan datos
completos en alguna variable, y el patrón de
ausencia de datos puede ser predecible a partir
de variables con datos observados en la base de
datos del estudio que no muestran ausencia de
datos. La probabilidad de que se produzca la
ausencia de una observación depende de otras
variables pero no de los valores de la variable
con el valor ausente. Es imposible probar si la
condición MAR es satisfecha y la razón es que
dado que no conocemos la información faltante no
podemos comparar los valores de aquellos sujetos
que tienen información con los que no la tienen.
Un ejemplo de MAR - La pérdida de valores en la variable sueldo es
MAR si depende del estado civil pero dentro de
cada categoría, la probabilidad de missing no
está relacionada con el sueldo.
8Mecanismos de perdida de datos
- La perdida de datos es MNAR cuando la
probabilidad de los datos perdidos sobre una
variable Y depende de los valores de dicha
variable una vez que se han controlado el resto
de las variables. Ejemplo - Si son los hogares de renta mayor los que con
menos probabilidad nos proporcionan el salario,
una vez controladas el resto de las variables,
entonces la perdida de datos no es aleatoria ni
ignorable. - En los siguientes archivos se simula el mecanismo
MAR y MNAR para una variable y para dos
variables. En este último ejemplo tomado de
Schafer y Graham, 2002 se simulan los tres
mecanismos de pérdida con dos variables.
9Análisis de Valores perdidos con SPSS
10Análisis de Valores perdidos con SPSS
Archivo opinion.sav
11Análisis de valores perdidos
12Análisis de valores perdidos
Tablas de contingencia de variables indicador
frente a categóricas
13Análisis de valores perdidos
14Análisis de valores perdidos
Estadísticos según lista
Estadísticos según pareja
15Análisis de valores perdidos
Estadísticos de EM estimados
Estadísticos de regresión estimados
16Métodos para tratar valores perdidos
- Análisis de casos completos para el conjunto de
variables (Listwise, Complete case) - Análisis de casos completos por pares de
variables (Pairwise)
17Métodos para tratar valores perdidos
- Métodos de imputación de datos
- Imputación simple
- Sustitución por la media de las observaciones con
información. - Imputación mediante regresión múltiple. Asigna a
los valores missing los valores predichos por una
ecuación de regresión estimada a partir de los
sujetos con información completa. - Algoritmo EM
- 2. Imputación múltiple
18Referencias bibliográficas
- Allison, P.D. (2002). Missing values. Sage
- Little, R. J. A. y Rubin, D. B. (1989) The
Analysis of Social Science Data with Missing
Values. Sociological Methods and Research 18
292-326. - Little, R. J. A. y Rubin, D.B. Statistical
Analysis with Missing Data, - 2nd edition. New York Wiley.
- Rejas, J. Imputación de datos ausentes en
estudios de calidad de vida relacionados con la
salud patrones de pérdida de datos y métodos de
imputación. Investig. Clín. Farm. 2005, Vol. 2
(1) 23-29 - Schafer, J.L. y Graham, J.W. (2002). Missing
Data Our View of the State of the Art.
Psychological Methods, Vol. 7, No. 2, 14777 - Tutorial sobre análisis de valores perdidos con
SPSS 13. http//www2.chass.ncsu.edu/garson/pa765/m
issing.htm