Title: An
1Análisis previo y exploratorio de datos
- Ana María López
- Departamento de Psicología Experimental
2Introducción
- En toda investigación, y antes de extraer
conclusiones acerca de los objetivos e hipótesis
planteados, es necesario llevar a cabo un
análisis previo y exploratorio de los datos con
objeto de detectar errores en la codificación de
las variables, eliminar inconsistencias, evaluar
la magnitud y tipo de datos perdidos (ausentes),
conocer características básicas de la
distribución de las variables (normalidad,
igualdad de varianzas, presencia de valores
atípicos, linealidad, etc) y avanzar acerca de
las relaciones entre ellas.
3Análisis univariable
- La mayoría de estos objetivos se alcanzan
realizando un análisis descriptivo de las
variables. Concretamente utilizaremos medidas de
tendencia central y de dispersión para describir
las características de las variables
cuantitativas y tablas de frecuencias y
porcentajes para las variables cualitativas. Para
ello utilizaremos, esencialmente, los
procedimiento de SPSS que aparecen en la última
columna de la siguiente tabla
Tipo de variable Índices analíticos Representaciones gráficas Procedimientos de SPSS
Cuantitativa media, mediana, moda, desviación típica, rango, amplitud intercuartílica, prueba de normalidad histograma, gráfico de caja Descriptivos, Explorar, Tablas
Cualitativa frecuencias, porcentajes, moda, etc. diagrama de barras, diagrama de líneas, diagrama de sectores Frecuencias, Tablas
4Introducción
- Para llevar a cabo el análisis previo y
exploratorio de datos disponemos de un conjunto
de procedimientos estadísticos numéricos y
gráficos- que vamos a describir a lo largo del
presente curso y que están implementados en la
mayoría de los programas estadísticos (SPSS, SAS,
S-PLUS, LISREL, EQS, etc).
5Detectar errores en la codificación de las
variables cualitativas y cuantitativas
vamos a entender por errores de codificación a
todos aquellos valores que están fuera del rango
de las variables cuantitativas y a códigos
numéricos o no numéricos no definidos para
representar a categorías de las variables
cualitativas. Ejemplo Estamos interesados en
estudiar si la opinión acerca de la ley de
matrimonios entre parejas del mismo sexo depende
de la edad y del sexo. Para ello seleccionamos
una muestra de sujetos mayores de edad y les
pedimos que nos den su opinión acerca de la ley
eligiendo una de las opciones de una escala que
va desde 1 (muy desfavorable) hasta 7 (muy
favorable). Los datos los hemos escrito en una
archivo de spss y hemos realizado un análisis
descriptivo básico utilizando el procedimiento
frecuencias para las todas las variables
incluidas en el archivo y el procedimiento
descriptivos para las cuantitativas
6Para realizar el análisis descriptivo hemos
seleccionado las opciones que aparecen en los
cuadros siguientes y hemos obtenido las
siguientes tablas. A partir de la información que
nos proporcionan las tablas podemos identificar
errores de codificación en las variables medidas?
72. Caracterizar las distribuciones de las
variables en cuanto a su tendencia central,
dispersión y forma (normalidad).
- Para ello utilizaremos tanto índices numéricos
como gráficos.
- Estadísticos de tendencia central
- Media aritmética.
- Mediana una vez ordenados los datos, es el valor
que deja el mismo número de observaciones a su
derecha que a su izquierda. - Media truncada es la media de la variable
eliminando el 5 de las colas inferior y superior
de la distribución, de esta forma se eliminan
valores extremos y es por tanto un estadístico
robusto. - M-estimadores son estadísticos robustos pues se
definen ponderando cada valor de la distribución
en función de su distancia al centro de la misma.
Las observaciones centrales se ponderan por el
máximo valor (la unidad) disminuyendo los
coeficientes de ponderación a medida que las
observaciones se alejan del centro. Existen
distintas formas de ponderar Humbert (pondera
con valor uno los valores situados a menos de
1339 de la mediana), Tukey (pondera con cero los
valores situados a 4385 de la mediana), Andrews
(pondera con cero los situados a 42066 de la
mediana), etc.
82. Caracterizar las distribuciones de las
variables en cuanto a su tendencia central,
dispersión y forma (normalidad).
- Estadísticos de dispersión
- Rango
- Varianza
- Desviación tipo
- Amplitud intercuartílica (AI)
- Estadísticos de forma
- Asimetría.
- Curtosis
- Prueba de normalidad de Kolmogorov
92. Caracterizar las distribuciones de las
variables en cuanto a su tendencia central,
dispersión y forma (normalidad).
- Histograma Gráfico de caja
Gráfico Q-Q -
-
102. Caracterizar las distribuciones de las
variables en cuanto a su tendencia central,
dispersión y forma (normalidad).
Figura 1. Tipologías de histogramas
Figura 2. Tipologías de gráficos Q-Q
112. Caracterizar las distribuciones de las
variables en cuanto a su tendencia central,
dispersión y forma (normalidad).
Para caracterizar a las variables cuantitativas
utilizaremos el procedimiento Explorar de SPSS
con las variables cansancio emocional,
despersonalización, realización personal y
depresión total medidas en una muestra de
odontólogos. Los cuadros de diálogo con las
opciones básicas recomendadas son
122. Caracterizar las distribuciones de las
variables en cuanto a su tendencia central,
dispersión y forma (normalidad).
- Con las opciones seleccionadas hemos obtenido
información que nos permite responder a las
siguientes cuestiones de las variables
analizadas - Identificar las medidas de tendencia central y de
dispersión - Comparar la media con la mediana y con los
estimadores robustos - Evaluar mediante inspección visual la normalidad
de las variables - Evaluar utilizando la prueba de significación la
normalidad de las variables
133. Detectar datos atípicos
Llamamos datos atípicos a aquellas observaciones
que se encuentran alejadas del resto de las
observaciones en una variable (atípico
univariable) o en la distribución conjunta de dos
o más variables (atípico multivariable). Los
valores atípicos multivariantes resultan de
combinaciones de valores muy inusuales. Las
consecuencias de una sola observación atípica
pueden ser graves pues pueden distorsionar las
medias y desviaciones típicas de las variables y
destruir o construir relaciones entre ellas.
Ejemplo Los valores atípicos pueden deberse a
2.1. Errores en la codificación de los valores
de las variables, errores en la codificación de
valores perdidos, errores de medida, errores en
la transcripción. 2.2. Observaciones que no
proceden de la población de la que se ha extraído
la muestra. 2.3. Observaciones atípicas debidas
a que la distribución de la variable en la
población tiene valores más extremos que los de
una distribución normal. Los valores atípicos
debidos a 2.1. y 2.2., una vez detectados deben
ser eliminados o recodificados como valores
perdidos. En el caso 2.3 suelen retenerse y
analizar su incidencia en los análisis
posteriores.
143. Detectar datos atípicos
- Para considerar a una observación como atípica
existen diferentes criterios - Se consideran atípica aquellas observaciones que
están, en valores absolutos, a más de 3
desviaciones tipo de la media (Zgt3 o Zlt-3) pero
la aplicación de este para criterio depende del
tamaño de la muestra. - En el gráfico de caja, como ya hemos vistos, son
atípicos observaciones con puntuaciones
superiores o inferiores a 1,5AI. A partir de
3AI se califican de extremos. - Otra regla simple es considerar sospechosas
aquellas observaciones tales que - donde Med(x) es la mediana y MEDA(x) es la
mediana de las desviaciones absolutas de x con
respeto a la mediana
153. Detectar datos atípicos
- Los criterios para detectar atípicos a nivel
univariante no tienen porque identificar atípicos
multivariantes. Para ello se puede utilizar,
aunque no exenta de problemas, la distancia de
Mahalanobis. - La distancia de Mahalanobis es la distancia al
centro de gravedad ponderada por la matriz de
varianzas covarianzas. Una observación
multivariante resultará sospechosa si su
distancia supera el valor de chi-cuadrado para k
(número de variables) y un nivel de significación
de 0,001. - Algunos de los gráficos disponibles en SPSS
implementan los criterios anteriores para
detectar datos atípicos. Los siguientes cuadros
de diálogo corresponden a los gráficos
recomendados para detectar atípicos
163. Detectar datos atípicos
Con la secuencia de cuadros de diálogo sobre la
matriz obtenemos los siguientes gráficos
173. Detectar datos atípicos
Caras de Chernoff
183. Detectar datos atípicos
Gráficos de estrella
Gráficos de linea
194. Linealidad
Muchos procedimientos de análisis se basan en el
patrón de correlaciones de Pearson entre
variables cuantitativas. El coeficiente de
correlación mide el grado de asociación lineal
entre variables y no es adecuado utilizarlo
cuando el patrón de covariación no es lineal. Es
importante también que los coeficientes de
correlación sean fiables y, bajo determinadas
circunstancias, los coeficientes de correlación
pueden ser mucho más grandes o mucho más pequeños
de lo que deberían ser. Variables compuestas En
muchas investigaciones es frecuente utilizar
variables compuestas (sumas, promedios, etc) que
se obtienen a partir de varios items, las
correlaciones entre variables compuestas que
comparten items individuales en su definición
suelen estar infladas. La presencia de valores
atípicos los valores atípicos como ya hemos
demostrado pueden inflar o reducir
significativamente las correlaciones entre
variables. Restricción de rango las
correlaciones muestrales pueden ser inferiores a
las poblacionales cuando en la muestra el rango
de respuestas de uno o ambas de las variables
analizadas está restringido.
204. Linealidad
- La herramienta más útil para obtener información,
a nivel exploratorio, de la relación entre dos
variables cuantitativas es el diagrama de
dispersión, o nube de puntos. Se construye
representando, en el plano cartesiano, los
valores de las variables medidas. La inspección
visual del gráfico de dispersión nos permite
identificar valores atípicos y el tipo de
relación entre las variables.
214. Linealidad
224. Linealidad
234. Linealidad
Gráfico
a) Diagrama de dispersión por defecto
24Gráfico
254. Linealidad
26análisis previo y exploratorio
Univariable
Multivariado
Bivariado
- Dos Variables Cualitativas Tablas de
contingencia y - gráficos de barras
- b) Una Variable Cuantitativa y otra Cualitativa
Explorar - c) Dos Variables Cuantitativa correlaciones
bivariadas, - gráficos de dispersión
a) Variable Cualitativa b) Variable Cuantitativa
27Bibliografía
- Escobar, M. (2000). Análisis gráfico/Exploratorio.
Cuadernos de Estadística. Madrid Editorial La
Muralla. - Figueras, M y Gargallo, P. (2003) Análisis
Exploratorio de Datos", en línea.
http//www.5campus.com/leccion/aedgt y añadir
fecha consulta - Palmer, A. (1995). El análisis exploratorio de
datos. Madrid Eudema - Peña, D. (2002). Análisis de datos
multivariantes. Madrid McGraw Hill. - Rial, A. Varela, J. y rojas, A. (2001).
Depuración y análisis preliminares de datos en
SPSS. Sistemas informatizados para la
investigación del comportamiento. Madrid RA-MA.