An - PowerPoint PPT Presentation

About This Presentation
Title:

An

Description:

En toda investigaci n, y antes de extraer conclusiones acerca de los objetivos e ... valor que deja el mismo n mero de observaciones a su derecha que a su izquierda. ... – PowerPoint PPT presentation

Number of Views:217
Avg rating:3.0/5.0
Slides: 28
Provided by: Ana1340
Category:

less

Transcript and Presenter's Notes

Title: An


1
Análisis previo y exploratorio de datos
  • Ana María López
  • Departamento de Psicología Experimental

2
Introducción
  • En toda investigación, y antes de extraer
    conclusiones acerca de los objetivos e hipótesis
    planteados, es necesario llevar a cabo un
    análisis previo y exploratorio de los datos con
    objeto de detectar errores en la codificación de
    las variables, eliminar inconsistencias, evaluar
    la magnitud y tipo de datos perdidos (ausentes),
    conocer características básicas de la
    distribución de las variables (normalidad,
    igualdad de varianzas, presencia de valores
    atípicos, linealidad, etc) y avanzar acerca de
    las relaciones entre ellas.

3
Análisis univariable
  • La mayoría de estos objetivos se alcanzan
    realizando un análisis descriptivo de las
    variables. Concretamente utilizaremos medidas de
    tendencia central y de dispersión para describir
    las características de las variables
    cuantitativas y tablas de frecuencias y
    porcentajes para las variables cualitativas. Para
    ello utilizaremos, esencialmente, los
    procedimiento de SPSS que aparecen en la última
    columna de la siguiente tabla

Tipo de variable Índices analíticos Representaciones gráficas Procedimientos de SPSS
Cuantitativa media, mediana, moda, desviación típica, rango, amplitud intercuartílica, prueba de normalidad histograma, gráfico de caja Descriptivos, Explorar, Tablas
Cualitativa frecuencias, porcentajes, moda, etc. diagrama de barras, diagrama de líneas, diagrama de sectores Frecuencias, Tablas
4
Introducción
  • Para llevar a cabo el análisis previo y
    exploratorio de datos disponemos de un conjunto
    de procedimientos estadísticos numéricos y
    gráficos- que vamos a describir a lo largo del
    presente curso y que están implementados en la
    mayoría de los programas estadísticos (SPSS, SAS,
    S-PLUS, LISREL, EQS, etc).

5
Detectar errores en la codificación de las
variables cualitativas y cuantitativas
vamos a entender por errores de codificación a
todos aquellos valores que están fuera del rango
de las variables cuantitativas y a códigos
numéricos o no numéricos no definidos para
representar a categorías de las variables
cualitativas. Ejemplo Estamos interesados en
estudiar si la opinión acerca de la ley de
matrimonios entre parejas del mismo sexo depende
de la edad y del sexo. Para ello seleccionamos
una muestra de sujetos mayores de edad y les
pedimos que nos den su opinión acerca de la ley
eligiendo una de las opciones de una escala que
va desde 1 (muy desfavorable) hasta 7 (muy
favorable). Los datos los hemos escrito en una
archivo de spss y hemos realizado un análisis
descriptivo básico utilizando el procedimiento
frecuencias para las todas las variables
incluidas en el archivo y el procedimiento
descriptivos para las cuantitativas
6
Para realizar el análisis descriptivo hemos
seleccionado las opciones que aparecen en los
cuadros siguientes y hemos obtenido las
siguientes tablas. A partir de la información que
nos proporcionan las tablas podemos identificar
errores de codificación en las variables medidas?
7
2. Caracterizar las distribuciones de las
variables en cuanto a su tendencia central,
dispersión y forma (normalidad).
  • Para ello utilizaremos tanto índices numéricos
    como gráficos.
  • Estadísticos de tendencia central
  • Media aritmética.
  • Mediana una vez ordenados los datos, es el valor
    que deja el mismo número de observaciones a su
    derecha que a su izquierda.
  • Media truncada es la media de la variable
    eliminando el 5 de las colas inferior y superior
    de la distribución, de esta forma se eliminan
    valores extremos y es por tanto un estadístico
    robusto.
  • M-estimadores son estadísticos robustos pues se
    definen ponderando cada valor de la distribución
    en función de su distancia al centro de la misma.
    Las observaciones centrales se ponderan por el
    máximo valor (la unidad) disminuyendo los
    coeficientes de ponderación a medida que las
    observaciones se alejan del centro. Existen
    distintas formas de ponderar Humbert (pondera
    con valor uno los valores situados a menos de
    1339 de la mediana), Tukey (pondera con cero los
    valores situados a 4385 de la mediana), Andrews
    (pondera con cero los situados a 42066 de la
    mediana), etc.

8
2. Caracterizar las distribuciones de las
variables en cuanto a su tendencia central,
dispersión y forma (normalidad).
  • Estadísticos de dispersión
  • Rango
  • Varianza
  • Desviación tipo
  • Amplitud intercuartílica (AI)
  • Estadísticos de forma
  • Asimetría.
  • Curtosis
  • Prueba de normalidad de Kolmogorov

9

2. Caracterizar las distribuciones de las
variables en cuanto a su tendencia central,
dispersión y forma (normalidad).
  • Histograma Gráfico de caja
    Gráfico Q-Q

10
2. Caracterizar las distribuciones de las
variables en cuanto a su tendencia central,
dispersión y forma (normalidad).
Figura 1. Tipologías de histogramas
Figura 2. Tipologías de gráficos Q-Q
11
2. Caracterizar las distribuciones de las
variables en cuanto a su tendencia central,
dispersión y forma (normalidad).
Para caracterizar a las variables cuantitativas
utilizaremos el procedimiento Explorar de SPSS
con las variables cansancio emocional,
despersonalización, realización personal y
depresión total medidas en una muestra de
odontólogos. Los cuadros de diálogo con las
opciones básicas recomendadas son
12
2. Caracterizar las distribuciones de las
variables en cuanto a su tendencia central,
dispersión y forma (normalidad).
  • Con las opciones seleccionadas hemos obtenido
    información que nos permite responder a las
    siguientes cuestiones de las variables
    analizadas
  • Identificar las medidas de tendencia central y de
    dispersión
  • Comparar la media con la mediana y con los
    estimadores robustos
  • Evaluar mediante inspección visual la normalidad
    de las variables
  • Evaluar utilizando la prueba de significación la
    normalidad de las variables

13
3. Detectar datos atípicos
Llamamos datos atípicos a aquellas observaciones
que se encuentran alejadas del resto de las
observaciones en una variable (atípico
univariable) o en la distribución conjunta de dos
o más variables (atípico multivariable). Los
valores atípicos multivariantes resultan de
combinaciones de valores muy inusuales. Las
consecuencias de una sola observación atípica
pueden ser graves pues pueden distorsionar las
medias y desviaciones típicas de las variables y
destruir o construir relaciones entre ellas.
Ejemplo Los valores atípicos pueden deberse a
2.1. Errores en la codificación de los valores
de las variables, errores en la codificación de
valores perdidos, errores de medida, errores en
la transcripción. 2.2. Observaciones que no
proceden de la población de la que se ha extraído
la muestra. 2.3. Observaciones atípicas debidas
a que la distribución de la variable en la
población tiene valores más extremos que los de
una distribución normal. Los valores atípicos
debidos a 2.1. y 2.2., una vez detectados deben
ser eliminados o recodificados como valores
perdidos. En el caso 2.3 suelen retenerse y
analizar su incidencia en los análisis
posteriores.
14
3. Detectar datos atípicos
  • Para considerar a una observación como atípica
    existen diferentes criterios
  • Se consideran atípica aquellas observaciones que
    están, en valores absolutos, a más de 3
    desviaciones tipo de la media (Zgt3 o Zlt-3) pero
    la aplicación de este para criterio depende del
    tamaño de la muestra.
  • En el gráfico de caja, como ya hemos vistos, son
    atípicos observaciones con puntuaciones
    superiores o inferiores a 1,5AI. A partir de
    3AI se califican de extremos.
  • Otra regla simple es considerar sospechosas
    aquellas observaciones tales que
  • donde Med(x) es la mediana y MEDA(x) es la
    mediana de las desviaciones absolutas de x con
    respeto a la mediana

15
3. Detectar datos atípicos
  • Los criterios para detectar atípicos a nivel
    univariante no tienen porque identificar atípicos
    multivariantes. Para ello se puede utilizar,
    aunque no exenta de problemas, la distancia de
    Mahalanobis.
  • La distancia de Mahalanobis es la distancia al
    centro de gravedad ponderada por la matriz de
    varianzas covarianzas. Una observación
    multivariante resultará sospechosa si su
    distancia supera el valor de chi-cuadrado para k
    (número de variables) y un nivel de significación
    de 0,001.
  • Algunos de los gráficos disponibles en SPSS
    implementan los criterios anteriores para
    detectar datos atípicos. Los siguientes cuadros
    de diálogo corresponden a los gráficos
    recomendados para detectar atípicos

16
3. Detectar datos atípicos
Con la secuencia de cuadros de diálogo sobre la
matriz obtenemos los siguientes gráficos
17
3. Detectar datos atípicos
Caras de Chernoff
18
3. Detectar datos atípicos
Gráficos de estrella
Gráficos de linea
19
4. Linealidad
Muchos procedimientos de análisis se basan en el
patrón de correlaciones de Pearson entre
variables cuantitativas. El coeficiente de
correlación mide el grado de asociación lineal
entre variables y no es adecuado utilizarlo
cuando el patrón de covariación no es lineal. Es
importante también que los coeficientes de
correlación sean fiables y, bajo determinadas
circunstancias, los coeficientes de correlación
pueden ser mucho más grandes o mucho más pequeños
de lo que deberían ser. Variables compuestas En
muchas investigaciones es frecuente utilizar
variables compuestas (sumas, promedios, etc) que
se obtienen a partir de varios items, las
correlaciones entre variables compuestas que
comparten items individuales en su definición
suelen estar infladas. La presencia de valores
atípicos los valores atípicos como ya hemos
demostrado pueden inflar o reducir
significativamente las correlaciones entre
variables. Restricción de rango las
correlaciones muestrales pueden ser inferiores a
las poblacionales cuando en la muestra el rango
de respuestas de uno o ambas de las variables
analizadas está restringido.
20
4. Linealidad
  • La herramienta más útil para obtener información,
    a nivel exploratorio, de la relación entre dos
    variables cuantitativas es el diagrama de
    dispersión, o nube de puntos. Se construye
    representando, en el plano cartesiano, los
    valores de las variables medidas. La inspección
    visual del gráfico de dispersión nos permite
    identificar valores atípicos y el tipo de
    relación entre las variables.

21
4. Linealidad
22
4. Linealidad
23
4. Linealidad
Gráfico
a) Diagrama de dispersión por defecto
24
Gráfico
25
4. Linealidad
26
análisis previo y exploratorio
Univariable
Multivariado
Bivariado
  • Dos Variables Cualitativas Tablas de
    contingencia y
  • gráficos de barras
  • b) Una Variable Cuantitativa y otra Cualitativa
    Explorar
  • c) Dos Variables Cuantitativa correlaciones
    bivariadas,
  • gráficos de dispersión

a) Variable Cualitativa b) Variable Cuantitativa
27
Bibliografía
  • Escobar, M. (2000). Análisis gráfico/Exploratorio.
    Cuadernos de Estadística. Madrid Editorial La
    Muralla.
  • Figueras, M y Gargallo, P. (2003) Análisis
    Exploratorio de Datos", en línea.
    http//www.5campus.com/leccion/aedgt y añadir
    fecha consulta
  • Palmer, A. (1995). El análisis exploratorio de
    datos. Madrid Eudema
  • Peña, D. (2002). Análisis de datos
    multivariantes. Madrid McGraw Hill.
  • Rial, A. Varela, J. y rojas, A. (2001).
    Depuración y análisis preliminares de datos en
    SPSS. Sistemas informatizados para la
    investigación del comportamiento. Madrid RA-MA.
Write a Comment
User Comments (0)
About PowerShow.com