Title: Analisis Exploratorio
1Capítulo 2 Análisis Exploratorio de Datos II-2001
2Clasificación/Tipo de Datos
- Cualitativo (Categorías)
- Nominal ? Viña 1 Santiago 2 Temuco
3 ..etc. - Ordinal ? Pobre 1 Aceptable 2
- Bueno 3 Excelente 4
-
- Cuantitativo (Números)
- Intervalo ? estatura, viscosidad, distancia,
duración...etc - Razón ? temperatura, peso...etc
NOTA El tipo de Estadísticas que se pueden
obtener o calcular depende del tipo de dato que
se trate. Por ejemplo promedio, mediana y
varianza no tienen sentido con datos categóricos
(si con proporciones)
3Escalas de Medida
Clasificación Nominal, Ordinal, Intervalos y
Razón
Variables Discretas y Continuas
Categóricas, Cuantitativas
Organización ? Frecuencia absoluta ?
Frecuencia relativa
A partir de nivel ordinal ? Frecuencia
absoluta acumulada ? Frecuencia relativa
acumulada
4Tipos de Variables
Tanto en la escala intervalar como en la de razón
es posible distinguir dos tipos de variables
aleatorias Variables Discretas una que puede
tomar sus valores de un conjunto de puntos
aislados (subconjunto de valores en IR) Variables
Continuas una que puede tomar sus valores en un
conjunto donde todos sus elementos son puntos de
acumulación (un intervalo en IR). Siempre es
posible tratar una variable continua como
discreta mediante la construcción de intervalos
de clase representando cada uno de los
intervalos por su valor medio denominado marca
de clase Variables Categóricas o
Cualitativas Variables Cuantitativas
5Organización/Presentación
Para estudiar las características de una
variable se ordenan los valores observados de la
muestra en k clases denominadas c1, c2, ..
ck. Frecuencia Absoluta. Se llama frecuencia
absoluta de la clase ci al número total de
individuos u observaciones que pertenece a dicha
clase y se denota por ni. Como las clases c1, c2,
..... ck una partición de la muestra, es fácil
verificar que n S ni ? número
total de observaciones o tamaño de la muestra
k i 1
6Organización/Presentación
Frecuencia Relativa. Se llama frecuencia
relativa de la clase ci a la proporción de
individuos que pertenecen a la clase sobre el
total de individuos o tamaño de la muestra. Se de
nota por fi. Se puede verificar que fi ---
nótese que .... S fi 1
k i 1
ni n
7Presentación de Datos Cualitativos
- Reglas Partición de la Población
- Cada observación debe pertenecer a una, y sólo
una clase o categoría. - Todas las observaciones deben ser pertenecer a
una. - Tablas ? Tabligrama.
- Gráficos de Barras ? Diagrama de Pareto.
- Gráficos Circulares o de Torta ?.
8Ejemplo Tablas
Clase Descripción
Frecuencia
107 60 51 25 10 8
1 2 3 4 5 6
9Escala Nominal
- Usa números como una manera de separar los
elementos de la población en diferentes clases o
categorías. El número asignado a la observación
sólo sirve como un nombre para distinguir la
categoría a la cual pertenece la observación. - La variable induce una partición sobre la
población la - información puede clasificarse en clases o
categorías. - Cada clase debe estar perfectamente definida y
diferenciada - de las demás.
- La recopilación se reduce a contar el número de
individuos - en la muestra que pertenece a cada clases
- Ejemplos Clasificación de alumnos por
- Cursos primero (1), segundo (2),...., sexto
(6) año - Sexo masculino (M), femenino (F)
- Colegio SEK (1) Alemán(2), Ruben
Castro(3), etc.
10Escala Nominal
120
Diagrama de Pareto
107
100
80
60
60
Frecuencia
51
40
25
20
10
8
0
1
2
3
4
5
6
Clase
11Escala Nominal
6
5
3
4
Diagrama Circular
4
10
1
40
3
20
2
23
12Escala Ordinal
Dónde existe un orden implícito entre las
mediciones. El valor numérico es usado sólo como
una manera de arreglar los elementos de acuerdo
al orden establecido. La variable admite grados
de calidadexiste una relación de orden total
entre las clases. No es posible cuantificar la
diferencia entre los individuos pertenecientes a
las distintas clases. Ejemplo calificaciones de
A (muy bueno), B (bueno), C (satisfactorio), D
(admisible), E (deficiente)
13Escala Ordinal
9
Diagrama de Bloques
8
7
6
5
4
3
2
1
0
Pobre
Regular
Aceptable
Bueno
Muy Bueno
14Escala Intervalar
Considera no sólo la información pertinente al
orden, sino además, el tamaño relativo de los
intervalos a que pertenece cada uno de los
individuos. En este nivel es posible cuantificar
la diferencia de todos los individuos
pertenecientes a los intervalos, clases o
categorías distintas. Está involucrado en
concepto de distancia, y la distancia entre dos
medias puede ser expresada en función de esta
unidad. Ejemplos temperatura al interior de un
silo, interés sólo clasificar en intervalos de
cinco grados (0, 5), (5, 10), .....,(30,
35). Puntaje promedio PAA, interesa clasificar
en tramos de 25 puntos.
15Escala Intervalar
- Tabligramas.
- Tablas de Frecuencia.
- Histogramas valores discretos y continuos.
- Usar 5 a 20 clases (intervalos o grupos).
- (considerar anchos de clases, límites y marca de
clase). - (polígono de frecuencias dibujar en marca de
clase). - Frecuencia Acumulada - Ojiva.
- (graficar en límite superior).
16Ejemplo Tabligrama
Ejemplo 40 Datos 10 7 8 11 1 2 3
7 9 12 0 3 3 4 6 8 13 1 2 2 4 5
6 7 8 14 0 1 2 3 3 5 7 8 8 15
0 2 3 3 8 8 16 0 0 1 2
Diagrama de Tallos-y-hojas
17Tabla de Frecuencias
K N Clases ? 1 3.3 log n ? 7 R Rango
máx xi - mín xi 162 - 107 55 A
Amplitud ( R 1 ) / K ( 55 1 ) / 7 8
Límites 102,5-111,5 111,5-120,5 120,5-129,5 129,5
-138,5 138,5-147,5 147,5-156,5 156,5-165,5
Marca 107 116 125 134 143 152 161
Frecuencias ABS - REL - REL. AC. 3
5 5 8 7 6 6
Conteo /// //// //// //// /// //// // ////
/ //// /
18Histograma
9
8
7
6
5
4
3
2
1
0
107
116
125
134
143
152
161
19Polígono de Frecuencias
9
8
7
6
5
4
3
2
1
0
99
170
107
116
125
134
143
152
161
20Frecuencia Acumulada Ojiva
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
99
170
107
116
125
134
143
152
161
21Escala de Razón
Esta escala se usa cuando no sólo el orden y
tamaño del intervalo son importantes. La única
diferencia entre la escala de razón y la
intervalar es que en la primera se puede definir
un cero absoluto y en la segunda no Buscar
ejemplos de Escala intervalar Buscar ejemplos de
Escala de razón Tarea Discuta la diferencia
entre Precisión y Exactitud ,
22Extraer Información desde la Muestra
- Mediciones de Tendencia Central
- Mediciones de Dispersión
- Coeficiente de Variación
23Medidas de Tendencia Central
- Estas medidas tienden a ubicarse en el centro del
conjunto. - Proporcionan un valor simple y representativo,
que resume un gran volumen de información.
- Media Aritmética
- Media Geométrica
- Media Armónica
24Medidas de Dispersión
- Miden la dispersión de valores dentro del
conjunto de datos respecto de alguna medida de
tendencia central.
- Rango
- Rango Cuartílico
- Rango Percentil
- Varianza
- Desviación Estándar
- Desviación Media
25Medidas de Tendencia y Dispersión
Mediana
0,5000
Moda
0,4500
Media Aritmética
0,4000
0,3500
0,3000
0,2500
0,2000
0,1500
Q1 Q2 Q3 Q4
0,1000
0,0500
0,0000
4
5
6
7
0
1
2
3
Rango
26Tipo de Variable
Variables Categóricas (Escala Nominal) Moda
(Medida del centro) Tasa de Variación (Medida
de Dispersión)
27Ejemplo
En un estudio de mercado se considera una
muestra de 1100 fumadores averiguando la marca
de cigarrillo que fuman, se obtienen la siguiente
Tabla Marca A
B C D
Frecuencia 220 270
310 300 Frec. Relativa 0,200
0,245 0,282 0,273 fM 0,282
? Clase modal C TV 1
0,282 0,718 ? Tasa de variación
28Tipo de Variable
Variables Categóricas (Escala Nominal) Moda
(Mo) (Medida del centro) Tasa de Variación
(V) (Medida de Dispersión)
Variables Cualitativas (Escala Ordinal) Moda,
Mediana (Me) Tasa de Variación,
Indice de Dispersión (ID) , Cuartíles
29 Ejemplo 2.4 Se tiene la impresión que el
servicio prestado por una sucursal bancaria no
es buena por lo tanto, la gerencia ordena un
estudio al respecto. Se toma una muestra de 70
respuestas de clientes opinando sobre el
servicio recibido Calificación
P R S
B E Frec. Absoluta
20 10 18 16
6 Frec. Relativa 0,286
0,143 0,257 0,229 0,086
Frec Acumul 20 30
48 64 70 Frec
Aculm.Relat. 0,286 0,429 0,686
0,914 1,000
1 2 3
4 5
Q1 0,286 gt 0,25 ? P Q2 0,686 gt 0,50 ?
S Q3 0,914 gt 0,75 ? B Q4
? E
30Variables Categóricas (Escala Nominal) Moda (
Medida del centro ) Tasa de Variación
( Medida de Dispersión )
Variables Cualitativas (Escala Ordinal) Moda,
Mediana Tasa de Variación, Índice de Dispersión
Variables Cuantitativas (Escala
Intervalar) Moda, Mediana, Media, Media
Truncada Tasa de Variación, Índice de
Dispersión, Varianza Rango, Rango
Inter-cuartílico (IQR), MEDA
? Medidas de homogeneidad
Señal de Ruido ? - log CV
ö
æ
2
S
S
ç
ç
2
X
X
ø
è
31Escala Intervalar
- Existen dos maneras de realizar los cálculos de
las madidas características de datos de escala
inervalar, con ... - Datos Agrupados cuando los datos disponibles se
presentan ya trabajados en tablas de
frecuencias y no se cuenta con los datos
originales. - Datos No agrupados cuando los datos se presentan
como materia en bruto
32Tendencia Central Promedio
Datos Agrupados
33Tendencia Central Moda
V Tasa de Variación 1 fM
34Tendencia Central Mediana
35Dispersión Varianza Muestral
Datos Agrupados
Datos NO Agrupados
36Dispersión Desviación Media
Datos Agrupados
Datos Agrupados
37Rango Inter-Cuartílico
RQ (Q3 Q1) / 2
xQ
38Dispersión Rango Percentil
RP (P90 P10)
39Gráficos de Cajas
- Representación visual para describir,
simultáneamente, varias características
importantes tales como - Centro
- Dispersión
- Desviación de la asimetría
- Identificación de las observaciones (valores
atípicos)
(rangQ3- rangQ1) / (K-1)
D Índice de Dispersión
40Gráficos de Cajas
- Comparaciones gráficas entre conjuntos de datos
70 80 90
100 110 120
1 2 3
41Características de forma Simetría
?1 0
?1 gt 0
?1 lt 0
Distribución, tiende a concentrarse en Valores
Altos de la Variable Mo gt MA gt Me
Distribución, es simétrica respecto a la Media Mo
MA Me
Distribución, tiende a concentrarse en Valores
Bajos de la Variable Mo lt MA lt Me
42Características de forma Achatamiento
?2 lt 0
?2 0
?2 gt 0
Distribución tiende a concentrarse alrededor de
la Media. Variancia Pequeña Aguzada
Distribución tiende a dispersarse Variancia
grande Achatada.
Distribución Normal
43Ejercicio Se desea determinar las
características de resistencia a la ruptura bajo
cargas de tensión del concreto ofrecido por
cierto proveedor. Para ello se les solicita 125
probetas de 0,5 pies de diámetro por 1 pie de
longuitud. La carga de tensión se mide en
lb/pug2. El laboratorio de resitencia de
materiales proporciona la tabla de
frecuencias Clase Límites Marca
Frecuencia Frecuencia Frecuencia
Frecuencia de Clase
de Clase Absoluta Abs. Acuml.
Relativa Relat. Acuml. 1
407,5- 412,5 410 4 4
0,032 0,032 2 412,5- 417,5
415 5 9 0,040 0,072 3 417,5- 422,5
420 8 17 0,064 0,136 4 422,5- 427,5
425 14 31 0,112 0,248 5 427,5- 432,5
430 13 44 0,104 0,352 6 432,5- 437,5
435 19 63 0,152 0,504 7 437,5- 442,5
440 20 83 0,160 0,664 8 442,5- 447,5
445 15 98 0,120 0,784 9 447,5- 452,5
450 12 110 0,096 0,880 10 452,5- 457,5 455
6 116 0,048 0,929 11 457,5- 462,5 460 7 123
0,056 0,984 12 462,5- 467,5 465 2 125
0,016 1,000 Determine Todas las medidas de
localización, escala, simetria y forma
44Análisis de una muestra estratificada
E1
E2
n1
V1
n2
V2
Em
nm
Vm
m- estratos
Supongamos que la variable admite una
clasificación en k-clases, representadas por X1,
X2,.....Xk.
45Análisis de una muestra estratificada
nih Cantidad de individuos de la submuestra del
estrato h que pertenece a Ci.
46Análisis de una muestra estratificada
Entonces
47Ejemplo
Se tiene 3 criaderos de aves. En el criadero (1)
se ponen 50 pollos recién nacidos en el (2) 200
pollos y en el (3) 100 pollos. Al cabo de un
cierto tiempo se pesan los 350 pollos,
encontrándose que algunos están muertos y los
vivos pesan entre 1,00 kg. y 2,50 kg. Para
los efectos del registro los pollos muertos se
supondrán de peso cero, y el cero actuará como
centro del supuesto intervalo. Los otros
intervalos serán ?1,00 1,50? ?1,50
2,00? ?2,00 2,50?.
Calcular
Centros 0 1,25 1,75 2,25
Frecuencias Absolutas (1) (2) (3) 5
10 10 10 20 30 30 150
50 5 20 10
Note que existen 3 estratos y 4 clases
48Análisis Muestra Estratificada
Frecuencia Relativa
Histograma Apilado por Peso
49Análisis Muestra Estratificada
Frecuencia Relativa
Histograma por Estrato y por Peso
0,5
0,4
0,3
0,2
0,1
Peso
0
0
1,25
1,75
2,25
1,00
1,50
2,00
2,50
50Ejemplo
Estrato (1) P11/7 Xi fi1 fi1X1 Xi-X1 (
)2 fi1( )2 0 0,1 0 -1,525 2,325 0,2325 1,25 0,2
0,250 -0,275 0,0756 0,0151 1,75 0,6 1,050 0,225 0,
0501 0,0304 2,25 0,1 0,225 0,725 0,525 0,0525
X11,525 V10,331
Estrato (2) P24/7 fi2 fi2X1 Xi-X2 ( )2 fi2(
)2 0,05 0 -1,662 2,76 0,138 0,10 0,125 -0,412 0,
17 0,017 0,75 1,312 0,088 0, 01 0,007 0,1 0,225 0,
588 0,34 0,034
X21,662 V20,196
51Estrato (3) P32/7 fi3 fi3X1 Xi-X3 ( )2 fi3(
)2 0,10 0 -1,475 2,17 0,217 0,30 0,375 -0,225 0,
05 0,015 0,50 0,875 0,275 0, 08 0,040 0,20 0,225 0
,775 0,60 0,060
X31,475 V30,0332
Estratos Ph Media Varianza PhXh PhVh
Xh-X (X-Xh)2 Ph( )2 Xh Vh (1)
1/7 1,525 0,331 0,218 0,047 -0,064
0,004 0,00057 (2) 4/7 1,662
0,196 0,949 0,112 0,033 0,001
0,00057 (3) 2/7 1,475 0,332 0,422
0,095 -0,114 0,013 0,00557
1,589 0,254 0,0067
52(No Transcript)
53Resultados
- Se ha obtenido, entonces
- Media Total X 1,589
- Varianza promedio dentro de los estratos
- Vintra 0,254
- Varianza entre estratos
- Vinter 0,0067
- Varianza Total
- VT 0,2607
54Estadística Bivariada
- Supongamos que se toma una muestra de tamaño n de
una población y que se está investigando, o se
desea estudiar, dos características de la misma. - Sean estas características X e Y. Siguiendo los
procedimientos habituales, la Muestra se divide
en - r clases Ai para la variable X
- s clases Bj para la variables Y
- Existirán elementos que pertenecerán
simultánea-mente a AiBj. Los datos los podemos
ordenar en una tabla o matriz llamada Tabla de
Contingencia
55Tabla de Contingencia
Y B1 B2 ..... Bj ..... Bs Total
A1 n11 n12 ..... n1j ..... n1s n1?
A2 n21 n22 ..... n2j ..... n2s n2?
Ai ni1 ni2 ..... nij ..... nis ni?
Ar nr1 nr2 ..... nrj ..... nrs nr? Total n?1 n?
2 ..... n?j ..... n?s n? ?
X
_
n? ? n
56Tabla de Contingencia
Y B1 B2 ..... Bj ..... Bs Total
A1 f11 f12 ..... f1j ..... f1s f1?
A2 f21 f22 ..... f2j ..... f2s f2?
Ai fi1 fi2 ..... fij ..... fis fi?
Ar fr1 fr2 ..... frj ..... frs fr? Total f?1 f?
2 ..... f?j ..... f?s f? ?
X
_
f? ? 1
57Estadística Bivariada
Notación fij frecuencia conjunta
fr(xi,yj) fi? frecuencia marginal
f? j frecuencia marginal
fi/j frecuencia condicional
58Tabla de Contingencia
nij
Frecuencia Absoluta de la clase conjunta AiBj.
(Valor observado en la celda (i,j) de la Tabla
de Contingencia)
nij
s
r
å
å
fij
Frecuencia Relativa conjunta de la clase
conjunta correspondiente a la intersección de Ai
y Bj.
f
1
?
n
ij
j
1
i
1
s
å
Frecuencia Absoluta de la clase Ai para i 1,
,2, ... ,r (Independiente de la clases Bj a la
que estén asociadas Suma de los valores de la
fila i-ésima )
n
n
ij
i
j
1
r
å
Frecuencia Absoluta de la clase Bj para j 1,
,2, ... ,s (Independiente de las clases Ai a la
que estén asociadas. Suma de los valores de la
columna j-ésima)
n
n
ij
j
i
1
59Tabla de Contingencia
Para frecuencias relativas , i 1,....,r se
tiene Además se verifica
que
(Suma de los valores de la fila i-ésima de la
tabla de contingencia de frecuencias)
60Frecuencia Marginal
Dado el experimento anterior, cuando sólo
interesa conocer la frecuencia de ocurrencia de
cada una de las variables por separado se habla
de Frecuencia Marginal de la variable
n
Frecuencia (relativa) marginal de la variable
X, Conjunto de valores pertenecientes a las
clases Ai, considerandolas independientemente de
las calses Bj
f
i
i
n
Frecuencia (relativa) marginal de la variable
Y, Conjunto de valores pertenecientes a las
clases Bj, considerandolas independientemente de
las calses Ai
j
f
j
61Tabla de Contingencia
Ejemplo
Una tela se clasifica en tres categorías A, B y C
según cantidad y severidad de pequeñas
imperfecciones. La empresa tiene 5 telares, en un
mes dado de producción se registraron los
siguientes datos. piezas
de tela en la clasificación Telar A B C
Marginal 1 185 16 12 213 2 190 24 21
235 3 170 35 16 221 4 158 22
7 187 5 185 22 15 222 Marginal
888 119
71 1078
62Independencia Estadística
Se dice que X es independiente de Y si las
frecuencias condicionales de X/Y son todas
iguales es decir, no dependen de la clase
condicionante, esto es
....
fi/1 fi/2 fi/3 fi/s fi
A
i 1, 2, 3, ... , r
....
n
fi
....
?
i
....
n
n
n
n
2
3
1
63Frecuencia Condicional
- Cuando se pregunta por la frecuencia relativa
de una de las varia-bles, digamos X, restrigida a
los elementos observados de una clase dada de la
otra esto es, estudiar el comportamiento de una
variable dado un valor fijo de la otra.
Frecuencia (relativa) de la variable X en la
clase conjunta AiBj, dado que sólo nos interesa
respecto a lo observado en la clase Bj de la
variable Y para i 1, 2, .., r
Constituye la distribución de frecuencia
relativa condicional de la variable X dada la
clase Bj de la variable Y. Nótese que se trabaja
condicionado sobre un tamaño de muestra
reducido al número de observaciones de la clase
Bj dada
f1/j, f2/j, f3/j, ... , fr/j
64Estadística Bivariada
Notación Análogamente, se tiene fj/i
frecuencia condicional
Independencia Estadística X e Y son variables
estadísticamente independientes ssi
ó ó
65Estadística Bivariada
Independencia Estadística como ?
Asociación de Variables Datos no agrupados
Cov(x,y) Datos agrupados Cov(x,y)
Coeficiente de Correlación r
Cov (x,y) Sx Sy
66Ejercicio
Fallas Anuales
Temperatura 120 140 160 Marginal Averías
2 20 15 10 45 3 12 7 5
24 4 4 10 2 16 5 -
5 10 15 Marginal 36
37 27 100
Obtener Distribuciones marginales Distribuciones
condicionales (4 averías), Media y Varianza
condicional
67Ejercicio
Fallas Anuales
Temperatura 120 140 160 Marginal Averías
2 0,20 0,15 0,10 0,45
3 0,12 0,07 0,05 0,24
4 0,04 0,10 0,02 0,16 5 0 0,05 0,10
0,15 Marginal 0,36 0,37
0,27 1,00
fj/4 2/8 5/8 1/8 Xj/4 137,5
Vj/4 2/8(120-137,5)2 5/8(140-137,5)2
1//8(160-137,5)2
68 Curvas de Regresión
69Curvas de regresión (Lineal)
x , y son variables independiente y dependiente
respectivamente. Además ? una variable
estadística que representa el error. Los
parámetros ?0 y ?1 pueden ser estimados a partir
de los datos (xi , yi)i1,...,n mediante método
de mínimos cuadrados. Entonces
Sea
70Modelo Estadístico (Lineal)
y
?
x
x variable independiente y y variable
dependiente ? una variable estadística que
representa el error.
71Modelo Estadístico (Lineal)
y
b0
x
72Modelo Estadístico (Lineal)
ei
y
x
Los parámetros ?0 y ?1 pueden ser estimados a
partir de los datos (xi , yi)i1,...,n mediante
método de mínimos cuadrados. Esto es, minimizar
el error cuadrático medio ? min S ei2
73(No Transcript)
74Ejemplo Curvas de Regresión
75Modelo Estadístico Ejemplo
76Ejemplo
77Ejemplo Curvas de Regresión
t 0 1 2 3 4 5 6
V(t) 30 60 46 32 10 4 17 20 40 26 14 8 20 12
V(t) 25 40 46 29 12 6 17
Sea xt sen t yt V(t) Luego y(t) ?0 ?1
xt ?t
78 de Ajuste del Modelo
79Ajuste Lineal
80Ajuste Logarítmico
81Ajuste Polinomial
82Modelo Logístico
83Modelo de Richard
84Asociación Exponencial
85Transformaciones
Sea yi h ( xi ) con i 1,...,n 1.
Lineales yi axi b y ax b Sy
?a? Sx 2. No lineales yi h( xi ) y
h(x) h(x) SX2 Sy2? Sx2 ? h (x)?2 En
particular h(x) ln x y ln x - (
Sx2 / x2 ) Sy2 ? ( Sx2 / x2 ) CV 2
86Relaciones Linealizables
1. y K x? ln y a0 a1 ln x 2. y K ? ( ?
/ x ) y a0 ? a1 x-1 3. y K e?x ln y a0
a1 x 4. y K e-?/x ln y a0 a1 x-1 5. yt
K ? cos t y a0 a1 xt siendo xt cos
t 6. y(?) y? - 1 a0 a1 x y?-1 dy
a1 w dy dx dx ln w ln
a1 ( 1 - ? ) ln y
87Transformaciones
3. Box-Cox Transformaciones (1964) h (x)
X(?)
( x m )? - 1 ? ? 0 x gt -m
?
ln ( x m ) ? 0 m gt 0
88Transformaciones