Title: Estad
1Estadística Descriptiva para variables continuas
2Tópicos a tratar
- Repaso clase anterior
- Identificación de variables continuas
- Medidas de tendencia central y dispersión
- Presentaciones gráficas
- Estimación puntual e intervalos de confianza
- Manejo de valores fuera de rango
3Que buscamos?Obtener un sabor de los datos
continuos
- Estimar algunos parametros de la poblacion, en
forma puntual y por intervalos - Aprender de los datos continuos a través de una
visualización gráfica - Examinar la calidad de los datos
4Clasificación general
Categórica
Cuantitativa o numérica
Nominal
Ordinal
Discreta
Continua
5Ejemplos
- Nominales Sexo, estado civil, presencia de
morbilidad, resultado del tratamiento - Ordinales Severidad de morbilidad, riesgo
quirúrgico, resistencia a antibioticos - Discretas Cociente intelectual, tiempo de
tratamiento u hospitalización - Contínuas concentración de alcohol en la sangre
6Comandos usados en STATA para identificar el tipo
de variable
7(No Transcript)
8(No Transcript)
9(No Transcript)
10ATENCION !
- STATA puede identificar un tipo de variable de
manera erronea ! - Debemos apoyarnos en la ciencia, en nuestro
conocimiento previo de la variable con que
estamos trabajando.
11(No Transcript)
12Distribución de frecuencias
- Una lista exhaustiva y mutuamente excluyente de
categorias (cualitativas o cuantitativas) con una
tabulación (en valores absolutos o porcentajes)
de cuántas observaciones en los datos se
encuentran en cada categoría.
13De variables continuas a variables
categóricas MIRKO, usa tabulate con generate
aqui para representar esto
Ojo que se les ha indicado que esto se usa mas
para covariables que para sus outcomes
14Representación gráfica de una tabulación bivariada
15Comando histogram
16Estadísticas de resumen
- El conjunto de agregados numéricos de una
distribución de frecuencias las que resumen una
característica específica de un conjunto de datos.
17Medidas de tendencia central
- Promedio o media aritmética. Mas sensible a
valores extremos - Mediana o percentil 50 Valor que divide una
distribución ordenada por la mitad - Moda Valor mas frecuente. Es mas usada para
variables categóricas
18Medidas de dispersión
- Rango
- Intervalo intercuartil (diferencia entre los
percentiles 25 y 75) - Desviación estándar en que monto promedio se
desvían los valores observados de la media - Varianza media de las desviaciones (DE) elevada
al cuadrado (?)
19Comandos usados en STATA para obtener
estadísticas de resumen
- codebook (variables numéricas)
- tabulate
20Estimación puntual e intervalos de confianza
- Los parámetros de una población tienen un valor
fijo, (es un número exacto) - Usualmente estos parámetros no se conocen, por
que es complicado medir a toda la población - Ante esto, los parámetros se estiman a partir
de una muestra de la población. - La estimación puede ser puntual o en un
intervalo de confianza
21Efectos del muestreo en la estimación de un
parámetro
22Es mejor estimar el intervalo de confianza de un
parámetro antes que su estimación puntual
- El intervalo de confianza es una variable
aleatoria - El 95 Intervalo de Confianza, es un intervalo
que tiene un 95 de probabilidad de cubrir el
verdadero valor del parámetro estimado
23Intervalos de confianza de variables normales
Std.Err. Std.Dev / sqrt(N)
24Ci varlist, level( )
25Exploración gráfica
- Una manera visual y muy intuitiva de tener una
imagen clara de los datos. - Método muy usado para presentar resultados.
- Un solo gráfico puede contener una densidad muy
alta de información - Sujeta a interpretaciones subjetivas y problemas
de ilusión
26(No Transcript)
27Representación gráfica de una tabulación bivariada
28 Comparando Desviaciones Estandard
Data A
Mean 15.5 s 3.338
11 12 13 14 15 16 17 18
19 20 21
Data B
Mean 15.5 s .9258
11 12 13 14 15 16 17 18
19 20 21
Data C
Mean 15.5 s 4.57
11 12 13 14 15 16 17 18
19 20 21
29Dos bases de datos hipotéticas Es importante
tener una imagen visual de la distribución de la
variable
Datos de baja variabilidad
La media provee una buena representación de los
valores en la base de datos.
Al incrementar datos la distribución cambia..
Datos con alta variabilidad
La media ya NO provee ahora una buena
información de los datos como sucedía
anterioremente
30Perfil de la distribución
- Describe cómo los Datos están Distribuídos
- Caracterización del perfil de la
distribución - Simétrica o sesgada
31Perfil de la distribución
- Describe cómo los Datos están Distribuídos
- Caracterización del perfil de la
distribución - Simétrica o sesgada
Simétrica
Media
Mediana
Moda
32Perfil de la distribución
- Describe cómo los Datos están Distribuídos
- Caracterización del perfil de la
distribución - Simétrica o sesgada
Sesgada izquierda
Simétrica
Mean
Median
Mode
Mean
Median
Mode
33Perfil de la distribución
- Describe cómo los Datos están Distribuídos
- Caracterización del perfil de la
distribución - Simétrica o sesgada
Sesgada derecha
Sesgada izquierda
Simétrica
Media
Mediana
Moda
Media
Mediana
Moda
Moda
Mediana
Media
34El comando histogram en STATA
35Histogram inf_edad, bin(12) kdensity
36Box Plot (Gráfico de cajas)
- Se muestra gráficamente los datos
utilizando 5 números (estadísticas de resumen)
Mediana
Q
Q
X
X
Mínimo
3
1
Máximo
12
4
6
8
10
37Relación entre el perfil de la distribución y el
Box Plot
Sesgada derecha
Sesgada izquierda
Simétrica
Q
Mediana
Q
Q
Mediana
Q
Q
Mediana
Q
1
3
1
3
3
1
38El comando Graph en STATA
39graph box inf_edad
40Box plot
41Los gráficos box-plot permiten realizar
comparaciones
42Gráficos tallo y hoja comando stem de STATA
43(No Transcript)
44Scatter-plots y Ejemplos de Relaciones
No-lineales
45Ejemplos en Stata!
46Representación gráfica y problemas éticos
Last year, 25 percent of our sales dollar was
profits. Depending on whether we present it to
our stockholders or the unions, we dont want to
give it the same emphasis.
.
Thats easy. For our stockholders, well show it
in our annual report as a coin in perspective and
take the 25 percent profits from the front
Whereas for the union, well show it from the
back where it wont look anywhere as impressive.
47Representación gráfica y potenciales abusos
Labor Costs
Oops, we certainly dont want to advertise that
sharp increase in administrative costs, it may
raise questions by our stockholders.
Administrative Costs
Administrative Costs
No sweat. Well switch the two components
around. This way, by placing the administrative
costs at the top, it doesnt look so damning. As
a matter of fact, it looks like its going down.
Labor Costs
48Representación gráfica y potenciales abusos
100
Now, if you could only show this declining sales
picture as going up, all my problems would be
solved.
75
50
25
0
87
88
89
90
91
92
100
Sure thing no problem. A bit of perspective
here, a bit of fore-shortening there, and now the
line looks like its going up.
75
50
25
0
87
88
89
90
91
92
49Manejo de datos fuera de rango (outliers)
- Los Outliers son valores que se consideran No
Pertenecen al conjunto de datos. - Razones para darse
- 1. Errores de medición
- 2. Resultados atípicos
- La recomendación es corregir los errores (si es
posible) y remover las observaciones atípicas. - PERO! Y si así es la ciencia ?! Mejor hacer doble
análisis con y sin outliers
50(No Transcript)
51(No Transcript)
52Análisis de OUTLIERS
- Datos Simétricos
- Valores que se exceden en 3 DS de la media
outlier region
outlier region
-3s
3s
53Análisis de OUTLIERS
- Datos sesgados
- Valores que se exceden de 3 rangos intercuartiles
por debajo del primer cuartil Q1 o por encima del
tercer cuartil (Q3) (percentiles 25 y 75
respectivamente)
Sesgada izquierda
Sesgada Positiva
outlier region
outlier region
Q1
Q3
Q1
Q3
Q1 3(Q3 Q1)
Q3 3(Q3 Q1)