Title: LABORATORIO DE ESTAD
1LABORATORIO DE ESTADÍSTICASesión 4
- Contingencia, Anova y correlación
2EXPERIENCIA 1
- Estudio de una tabla de contingencia
3En qué se parecen estas interrogantes?
- Depende de la carrera estudiada el nivel de
ingreso percibido por los profesionales? - Depende del colegio de egreso el puntaje
obtenido en la PSU? - Depende del sexo la marca de cigarrillo escogida?
4- Las preguntas involucran
- Una variable
- 2 variables
- Más de dos variables
- Para seleccionar su repuesta identifique las
variables y la o las poblaciones estudiadas.
5RESPUESTA INCORRECTA
- Hay dos variables en cada problema
- Depende de la carrera estudiada el nivel de
ingreso percibido por los profesionales? - El ingreso y la carrera profesional
- Depende del colegio de egreso el puntaje
obtenido en la prueba de aptitud? - El puntaje de la PSU y el colegio
- Depende del sexo la marca de cigarrillo
escogida? - La marca de cigarrillo y el sexo
6La pregunta que se quiere contestar en cada caso
es
- Las variables siguen una distribución normal?
- La muestra es representativa de la población?
- Las variables son independientes ó dependientes?
- Para seleccionar su repuesta identifique el tipo
y el número de variables de interés.
7RESPUESTA INCORRECTA
- Se busca saber si hay o hay una relación entre
las dos variables en cada problema - Depende de la carrera estudiada el nivel de
ingreso percibido por los profesionales? - El ingreso depende de la carrera profesional?
- Depende del colegio de egreso el puntaje
obtenido en la prueba de aptitud? - El puntaje de la PSU depende del colegio donde
se estudio? - Depende del sexo la marca de cigarrillo
escogida? - Los hombres o las mujeres tienen una preferencia
para una marca de cigarrillo?
8- Una empresa que realiza estudios de mercado
decide realizar un estudio que le permitirá
decidir el nombre de marca a unos nuevos
cigarrillos que serán comercializados. - En la encuesta realizada sobre una muestra
aleatoria se pide a los encuestados que clasifica
cada uno de los 5 nombres - Alezan Corsario Fontenoy Icaro y Zodiaco.
- con una de las 8 categorías
- Cuico Sobrio Ridículo Con clase Distinguido
Vulgar Masculino Femenino.
9Pregunta a responder en esta experiencia
- Depende del nombre propuesto a la nueva marca de
cigarrillos la característica asociada por los
posibles consumidores?
10Tabla de Contingencia
- Aquí tenemos dos variables X e Y nominales.
-
- Construiremos la tabla de contingencia
- asociada a los datos muestrales, que es la
distribución conjunta de frecuencias absolutas - no acumuladas
11Tabla de datos muestrales
Tabla 1
- 2 variables nominales
- X p categorías (A1,A2,...,Ap)
- Y q categorías (B1,B2,...,Bq)
- Las respuestas (Xk,Yk) del encuestado k son del
tipo (Ai ,Bj )
Encuestado X Y
1 A3 B5
2 A1 B4
... ... ...
... ... ...
n A2 B1
12Tabla de contingencia
p Categorías p Categorías p Categorías p Categorías p Categorías p Categorías p Categorías p Categorías p Categorías p Categorías p Categorías p Categorías p Categorías p Categorías p Categorías
q Categor Í a s A1 A2 . . . Aj . . . . . Ap Total
q Categor Í a s B1 M11 M12 M1.
q Categor Í a s B2 M2.
q Categor Í a s . . Mij
q Categor Í a s Bi
q Categor Í a s Bq Mq1 Mq.
q Categor Í a s Total M.1 n
- Mij CANTIDAD DE RESPUESTAS (Ai ,Bj)
13Qué sucede al pasar de la Tabla 1 de los datos a
la tabla de contingencia?
- Se pierde solamente la identificación de cada
encuestado - Se distorsiona la relación entre las dos
variables - Se supone un tipo de distribución sobre las dos
variables - Elige una de las 3 repuestas
14RESPUESTA INCORRECTA
- Se pierde solamente la identificación de cada
encuestado - En efecto como el número de alternativas de
repuestas de X o Y es finito podríamos
reconstruir la Tabla 1 a partir de la tabla de
contingencia. Lo que no podemos recuperar es el
nombre del encuestado para cada repuesta.
15La tabla de contingencia permite estimar la
distribución de probabilidad de
- XY
- X
- (X,Y)
- Elige una de las 3 repuestas
16RESPUESTA INCORRECTA
- La repuesta es
- La distribución conjunta de (X,Y)
- En efecto las proporciones Mij/n, que son las
frecuencias relativas de encuestados que
contestaron (Ai, Bj), estiman las probabilidades
de la distribución conjunta
17Cómo podemos concluir sobre la independencia de
X e Y a partir de las frecuencias observadas Mij?
- Si X e Y son independientes, las probabilidades
Pij cumplen - 1
- 2 las probabilidades Pij son todas iguales
18RESPUESTA INCORRECTA
- La repuesta es
- En efecto la distribución conjunta es el producto
de las distribuciones marginales cuando hay
independencia
19- Tenemos entonces que estimar las
- probabilidades Pij bajo la hipótesis nula Ho de
independencia -
-
- con
20Cuantos parámetros se tienen que estimar para
obtener las probabilidades ?
- pq parámetros
- pq-2 parámetros
- pq parámetros
21RESPUESTA INCORRECTA
- La repuesta es
- pq-2 parámetros
- En efecto hay p parámetros para las categorías de
X, pero basta estimar P(XA1), P(XA2), ...,
P(XAp-1) y deducir la estimación de P(XAp) de
manera que las probabilidades suman 1. Es decir
son p-1 estimaciones y q-1 para la variable Y.
22TEST
- Consideramos las dos hipótesis
- H0 X e Y son independientes
- H1 X e Y tienen algún grado de dependencia
- El estadístico del Test es
23- Si Qo es el valor observado en la muestra, se
rechaza Ho si - 1
- 2
- 3
24RESPUESTA INCORRECTA
- La repuesta es
- 2
- En efecto si el valor Qo encontrado en la muestra
es muy improbable cuando X e Y son
independientes, podemos esperar que las variables
tengan algún tendencia a relacionarse.
25Comandos Statit
- Trabajaremos con el archivo "Cigarros.wrk, el
cual contiene la encuesta de mercado la cual
recolectó 698 opiniones. - Realiza el test de tabla de contingencia con
Statit - Statistics
- ?Enumerative Data
- ?Contingency Data
- ?Analyse of Independence
- ?Raw variable Percepcion
- ?Column variable Marca
- ?Layout of Table ? Display Column Percentage
26- Concluye si tenemos suficiente evidencia para
rechazar que la marca es independiente de la
percepción - Se rechaza la independencia
- Se acepta la independencia
27RESPUESTA INCORRECTA
- La repuesta es
- Se rechaza la independencia
- En efecto el p-valor se obtiene de la tabla
- Statistic DF
Value Prob - ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ
ÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄÄ - Chi-Square 28
394.706 0.000
28- Veamos ahora si podemos definir una relación
entre la marca y su percepción - Examine la tabla de contingencia, y
- responda la pregunta 1 del test
29EXPERIENCIA 2
30Búsqueda de una droga para controlar el pulso de
pacientes
- Ahora estamos interesados en comparar
tratamientos para bajar el pulso - Se mide el pulso de pacientes después del
tratamiento A, B o C
31Procedimientos
- Se calcularán algunos estadísticos para comparar
las distribuciones del pulso de los 3
tratamientos - Las medias y varianzas por grupo
- Se graficará un Box plot para comparar las
distribuciones del pulso de los 3 tratamientos
32Comandos Statit
- Abra el archivo pulso1.wkr
- Statistics?Descriptive tools
- ?Multi-way Univariate Statistics
- ?Analysis Variable pulso
- ?Class Variable Tratamiento
- ?Statistics ? Mean y ? Standard Desviation
- ?Layout of Table ? Display a summary table...
33Comandos Statit
- Para la realizacion del gráfico
- En Statit con el archivo pulso1.wkr
- Graphics?Distribution Plots
- ?Box Plot Variables pulso
DisplayBox By group - Group variable Tratamiento
- Examine los estadísticos y el gráfico. Responde a
la pregunta 2 del test
34- Para confirmar las conclusiones anteriores se
propone hacer un test para rechazar la hipótesis - Las varianzas del pulso en los 3 grupos son
iguales - Las medias del pulso en los 3 grupos son
- iguales
- La media del tratamiento C es el promedio de las
medias de los tratamientos A y B - Elige una de las 3 repuestas
35RESPUESTA INCORRECTA
- La repuesta es
- Las medias del pulso en los 3 grupos son
- iguales
- En efecto es lo primero que se pregunta. Después
se puede ver las otras preguntas.
36ANOVA
- Consideramos las dos hipótesis
- H0 µ1µ2µ3
- H1 las medias no son iguales
- Para probar una u otra hipótesis vamos a comparar
las varianzas de las medias con las varianzas de
los 3 grupos
37- Varianza para el tratamiento j
- Varianza promedio de los 3 grupos
- Varianza de las 3 medias
- Varianza Total
38Entonces, elige una de las 3 repuestas
39RESPUESTA INCORRECTA
- La repuesta es
- (1) b0
- Además Twb
- Si q es el numero de grupos, el estadístico
- del test es
40- Para rechazar la hipótesis nula, se espera
- un estadístico F
- Grande
- Chico
41RESPUESTA INCORRECTA
- La repuesta es
- Grande
- Ya que si la hipótesis nula es cierta b0. Un
valor de F grande aleja de la hipótesis nula.
42Comandos Statit
- En Statit
- Statistics ?ANOVA
- ?OneWay
- ?Dependente Variable Pulso
- ?Classification Variable Tratamiento
- Examine los resultados y concluya sobre la
hipótesis nula de igualdad de la medias.
43LA RAZÓN DE CORRELACIÓN
- Utilizando el hecho que Tbw, se construye
- Un índice llamado razón de correlación
- ?2b/T
- Que vale 1 cuando w0
- 0 cuando b0
- Utilizando la tabla ANOVA calcule este índice y
responda el test
44EXPERIENCIA 3
- Coeficiente de correlación
45Se busca estudiar la relación entre el peso y la
talla de un grupo de niñas
- Queremos estudiar el efecto de la edad sobre la
relación entre el peso y la talla de las niñas
46- Si (xi, yi)i1,2,...,n son los pesos y tallas
de las niñas, el coeficiente de correlación
lineal se escribe - Si r1
- X e Y son independientes
- X e Y son linealmente dependientes
47RESPUESTA INCORRECTA
- La repuesta es
- X e Y son linealmente dependientes
- En efecto, utilizando la desigualdad de Schwarz,
se tiene r1 cuando se alcanza la igualdad, lo
que corresponde a la colinealidad de los n puntos - Además si r-1, se tiene colinealidad también
pero de signo negativo. Es decir que en este
caso, si X crece, Y decrece.
48- Con los datos Sempe1.wkr, calcule el
coeficiente de correlación entre el peso y la
talla - En Statit
- Statistics ?Regresion and Correlation
- ?Correlation coefficiente
- ?Variables Peso y Talla
- Observe el valor y el signo del Coeficiente de
correlación
49- El calculo anterior fue considerando todas las
edades juntas - Repetimos el calculo del coeficiente para una
edad dada por ejemplo 10 u otra - En Statit
- Statistics ?Regresion and Correlation
- ?Correlation coefficientes
- ?Variables Peso y Talla ?Local
selection edad10 - Responda el test