Title: Estad
1Estadísticamultivariada
- Programa de doctorado Calidad de vida,
Bienestar Social y Salud Pública
2Notas previas Leyendo modelos estadísticos
- Altura 170
- La altura media en la población es de 170 cm
- Cada individuo introduce además un término de
error aleatorio - 170 5
- 170 3
-
- Los términos de error tienen algún tipo de
distribución conocida - Normal,
- Igualmente distribuidos en grupos
- Independientes
- Incorrelados temporalmente,
3Modelos con variables dicotómicas
Código 0 Grupo de control, caso base
Código 1 Grupo de tratamiento,
- Altura 160 10 Sexo
- Codificación de los grupos por sexo
- 0 mujeres
- 1 hombres
- Interpretación
- La altura media en las mujeres es de 160 cm
- La altura media en los hombres es de 170 cm
- El sexo influye en la altura. El sexo hombre
tiene un efecto no nulo de 10 cm sobre la altura
media.
Promedio delcaso base
Efecto de sexo 1
160 0
160 10
4Modelos con variables numéricas
- Precio casa 100.000 10.000 Habitación
- Interpretación
- El precio de una casa con cero habitaciones es
100.000 - Extraño!
- En realidad es mejor interpretarlo como lo que
habría que añadir a una casa con un numero medio
de habitaciones para que tuviese un precio medio. - Las casas aumentan de precio en función del
número de habitaciones. - El efecto de añadir una habitación es aumentar el
precio de la casa en 10.000.
Intercepción, Intersección,
Pendiente.Aumento de valor de una casa por cada
habitación.
5Modelos con variables dicotómicas y numéricas
- Precio casa 100.000 10.000 Habitación
30.000 Barrio - Codificación del barrio
- 0 Bajo
- 1 Alto
6 y con variables cualitativas en general
- Precio casa 100.000 10.000 Habitación
10.000 Barrio1 20.000 Barrio2 - Codificación del barrio
Variables indicadoras, mudasNos ayudarán a
comprender mejorlos efectos, interacciones,
Barrio1 Barrio2
Bajo 0 0
Medio 1 0
Alto 0 1
Grupo de control
Tratamiento 1
Tratamiento 2
Variable cualitativa inicial
7 esperad, aún hay más
- Precio casa
- 100.000 10.000 Habitación
- 10.000 Barrio1 20.000 Barrio2
- 6.000 Aparcamiento
- Codificación del aparcamiento
- 0 Sin aparcamiento
- 1 Con aparcamiento
8 y faltan las interacciones.
- Precio casa
- 100.000 10.000 Habitación
- 10.000 Barrio1 20.000 Barrio2
- 6.000 Aparcamiento
- 2.000 Aparcamiento Barrio1
- 4.000 Aparcamiento Barrio2
9El modelo no debe quedarse corto ni pasarse
- Un modelo muy simple no explicará bien la
variabilidad presente en los datos. - Precio 100.000
- Un modelo muy complicado será difícil de
comprender. - Además podemos encontrarnos sorpresas
correlaciones entre variables explicativas (falta
de ortogonalidad), inestabilidad numérica, - Precio 100.000 10.000 Hab 30.000 Barrio
6.000 Aparcamiento
10Complicar el modelo lo justito
- Elegir modelo que explique lo observado y que sea
tan simple como sea posible. - Precio 100.000
- Bondad de ajuste corregida 1. Significación
0,0001 - Muy simple. No explica la variabilidad.
Compliquémoslo. - Precio 100.000 10.000 Hab.
- Bondad de ajuste corregida 10. Significación
0,01 - Mejor. Pero hay mucha variabilidad por explicar.
Compliquémoslo. - Precio 100.000 10.000 Hab 30.000 Barrio
- Bondad de ajuste corregida 41. Significación
0,12 - Tal vez no valga la pena complicarlo más.
- Precio 100.000 10.000 Hab 30.000 Barrio
6.000 Aparcamiento - Bondad de ajuste corregida 40. Significación
0,15 - No ha merecido la pena la complicación.
OJO! SPSS sólo enseñadirectamente
lasignificación del modelo mínimofrente al que
nosotrospropongamos. Raroserá que no
seasignificativo un modelotan simple. Un
cálculo manual nospermitirá comparar
unosmodelos con otros.
11Dos técnicas para abordar problemas multivariados
- En función del tipo de la variable respuesta
vamos a considerar dos técnicas que son casos
particulares del modelo lineal generalizado. Este
abarca buena parte de las técnicas estadísticas
que se aplican en Medicina - Modelo lineal generalizado
- Respuesta numérica (Regresión lineal)
- T-student en 2 muestras
- ANOVA de 1 vía
- ANOVA de 2 vias con/sin interaccciones
- Modelos factoriales
- Respuesta dicotómica (Regresión Logística)
- Vivo/Muerto
- Enfermo/Sano
12Marco general
- Tenemos una serie de variables explicativas,
X1,,Xp - Numéricas
- Ordinales
- Dicotómicas
- Cualitativas codificadas en forma de múltiples
dicotómicas - Interacciones,
- Tenemos una sola variable explicada (univariante)
- Numérica Modelo lineal de regresión
- Y b0 S bi xi
- Dicotómica Regresión logística
- Ln (Odds) b0 S bi xi
131
0
14Un contraste de igualdad de medias (t-student)
- Hipótesis nula
- Es el salario medio inicial igual para hombres y
mujeres - Salario b0
- Hipótesis alternativa
- El Género tiene un efecto no nulo sobre el
salario - Salario b0 b1 Genero
- Este problema puede formularse en términos de un
análisis de regresión - Salario b0 b1 Genero
La hipótesis nula afirma quees cero. Si signif.
pequeña la rechazamos.
Valor medio del grupo controlGENERO0 (mujer)
Efecto del tratamientoGENERO1 (hombre)
15Se rechaza elmodelo simple
Salario promedio del grupo control (mujeres)
Se rechaza elmodelo simple
Efecto del genero 1 en el salario medio
16Sin embargo el modelo alternativo no es bueno
Los modelos con muchos parámetros tienden a
exagerarla bondad del modelo. Corrección de
honestidad sobre la bondad. Si al introducir
variables vemos que no aumenta o que baja,
deberíamos reconsiderar la complejidad del
modelo.
Sólo un 21 de la variabilidad presente Puede ser
explicada por un modelo que contenga Al género
como variable explicativa. Debe haber más razones
para esa variabilidad
17Y si consideramos el nivel de estudios?
- Hipótesis nula
- Es el salario medio inicial igual para hombres y
mujeres y para cualquier nivel de estudios - Increíblemente simple!
- Salario b0
- Hipótesis alternativa
- El Género y los años de estudios tienen un efecto
no nulo sobre el salario - Salario b0 b1 Genero b2 Estudios
18Por supuesto, seguimos teniendoevidencia contra
la hipótesis nula (modelo simple)Desde ahora lo
ignoramos.
La nueva variable aumenta notablemente la
variabilidad explicada.Podremos mejorarlo
introduciendo otra variable?
Aparentemente estas variables tienen algo que
decir, pero habrá variables confusoras?
19Y si añadimos la categoría laboral?
- Hipótesis nula
- Es el salario medio inicial igual para hombres y
mujeres y para cualquier nivel de estudios y
categoría laboral - No me lo puedo creer!
- Salario b0
- Hipótesis alternativa
- El Género, los años de estudios y la categoría
laboral directivo tienen un efecto no nulo sobre
el salario - Salario b0 b1 Genero b2 Estudios b3 SEGUR
b4 DIRECT
SEGUR DIRECT.
Admin 0 0
Seguridad 1 0
Directivo 0 1
20El nuevo modelo mejora claramente al anterior
pero parece que parte del modelo no era
necesario. El término que mide el efecto de ser
empleado de seguridad no tiene un efecto muy
diferente del caso base.
21Simplifiquemos el modelo
- Hipótesis nula
- Es el salario medio inicial igual para hombres y
mujeres y para cualquier nivel de estudios,
aunque sea directivo - Salario b0
- Hipótesis alternativa
- El Género, los años de estudios y ser directivo
tienen un efecto no nulo sobre el salario - Salario b0 b1 Genero b2 Estudios b3 SEGUR
b4 DIRECT
El modelo es más simple, pero no disminuye La
variabilidad explicada Lo preferimos así!
22Habrá interacciones?
- Hipótesis nula
- Es el salario medio inicial igual para hombres y
mujeres y para cualquier nivel de estudios,
aunque sea directivo - Salario b0
- Hipótesis alternativa
- El género, los años de estudios y ser directivo
tienen un efecto no nulo sobre el salario, y
también tiene un premio especial ser hombre
directivo (interacción). - Salario b0 b1 Genero b2 Estudios b3
DIRECT b4 GeneroDIRECT
Coeficiente de la interacción Si positivo
sinérgias Si negativo efectos antagónicos Si
nulo No hay interacción
En SPSS podemos introducir interacciones con otro
modelo. Para seguir con el modelo de regresión
introducimos otra variable.
23(No Transcript)
24Sube ligeramente la variabilidad explicada. Vale
la pena considerarlael efecto de la interacción?
Tenemos evidenciaen contra de que ninguno de
los coeficientes es nulo. Deberíamos considerar
más variables? Más interacciones?
25Marco general (recordatorio)
- Tenemos una serie de variables explicativas,
X1,,Xp - Numéricas
- Ordinales
- Dicotómicas
- Cualitativas codificadas en forma de múltiples
dicotómicas - Interacciones,
- Tenemos una sola variable explicada (univariante)
- Numérica Modelo lineal de regresión
- Y b0 S bi xi
- Dicotómica Regresión logística
- Ln (Odds) b0 S bi xi
26Regresión Logística
- La variable respuesta (explicada) es dicotómica)
- Vivo/Muerto
- Sano/Enfermo
-
- Claramente el modelo lineal tal cual no es
adecuado. - En epidemiología es frecuente usar modelos
multiplicativos en lugar de aditivos - Fumar multiplica por 10 las odds de enfermedad.
- Usar el casco disminuye por 20 la odds de
lesión grave. -
27- Es decir, preferimos un modelo del tipo
- Odds(fumar,beber,..) Odds(base) OR(fumar)
OR(beber)
28Fumadores Odds1/12 44/12
Factor Riesgo Fumar Odds Ratio 4
Los individuos de control Ni fuman ni
beben Odds1/12
Factor Riesgo Beber Odds Ratio 3
Bebedores Odds1/12 33/12
Fumadores bebedores Odds1/12 4 312/12
Factor Riesgo Fumar y Beber Odds Ratio 3412
29- El modelo de regresion logística es equivalente
a
Variación de oddsdebido a x2 Odds Ratio
Variación de oddsdebido a x1 Odds Ratio
Odds caso base
30Caso simple Una variable explicativa dicotómica
- X10 No está presente el factor de riesgo
- X11 Sí hay factor de riesgo
Odds del caso base
Odds Ratio De X1
Odds del caso base
31- Si b1 es el coeficiente de la variable x1
- Si b10 entonces OR1
- No es realmente un factor de riesgo
- Si b1gt0 entoces ORgt1
- Aumenta el riesgo
- Si b1lt0 entonces ORlt1
- Disminuye el riesgo
32Un ejemplo Condenas a pena de muerte en Florida
- Variables explicativas
- Raza de la víctima
- 1Blanco (factor de riesgo, con perdón)
- Raza del acusado
- 1Negro (intuitivamente, factor de riesgo,
glubs!) - Variable explicada
- 1Condena a pena de muerte
33Será la raza negra del acusado un factor de
riesgo?
En principio un simple estudio descriptivo parece
modtrar que no.Incluso parece que reduce el
riesgo.
34Será la raza negra del acusado un factor de
riesgo?
- Veamos que dice el modelo de regresión logística
35Será la raza negra del acusado un factor de
riesgo?
La prueba es no significativa
El intervalo de confianza para OddsRatio
incluye al valor1 No tenemos evidenciaen contra
de que laraza no sea factorde riesgo.
El coeficiente es negativo.Más bien debe reducir
el riesgo ser Acusado de raza negra. Para
encontrar la Odds Ratio hay que mirar la columna
Exp(B)
Odds Ratio
36Y si incluimos en el modelo la raza de la
víctima?
Aparentemente, al tener en cuenta la raza de la
víctima, parece ser que si la víctima es blanca,
la probabilidad de ser condenado a muerte es
mayor. Veamos que dice el modelo logístico.
37(No Transcript)
38Odds Ratios de cada factor de riesgo
Con la confianza habitual 1 no forma parte de
ningún intervalo de confianza.
Ambos coeficientes son positivos.Parecen ser
factores de riesgo.
Significativos