Title: ANALISIS DE REGRESION
1ANALISIS DE REGRESION
- MAESTRIA EN CIENCIAS MEDICAS
- Alumna
- Laura Laue Noguera
2SINERGISMO
- Interacción positiva en donde la combinación de
- los efectos de 2 ó más variables es mayor
que - los efectos separados de cada variable.
- Existen 2 modelos
- Modelo aditivo
- Modelo multiplicativo
3Modelo Aditivo
- Efectos medidos como suma de tasas.
- Si hay sinergismo
- Significativo para
- magnitud absoluta de un problema de salud
pública - riesgo individual
- - Riesgo en hombres 9.3 por 100,000
- - Riesgo en raza blanca 2.5 por 100,000
- - Sinergismo 9.3 2.5 11.8
4Modelo Multiplicativo
- Efectos medidos como multiplicación de razones.
- Tiene implicaciones etiológicas.
- No hay sinergismo.
- Riesgo en hombres 5.9
- Riesgo en raza blanca 2.3
- Sinergismo 5.9 x 2.3 13.6
5Pregunta
- La asociación entre uso de
anticonceptivos - orales e infarto del miocardio, es confundida por
- la edad?
- RO 1.7 IC 95 1.1 2.8 P 0.011
Anticonceptivos Orales Infarto al Miocardio Controles
SI 29 135
NO 205 1,607
6Respuesta
- La diferencia entre los hallazgos basados en
los datos - crudos y los estratificados por edad, son
evidencia - de que la edad es un confusor.
Anticonceptivos 25 29 a. IM C 30 34 a. IM C 35 39 a. IM C 40 44 a. IM C 45 49 a. IM C
SI 62 33 26 9 5
NO 224 390 330 362 301
Odds 7.2 8.9 1.5 3.7 3.9
7Pregunta
- La asociación anticonceptivos orales-infarto
- es modificada por la edad?
8Respuesta
- Si, la asociación es modificada por la edad dado
- que los odds son distintos en los
diferentes - grupos de edad.
- Variaciones de la muestra ???
- Prueba de heterogeneidad P 0.17
- No hay heterogeneidad significativa.
9Pregunta
- Puedes sugerir alguna prueba para obtener
- una razón de odds que anule la confusión
- por la edad?
10Respuesta
- Combinar los odds de estratos
específicos - para obtener un promedio 4 (2.4 6.7) que no
- se ve afectado por la confusión de la edad.
- Mantel Haenszel
11Estratificación
- La estratificación de variables
también se usa para controlar el efecto confusor. - Los datos pueden ser estratificados por 2 o más
variables.
12TIPOS DE REGRESION
- El entendimiento de los procesos multivariados
- es esencial para su uso inteligente.
- Existen 3 tipos
- Análisis de Regresión Lineal
- Análisis de Regresión Logística
- Análisis de Regresión del Riesgo Proporcional
13ANALISIS MULTIVARIADOS
- Evalúa un set de variables en relación con una
- variable dependiente, utilizando un modelo
- matemático (aditivo o multiplicativo) que
- representa el proceso en estudio.
- Tiene 2 propósitos
- Evaluar la fuerza y significancia de la relación
entre un set de variables y la variable
dependiente - Hacer predicciones de riesgo
14ECUACION DE REGRESION
- Y a b1X1 b2X2 bkXk
- X1 primer variable independiente
- b1 primer coeficiente de regresión
- k número de variables independientes
15INTERPRETACION DE LA ECUACION
VARIABLE INDEPENDIENTE COEFICIENTE DE REGRESION
Intersección - 8.3748
Edad 0.1603
IMC 1.3710
Raza - 0.9151
Género - 10.2746
Los autores estudian la forma en que el género,
la edad y el grupo étnico afectan la relación
entre el IMC y el porcentaje de grasa corporal
(variable dependiente) .
16REGRESION MULTIPLE
- Método ideal para controlar diferencias basales
- y variables de confusión.
- Similar a la regresión simple pero con 2 o más
- variables independientes bajo estudio.
- Las variables dependientes e independientes
- deben ser numéricas.
- Las variables nominales deben ser convertidas
- mediante un código.
17REGRESIÓN LINEAL
Y variable . Y valor de predicción X
variable . X valor dado de X a punto
de . b .. de la línea e error
18REGRESION LINEAL MÚLTIPLE
- Método de elección cuando la pregunta de
- investigación predice el valor de una variable de
- respuesta.
- Y a b1X1 bkXk
- Y variable dependiente
- Y valor predicho
- X variable independiente
- a punto de intersección
- b coeficiente de regresión
19Regresión lineal múltiple
- Se basa en el modelo aditivo.
- La variable dependiente tiene escala métrica.
- Mide el cambio promedio en Y por unidad de
- cambio en X.
- Calcula Y.
20REGRESIÓN LOGÍSTICA MÚLTIPLE
- Modelo multiplicativo respecto al odds,
- aditivo respecto a log odds.
- Suma de logaritmos de números
- multiplicación de los números.
- Log odds de enfermedad a b1X1 .. bkXk
- Pr enf. 1/1 exp-(log odds de la
enf.)
21Regresión logística múltiple
- La variable de interés es dicotómica
- Los valores de X pueden ser categóricos o
métricos - Si la variable tiene más de 2 categorías una
- es la categoría de referencia y las otras
son variables fantasmas
22Regresión logística múltiple
- Cambio de odds de la enfermedad cuando hay un
cambio de una unidad en la variable
independiente - Calcula el log de odds y la probabilidad de la
enfermedad
23REGRESION DEL RIESGO PROPORCIONAL COX
- Modelo aditivo respecto al log del riesgo y
- multiplicativo respecto al riesgo.
- Relacionada con sobrevida.
- Utiliza datos evento-tiempo.
- Sobrevida se mantiene constante en el tiempo.
- Log riesgo log(a) b1X1 bkXk
- Pr sobrevida exp - explog (Ht) biXi
bkXk
24Regresión del riesgo proporcional
- Ht riesgo acumulado en función del tiempo
- Cambio en el riesgo de un evento cuando hay un
cambio de una unidad en la variable
independiente - Calcula el log del riesgo y la probabilidad de
sobrevida - Similar a Kaplan-Meier, excepto por el ajuste de
efecto de otras variables
25Regresión de riesgo proporcional
- Para evaluar la conveniencia del modelo
- Graficar
- Comparar las curvas log-menos-log
- La conveniencia del modelo es cuestionada
- si las curvas no son paralelas
26VALIDEZ DE MODELOS
- Probándolo en varias muestras
- Coeficiente de correlación múltiple al cuadrado
(R2) - Goodness-of-fit-test
- Razón de probabilidad de Chi cuadrada
27Análisis de regresión logísticaanticonceptivos
orales e infarto
Variable Coeficiente E E P Razón de odds (IC 95)
Anticonceptivos (0 no, 1 si) 1.188 0.206 0.032 3.28 (1.97 5.47)
Edad (años) 0.152 0.014 0.0011 1.16 (1.13 1.20)
1 24 cigarros (0 no, 1 si) 1.125 0.209 0.020 3.08 (2.04 4.64)
25 cigarros/día (0 no, 1 si) 2.137 0.208 0.0013 8.47 (5.64 12.74)
Constante - 9.283 0.629
28Pregunta
- Explique el resultado de 8.47 de la tabla.
- Sabes como se obtuvo?
29Respuesta
- 8.47 es el OR de las mujeres que fuman ? 25
- cigarrillos/día, comparado con las que
no - fuman, manteniendo constantes las otras
- variables.
- Se obtiene por el exponencial del coeficiente
- 2.137, e 2.137 8.47
30Pregunta
- Qué asociación con infarto es más fuerte,
- edad o anticonceptivos orales?
31Respuesta
- El coeficiente y OR para edad expresa el efecto
- de 1 año de diferencia en la edad, cuando las
- otras variables permanecen sin cambio.
- Para una diferencia de 20 años
- 0.152 X 20 3.04 (ln de 20.9)
- El valor P no es para medir fuerza de asociación.
32Pregunta
- Los resultados de la tabla señalan que
- la asociación anticonceptivos infarto es
- confundida por el tabaquismo?
- Qué información necesitas?
33Respuesta
- Para saber si la asociación anticonceptivos
- infarto está confundida por el tabaquismo,
- comparar los hallazgos con los de otro
- análisis en el que el tabaquismo no esté
- controlado o sea excluido.
34Pregunta
- Los resultados señalan que la
asociación - anticonceptivos-infarto está modificada por el
- tabaquismo?
- La tabla no dice nada sobre modificación de
- efecto.
35Pregunta
- Acorde a los resultados de la tabla, cuál es
el - OR a favor de infarto, cuando las mujeres usan
- anticonceptivos orales y fuman ? 25 cigarros al
- día, en relación con las que no fuman?
36Respuesta
- El modelo logístico múltiple es multiplicativo
- OR para uso de anticonceptivos 3.28
- OR para tabaquismo 8.47
- 3.28 X 8.47 27.8
37OR de la asociación anticonceptivos orales
infarto 3 modelos de regresión logística
Variables incluidas en el modelo Razón de odds
Anticonceptivos orales 1.68
Anticonceptivos orales y edad 3.81
Anticonceptivos, edad y tabaquismo 3.28
38Pregunta
- Qué procedimiento se utiliza para obtener
- estos datos?
- Compare esta tabla con la de Mantel-Haenszel
39Respuesta
- Diferentes modelos logísticos pueden
proveer diferentes razones de odds OR expresa la
fuerza de asociación después de controlar los
efectos de las otras variables del modelo. - La adición de nuevas variables puede cambiar
los resultados. - Los OR de la tabla anterior son similares a
los de - M-H 4 controlado solo por edad, 3.3
controlado - por edad y tabaquismo.
40OR ajustados por edad. Asociación anticonceptivos
infarto por uso de anticonceptivos y
tabaquismo modelo de no interacción y de
interacción
Cigarrillos/día Anticonceptivos NO Anticonceptivos SI
Ninguno 1.0 3.6
1 24 3.3 10.1
? 25 8.5 27.8
Cigarrillos/día Anticonceptivos NO Anticonceptivos SI
Ninguno 1.0 3.6
1 24 3.1 3.7
? 25 8.0 40.3
41Conclusión de Autores
- El efecto combinado de anticonceptivos y
tabaquismo fue mayor que el encontrado por los
efectos separados de estos factores. - Importante incremento de casos de infarto por
el efecto del tabaquismo sobre el uso de
anticonceptivos.
42Pregunta
- Los resultados del análisis logístico múltiple,
- corroboran esta conclusión?
43Respuesta
- El modelo y las interacciones muestran un
efecto sinergista, sin embargo, los términos de
interacción no son estadísticamente
significativos. - Se sugiere que la interpretación se base en el
modelo de no interacción, dado que el de
interacción indica que los anticonceptivos
incrementan el riesgo de infarto en no y
grandes fumadores, pero no en moderados.
Esto es imposible.
44OR relación baja clase social y bajo nivel
educativo con obesidad 4 modelos de regresión
logística
Variables del estudio OR Clase social OR Educación
Clase social 0.30
Educación 0.30
Clase social, educación 0.50 0.50
Clase social, educación e Interacción de ambas 0.50 0.50
45Pregunta
- Relación clase social y educación (dicotómicas
- alta y baja) con obesidad.
- El 90 de gente con baja categoría en
una - variable, tuvo también baja en la otra.
- Lo mismo ocurrió en 90 de los de categoría
- alta.
- Cómo pueden explicarse las diferencias?
46Respuesta
- La fuerza de asociación de un modelo de
regresión logística puede variar cuando el modelo
es cambiado - La asociación con clase social y educación
- es débil (OR cercana a 1) cuando las
- variables fueron incluidas
47Análisis de regresión logística anticonceptivos
orales e infarto miocárdico
Variable Coeficiente EE P OR (IC 95)
Anticonceptivos orales (0 no, 1 si) 1.188 0.206 0.032 3.28 (1.97 5.47)
Edad (años) 0.152 0.014 0.0011 1.16 (1.13 1.20)
1 24 cigarros/día (0 no, 1 si) 1.125 0.209 0.020 3.08 (2.04 4.64)
25 cigarros/día (0 no, 1 si) 2.137 0. 208 0.0013 8.47 (5.64 12.74)
Constante - 9.283 0.629
48Pregunta
- Sabes como calcularon el riesgo de tener
- infarto en los siguientes 10 años, para una
- mujer de 30 años que usa anticonceptivos
- y fuma 30 cigarros al día?
- Cómo evalúa la validez del modelo como
- predictor de riesgo?
49Respuesta
- Log odds a favor de infarto
- - 9.283 (1.188 x 1) (0.152 x 30)
(1.125 x 0) 2.137 x 1) 1.398 - Riesgo de la enfermedad
- 1/1 exp(1.398) 1/(1 4.047) 0.198 ó
19.8 - La validez del modelo se obtiene aplicándolo a
otras muestras. También podemos utilizar chi
cuadrada.
50Riesgo logístico múltiple datos predichos y
observados. Incidencia de diabetes
Riesgo (cuartil) Casos esperados Casos observados
1 72.1 70
2 31.3 28
3 19.5 23
4 10.5 10
51Pregunta
- La tabla muestra una adecuada predicción
- de datos?
52Respuesta
- Si, por inspección visual. Debe confirmarse
con goodness-of-fit test - La prueba Hosmer-Lemeshow da p 0.58
- No existe una diferencia estadísticamente
significativa entre lo observado y la predicción
53Razón de riesgo para publicación Regresión de Cox
Tipo de análisis RR (IC 95)
Univariado 2.32 (1.47 3.66)
Multivariado 2.34 (1.47 3.43)
54Pregunta
- El análisis de regresión del riesgo
- proporcional fue apropiado para
- este estudio?
55Respuesta
- La regresión de Cox es adecuada para el
- estudio.
- Se asume que el RR permanece constante
- a diferentes tiempos, pero no hay evidencia
- de esto.
56Pregunta
- Qué sucedió con los estudios no publicados?
- El análisis de regresión puede tener datos
- censurados.
- Todos los estudios fueron considerados
- (incluyendo no publicados).
57Pregunta
- Qué significa una razón de riesgo de 2.32?
- RO de 2.32 significa que el riesgo de
- publicación fue 2.32 veces mayor para
- estudios significativos, en relación con
- los no significativos.
58Pregunta
- El tipo de estudio y la consistencia externa, en
- donde actúan como factores confusores?
- No pueden considerarse confusores.
59Pregunta
- El análisis de tablas de vida de Kaplan Meier,
- ha sido utilizado en vez de la regresión de Cox?
- Kaplan Meier analiza la sobrevida de un solo
- grupo.
60Ejercicio
- Estudio de 40,000 bebés mostró bajo peso al
- nacer, sobre todo en madres con riesgo de
- enfermedad cardiovascular.
- El análisis de Cox reportó RR 2.26 con IC 95
- 1.48 3.41 para la diferencia de l kg.
- Ajustando el modelo por estrato marital y
- socioeconómico, RR 2.22 con IC 95
- 1.46 3.38
61Pregunta
- Qué información fue requerida para este
- análisis?
- Tiempo de sobrevida del binomio bebé-madre
- Conocer si la muerte ocurrió por enf.
cardiovascular o no - Peso al nacer, estado socioeconómico y marital
62Pregunta
- Comparando los bebés pequeños con los de
- 2 kg ó más, Qué tan alto fue el riesgo de
- muerte cardiovascular en sus madres?
- Controlando el estado socioeconómico y el
- marital.
63Respuesta
- Razón de riesgo ajustada para niños con
- diferencia de peso de 1 kg 2.22
- Razón de riesgo para diferencia de 2 kgs
- 2.22 x 2.22 4.93
64Pregunta
- Cómo explica estos hallazgos?
- El RR para otras causas importantes de muerte
- fue 1.33 para cáncer y 1.06 para
muerte - violenta o accidental.
65Respuesta
- Los autores sugieren 3 explicaciones
- Condiciones de pobreza llevan a bajo peso
- y riesgo de muerte
- Muerte materna, perfil nutricional y de
conducta, pueden influir en el peso del bebé
y la mortalidad cardiovascular - Factores genómicos y epigenéticos
66Ejercicio
- 4,000 niños con edad de 16 años o menores,
- sometidos a dieta, fueron seguidos
para - identificar muerte y sus causas.
- El análisis de Cox mostró asociación positiva
- entre ingesta de energía y riesgo de cáncer.
67Asociación ingesta de energía en la infancia y
mortalidad en adultos RO por 239 kcal/día
Causa de muerte Razón de riesgo IC 95
Todas las causas 1.04 0.99 1.09
Todos los cánceres 1.15 1.06 1.24
Cáncer no relacionado a tabaquismo 1.20 1.07 1.34
Cáncer relacionado a tabaquismo 1.09 0.86 1.23
Causas distintas al cáncer 0.99 0.93 1.05
68Pregunta
- Cuáles RO son estadísticamente significativas?
- Qué porcentaje del incremento del riesgo de
- cáncer no ligado a tabaquismo se asocia con
- ingesta de 1,000 kcal por día?
69Respuesta
- La asociación con todos los tipos de cáncer y
aquellos no relacionados con tabaquismo son
estadísticamente significativos. El IC no está a
ambos lados del 1 - Un incremento de 239 kcal en la ingesta tiene RO
de 1.20 para Ca no relacionado a tabaco. La
ingesta de 1,000 kcal tiene un riesgo de 1.2
x 1.2 x 1.2 x 1.2 2.07 ó un incremento de
107
70Ejercicio
- Estudio de posibles factores de riesgo
para - infarto del miocardio, realizado en
3,000 - hombres de edad media, libres de enfermedad
- coronaria.
71Factores de riesgo e infarto miocárdico
Factor de riesgo RR IC 95 P
Tabaquismo (años) 1.40 1.15 1.70 0.0008
Niveles de vitamina C (lt 2 mg/L vs gt 2 mg/L) 2.55 1.26 5.17 0.0095
Ingreso de oxígeno (ml/min x kg) 0.65 0.47 0.92 0.0137
Historia familiar de enfermedad coronaria (si vs no) 1.86 1.14 3.02 0.0129
Mercurio en cabello (gt 2 mcg/g vs lt 2 mcg/g) 1.68 1.01 2.81 0.0448
Apolipoproteina B sérica (g/L) 1.29 1.01 1.66 0.0454
72Pregunta
- Qué factores de riesgo fueron asociados con
- mayor fuerza con el riesgo de infarto?
73Respuesta
- Los resultados no permiten una decisión dado
- que muestran diferentes categorías y unidades
- de medición.
74Ejercicio
- Datos del Sistema Nacional de Salud
- Relación entre parientes fumadores y
desarrollo del niño - Incluyó 5,903 niños entre 5 a 11 años
- Variable dependiente score DE
- (talla del niño - talla media de niños de la
misma edad, sexo y ciudad) / desviación
estándar del grupo
75Pregunta
- Por qué se utilizó el score de
desviación - estándar como variable dependiente en vez de
- la talla?
76Respuesta
- El z score o score DE sirve para controlar
- El efecto confusor de edad, sexo y ciudad
- La dispersión de la muestra
- La tendencia central de la distribución
77RESIDUALES
- Diferencia entre los valores reales y
los predeterminados por el análisis de regresión - Medida no influenciada por atributos
biológicos - Puede ser utilizada como variable
dependiente - Controla la confusión
- Sirve para validar modelos
78Variables Independientes
- Tabaquismo en casa tabaquismo pasivo
- Tabaquismo en el embarazo
- Peso al nacer
- Talla de papá y mamá
- Número de hermanos
- Clase social
- Duración del embarazo
- Indice personas - cuarto
79Pregunta
- Por qué fueron incluidas las variables no
- relacionadas directamente con tabaquismo?
- Porque se pensó que tienen efecto confusor
- en la asociación tabaquismo talla.
80Pregunta
- Un análisis de regresión múltiple con las mismas
- variables, mostró una R 0.56.
- Qué nos dice ese valor en relación con
la - validez del modelo?
81Respuesta
- R2 representa la varianza de la variable
- dependiente, que es explicada por el set de
- variables independientes.
- El cuadrado de 0.56 es 0.31 ó 31.
- Este valor es mayor que el de la mayoría de
- estudios epidemiológicos.
82Varianza de talla explicada por tabaquismo en
hogar, embarazo o ambos Regresión lineal
múltiple
Variables del modelo Tabaquismo en casa Tabaquismo en embarazo Ambos tabaquismos
Tabaquismo en casa, tabaquismo en embarazo 1.34 0.67 1.41
Tabaquismo en casa, tabaquismo en embarazo, las demás variables 0.23 0.14 0.26
83Pregunta
- Qué nos dice la discrepancia entre los valores
- de las 2 primeras columnas y la tercera?
84Respuesta
- Cuando variables no ligadas a tabaco no son
- consideradas
- 1.41 0.67 0.74 tabaquismo en casa
- 1.41 1.34 0.07 tabaquismo en embarazo
- 1.41 0.74 0.60 tabaquismo compartido
- Cuando otras variables son incluidas
- tabaquismo en casa 0.12
- tabaquismo en embarazo 0.03
- tabaquismo compartido 0.11
85Respuesta
- Discrepancia en la varianza explicada por
- factores del tabaquismo, juntos o separados,
- traducen que los efectos se solapan.
- Coeficiente de correlación por tabaquismo
- materno 0.64, no se puede determinar que
- parte es atribuida a tabaquismo actual y cual
- al del embarazo (multicolinealidad).
86Pregunta
- Qué nos dice la discrepancia entre las 2
- primeras columnas?
- Podemos concluir que tales diferencias
- son debidas a un efecto confusor?
87Respuesta
- Reducción en la varianza explicada por una
variable independiente, cuando se incluyen
otros factores en el modelo, puede significar
que aquellos son confusores o causas
intermedias. - Causa intermedia peso al nacer.
- Tabaquismo en embarazo se asocia a bajo peso
al nacer y éste a baja estatura.
88Pregunta
- Clase social y duración del embarazo fueron
- omitidas en el análisis por no mostrar
- significancia sobre la talla.
- Cuál sería una razón más válida para omitir
- estas variables?
89Respuesta
- Ausencia de asociación estadísticamente
- significativa no implica que la variable no
- sea un confusor.
- No existen criterios establecidos sobre
- significancia estadística para decidir
- - potenciales confusores a controlar
- - cuando es suficiente para producir
confusión
90Relación tabaquismo de parientes talla de los
niños (SDE) Coeficientes de regresión lineal
Variables del modelo Tabaquismo en casa Coeficiente P Tabaquismo en embarazo Coeficiente P
Tabaquismo en casa - 0.0099 lt 0.001
Tabaquismo en embarazo - 0.0122 lt 0.001
Tabaquismo en casa y embarazo - 0.0086 lt 0.001 - 0.0045 NS
Tabaquismo en casa y embarazo otras variables - 0.0034 lt 0.01 - 0-0028 NS
91Pregunta
- Explique que representan los coeficientes de
- regresión.
- Cuáles son los hechos?
92Respuesta
- Coeficiente de regresión múltiple cambio en la
- variable dependiente debido a un cambio de
- una unidad en la variable independiente, con no
- cambios en las demás variables del modelo.
- Cada cigarrillo fumado en casa, está
asociado a una disminución de la talla de
0.0099 desviaciones estándar.
93respuesta
- Cuando tabaquismo en embarazo es
adicionado al modelo, el efecto específico
conectado con tabaquismo en casa (sin área de
traslape), es 0.0086 - La talla disminuye 0.0034 desviaciones
estándar por cada cigarrillo fumado, cuando se
adicionan las otras variables y se ajustan sus
efectos
94Pregunta
- Podemos concluir que el tabaquismo en el
- embarazo no afecta la talla de los niños?
95Respuesta
- No debemos concluir eso, sin embargo, los
- resultados no nos dicen como se afecta la
- talla de los niños por el tabaquismo durante
- el embarazo.
- Ausencia de significancia estadística no
traduce que una asociación sea un hallazgo - necesariamente al azar.
96Pregunta
- Qué explicaciones sugiere para la asociación
- entre tabaquismo pasivo y talla de los niños?
97Respuesta
- La asociación es estadísticamente significativa y
- se hace aparente cuando expresiones genéticas,
- atributos biológicos y circunstancias sociales,
se - mantienen constantes en el análisis.
- Asociación causal indirecta mediada por
- - consumo de alimentos
- - incremento de enfermedades respiratorias
- - efecto directo del tabaco en el crecimiento
98Pregunta
- Cuál es la utilidad de este estudio?
- Respuesta
- - identificar factores que afectan el
- crecimiento
- - disminuir la prevalencia de tabaquismo
99Si tiene niños . no fume
- Tabaquismo en casa de 50 cigarrillos
diarios - entre todos, reduce la talla de los niños en 0.17
- desviaciones estándar (50 x 0.0034), lo
cual - equivale a 1 cm.
100GRACIAS