Title: Sin ttulo de diapositiva
1CURSO METODOLOGÍA DE INVESTIGACIÓN (TÉCNICAS DE
ANÁLISIS DE DATOS) EL ANÁLISIS DE REGRESIÓN
MÚLTIPLE
2EL ANÁLISIS DE REGRESIÓN MÚLTIPLE CONCEPTO
Método multivariante que analiza la relación
entre una única variable dependiente (criterio) y
varias variables independientes (predictores). El
objetivo es predecir cambios en la variable
dependiente en respuesta a cambios en varias de
las variables independientes
3DIAGRAMA DE DECISIÓN DE LA REGRESIÓN MÚLTIPLE (I)
Problema de investigación Seleccionar
objetivo (s)
- Predicción - Explicación
Seleccionar variables dep. e indep.
Primer paso
Diseño de la investigación Selección del
tamaño muestral Creación de variables adicionales
Segundo paso
No
Tercer paso
Si
4DIAGRAMA DE DECISIÓN DE LA REGRESIÓN MÚLTIPLE (II)
Estimación del modelo de regresión especifica el
investigador el modelo o se utiliza algún
procedimiento de selección de las var. indep.?
Cuarto paso
Especificación del investigador
Procedimiento de selección
Método de estimación secuencial Estimación
progresiva/regresiva Estimación por etapas
Método de combinación Examinar todas las
combinaciones posibles para identificar la que
mejor se ajusta
A segundo paso Creación de variables adicionales
No
Si
Examinar significación estadística del modelo
Coeficiente de determinación (R2)
Coeficiente de determinación ajustado
Significación de los coeficientes de regresión
5DIAGRAMA DE DECISIÓN DE LA REGRESIÓN MÚLTIPLE
(III)
Interpretación del valor teórico de la regresión
Evaluar importancia relativa de las variables
independientes con los coeficientes beta
Valoración de la multicolinealidad
Quinto paso
Sexto paso
6OBJETIVOS DE LA REGRESIÓN MÚLTIPLE
7CREACIÓN DE VARIABLES ADICIONALES
Transformaciones de las variables para cumplir
los supuestos Transformaciones más comunes
inversa, raiz cuadrada y logaritmo
Incorporación de datos no métricos con variables
ficticias
8SUPUESTOS EN LA REGRESIÓN MÚLTIPLE
NORMALIDAD El perfil de la distribución de los
datos se corresponde con una distribución normal.
Si la variación respecto de la distribución
normal es amplia, los tests estadísticos
resultantes no son válidos, dado que se requiere
la normalidad para el uso de los estadísticos de
la t y de la F. La normalidad univariante ayuda a
obtener normalidad multivariante, pero no la
garantiza. La normalidad multivariante implica
que las variables individuales son normales.
cómo evaluarla? 1. Gráfico de probabilidad
normal de los residuos
2.
Test de Kolmogorov-Smirnov sobre los residuos
estandarizados
LINEALIDAD Supuesto implícito en todas las
técnicas multivariantes basadas en medidas de
correlación. Resulta necesario identificar
cualquier desplazamiento de la linealidad que
pueda impactar la correlación. cómo evaluarla?
Examen visual de los residuos y Gráfico de
regresión parcial
HOMOSCEDASTICIDAD Varianza constante del término
de error. Se refiere al supuesto de que las
variables dependientes exhiban iguales niveles de
varianza a lo largo del rango de los valores de
las variables independientes. cómo evaluarla?
1. Examen visual de los residuos
2. Test de Levene
9MÉTODOS DE ESTIMACIÓN SECUENCIAL
Estimación progresiva (forward) y regresiva
(backward) El modelo de estimación progresiva es
similar a la estimación por etapas, mientras que
la estimación regresiva implica calcular una
ecuación de regresión con todas las variables
independientes, para a continuación ir eliminando
aquéllas que no contribuyan significativamente. La
diferencia con la estimación por etapas es que
en ésta se pueden añadir o eliminar variables en
cada etapa, mientras que una vez que se añade o
elimina una variable en los procedimientos de
estimación progresiva o regresiva, no existe la
posibilidad de revertir la acción posteriormente.
Estimación por etapas
(paso a paso ó stepwise) 1. Empezar con modelo de
regresión simple, seleccionando la variable
independiente que tenga la mayor correlación con
la variable dependiente. Ecuación Y b0
b1X1 2. Examinar coeficientes de correlación
parcial para encontrar una variable adicional que
explique la mayor parte del error que queda de la
primera ecuación de regresión 3. Recalcular la
ecuación de regresión utilizando las dos
variables independientes, y examinar el valor
parcial F de la variable original del modelo para
ver si todavía realiza una contribución
significativa. Si no lo hace, se elimina. Si lo
hace, la ecuación queda Y b0 b1X1 b2X2 4.
Continuar este procedimiento con todas las
variables independientes restantes para ver si
deberían incluirse en la ecuación. Si se incluye
alguna, hay que examinar las variables
previamente incluidas para juzgar si deben
mantenerse
10EVALUACIÓN DE LA MULTICOLINEALIDAD
Situación ideal Tener una cantidad de
variables independientes altamente
correlacionadas con la variable dependiente, pero
con poca correlación entre
sí Multicolinealidad correlación entre tres o
más variables independientes La
multicolinealidad reduce el poder predictivo de
cualquier variable independiente individual, en
la medida en que está asociado con las otras
variables independientes A mayor colinealidad,
la varianza única explicada por cada variable
independiente se reduce y el porcentaje de
predicción compartida aumenta Cómo detectar la
existencia de multicolinealidad? 1. Examen de la
matriz de correlación de las variables
independientes (altas correlaciones indican
elevada colinealidad) 2. Estadísticos de
colinealidad valor de tolerancia (TOL) y factor
de inflación de la varianza (FIV) (valores de TOL
próximos a 0 y elevados valores de FIV,
superiores a 4, denotan multicolinealidad)
Efecto
11TABULACIÓN CRUZADA Método de análisis comúnmente
usado para clasificar variables categóricas. A
través de una tabla de contingencia, se cruzan
dos variables y se interpretan los
porcentajes. Proporciona un valor chi-cuadrado,
que permite contrastar si existe relación entre
las variables que se cruzan. Valores
significativos del estadístico indican que existe
relación.
REGRESIÓN SIMPLE Método univariante que analiza
la relación entre una variable dependiente
(criterio) y una única variable independiente
(predictor). El objetivo es predecir cambios en
la variable dependiente en respuesta a cambios en
la variable independiente.