Title: CAPTULO 7 MULTICOLINEALIDAD
1CAPÍTULO 7MULTICOLINEALIDAD
- Edgar Acuña Fernández
- Departamento de Matemáticas
- Universidad de Puerto Rico
- Recinto Universitario de Mayagüez
2Multicolinealidad
- Dos predictores X1 y X2 son exactamente
colineales si existe una relación lineal tal que
c1X1c2X2c0 para algunas constantes c1, c2 y c0.
- Un conjunto de predictoras X1, X2,.Xp son
colineales si para constantes co,c1,..cp, la
ecuación - Si el coeficiente de determinación de la
regresión de Xk con las otras es cercano a 1 se
puede concluir tentativamente que hay
multicolinealidad.
3Efectos de multicolinealidad
- Si consideramos el modelo de regresión lineal
múltiple - entonces se puede mostrar que la varianza del
j-ésimo coeficiente de regresión estimado es - Donde, es el coeficiente de Determinación de la
- regresión lineal de Xj contra todas las demás
- predictoras.
4Factor de inflación de la varianza
- La cantidad es llamado el j-ésimo
Factor de inflación de la varianza, or VIFj
(Marquardt, 1970). Si es cercano a 1
entonces la varianza de aumentará
grandemente. El VIF representa el incremento en
la varianza debido a la presencia de
multicolinealidad. - Una variable predictora con un VIF mayor de 10
(esto es equivalente a aceptar que un R2.90 es
indicador de una buena relación lineal), puede
causar multicolinealidad. - La mayoría de los programas estadísticos da los
valores VIF. Los VIF son los elementos que están
en la diagonal de la matriz C-1, que es la
inversa de la matríz de correlaciones C .
5Diagnósticos de Multicolinealidad
- Besley, et al. (1991)
- 1) Cotejar si hay coeficientes de regresión con
valores bien grandes o de signo opuesto a lo que
se esperaba que ocurriera. - 2) Cotejar si las variables predictoras que se
esperaban sean importantes tienen valores de t
pequeños para las hipótesis de sus coeficientes. - 3) Cotejar si la eliminación de una fila o
columna de la matriz X produce grandes cambios
en el modelo ajustado. - 4) Cotejar las correlaciones entre todas las
parejas de variables predictoras para detectar
las que son bastante altas. - 5) Examinar el VIF. Si el VIF es grande, mayor
que 10, entonces puede haber multicolinealidad.
6Diagnósticos de Multicolinealidad
- 6) Usar el número condición de la matriz
correlación XX, la cual es de la forma - donde rij representa la correlación entre las
variables Xi y Xj La - matriz X es obtenida restando a cada columna de
X la media - correspondiente y dividiendo luego entre la raíz
de la suma de - cuadrados corregida por la media de la misma
columna.
7NÚMERO CONDICIÓN
- Sea U una matríz tal que ZXU y que ZZUXXUD
donde D - es una matriz diagonal con elementos positivos
?1??2??p. Los - ?s son llamados los eigenvalues (valores propios
de XX y las - columnas de U son los eigenvectors (vectores
propios) de XX. - Se puede mostrar que U es ortogonal, es decir
UUUUI. - Las columnas de ZXU son llamados componentes
principales. - El número condición de la matriz X está
definido por - K(mayor eigenvalue /menor eigenvalue)1/2
- Weisberg sugiere que un Kgt30 indica presencia de
- multicolinealidad.
8Medidas remediales al problema de
multicolinealidad
- Básicamente hay tres propuestas
- a) Regresión Ridge (Hoerl and Kennard, 1970)
- b) Componentes principales (Hotelling, 1965)
- c) Mínimos Cuadrados Parciales (H. Wold, 1975)
- Sin embargo el problema de multicolinealidad
también está - relacionado con los métodos de selección de
variables y esto - puede ser considerado como una cuarta manera de
resolver el - problema de multicolinealidad.
9Regresión Ridge
- Consideremos la suma de las varianzas de los
coeficientes estimados , dada por E( -?)(
-?). Hoerl and Kennard (1970) mostraron que - E( -?)( -?) EeX(XX)-2Xe
- ?2Traza(XX)-1
- ?2
- Nota, si un valor propio (eigenvalue) es cercano
a cero la suma de las varianzas se hace muy
grande.
10Regresión Ridge
- Se puede establecer que
- De donde
- Es decir, que aún cuando es insesgado,
- es un estimador
sesgado.
11Regresión Ridge
- La idea en regresión Ridge es encontrar un
estimador que - aunque sea sesgado sea más corto que , es
decir, -
-
- El estimador mínimo cuadrático será encogido
hacia el origen. - Hoerl y Kennard (1970 ) propusieron el siguiente
estimador - Donde, k es el parámetro de encogimiento (0ltklt1)
que - debe ser estimado de los datos tomados.
12Regresión Ridge
- Si k0 se obtiene el estimador minimo cuadratico
y a - medida que k aumenta el estimador se aleja del
estimador - minimo cuadrático y se hace mas sesgado.
- Se puede mostrar que el estimador ridge se
obtiene al - resolver
- MinB (y-XB)(y-XB)
- Sujeto a B2ltk2
- Cuando se sustituye la restricción por Bltk se
obtiene - el estimador Lasso (Tibshirani, 1996).
13Traza Ridge
- Hay varias propuestas acerca de la elección de k,
pero lo que más - se recomienda consiste en hacer un plot de los
coeficientes del - modelo para varios valores de k (generalmente
entre 0 y 1) este - plot es llamado la Traza Ridge .
- Para elegir k hay que considerar los siguientes
aspectos - 1. Que los valores de los coeficientes de
regresión se estabilizen. - 2. Que los coefcientes de regresión que tenían un
valor demasiado grande comienzen a tener valores
razonables. - 3. Que los coeficientes de regresión que
inicialmente tenían el signo equivocado cambien
de signo.
14Traza Ridge para los datos de millaje
15k óptimo
- Es un estimado de la razón entre la varianza
poblacional ?2 - y la varianza del estimador ridge.
- Donde p es el número de variables predictoras, s2
es la - estimación de la varianza de los errores del
modelo de - mínimos cuadrados trabajando con las variables
originales y - sin usar ningún tipo de estandarización.
Finalmente, , - es el cuadrado del i-ésmo coeficiente de la
regresión por - mínimos cuadrados.
16Aplicación de Regresión Ridge a Selección de
variables
- Según Hoerl y Kennard la regresión ridge puede
usarse - para seleccionar variables de la siguiente
manera - Eliminar las variables cuyos coeficientes sean
estables pero - de poco valor. Si se trabaja con variables
previamente - estandarizadas, se pueden comparar directamente
los coeficientes. - Eliminar las variables con coeficientes
inestables que - tienden a cero.
- Eliminar las variables con coeficientes
inestables.
17Componentes principales para Regresión
- El objetivo del análisis por componentes
principales (Hotelling, - 1933) es hacer una reducción de la información
disponible. - Es decir, la información contenida en p variables
- predictoras X(X1,.,Xp) puede ser reducida a
Z(Z1,.Zp), - con pltp y donde las nuevas variables Zis
llamadas las - componentes principales no están correlacionadas.
- Los componentes principales de un vector
aleatorio X son los - elementos de una transformación lineal ortogonal
de X - Geométricamente hablando la aplicación de
componentes - principales equivale a hacer una rotación de los
ejes coordenados.
18Componentes principales para Regresión
- Consideremos el modelo de regresión lineal
múltiple - Para determinar los componentes principales hay
que - hallar una matriz ortogonal V tal que ZXV y
para la - cual ZZ(XV)(XV) VXXV
-
diag(?1,.,?p) - Donde
- VVVVI, y
- los ?j son los valores propios de la matríz de
correlación XX.
19Componentes principales para Regresión
- Luego, la j-ésima componente principal Zj tiene
desviación - estándar igual a y puede ser escrita como
- donde vj1,vj2,..vjp son los elementos de la
j-ésima fila de V. - La matríz V es llamada la matríz de cargas
(loadings), y - contiene los coeficientes de las variables en
cada componente - principal. Los valores calculados de las
componentes principales - Zj son llamados los valores rotados o simplemente
scores.
20Elección del número de componentes principales
- Por lo general se usan las siguientes dos
alternativas - Elegir el número de compnentes hasta donde se ha
acumulado por lo menos 75 de la proporción de
los valores propios. - Elegir hasta la componente cuyo valor propio sea
mayor - que 1. Para esto se puede ayudar del
Scree Plot.