Title: An
1Análisis de Datos Atmosféricos Regresión
lineal 1
2Contenido
- Qué es el modelo de regresión y cuál es su
propósito? - Cómo determinar la confiabilidad/calidad de un
modelo estadístico? - Pasos en modelación empírica
- Supuestos de regresión
- Mínimos cuadrados ordinarios (MCO)
- Propiedades de los estimadores y supuestos
- Medidas de bondad de ajuste
- Evaluación de supuestos
- Corrección de supuestos
3Qué es el modelo de regresión y cuál es su
propósito?
- Yt abXtut
- Predecir o estimar la media de Y con respecto a
X, cuantificar relación entre variables, aprender
sobre el proceso - E(Yt It )abXt (componente sistemático)
- en general E(Yt It )? E(Yt Ht )? E(Yt)
- Ejemplos
- E(Tdf,t)15ºC E(Tdf,t mayo)18ºC
- E(Tdf,t) ? E(Tdf,t ENSO) ? E(Tdf,t ENSO,)
4Línea de regresión
5Qué representan los coeficientes de regresión?
6Qué representan los coeficientes de regresión?
Cada
representa el efecto parcial de
sobre Y
- Es decir, representa los efectos de
sobre Y dado lo que ya explicaron el resto de las
variables independientes incluidas en el modelo
7Qué representa ut? Qué implica ut para el
modelo de regresión?
Relación determinística
Relación estocástica Modelo probabilístico
El error aleatorio permite que ante mismos
valores de las variables explicativas, el efecto
sobre Yt sea variado, de pendiendo de la
interacción de otros factores.
8Cómo sabemos cual It es el bueno?
- Yt abXtut
- µt abXt Componente sistemático
- ut Componente aleatorio (no sistemático)
- It debe ser tal que ut no tiene información
sistemática (ut similar a ruido blanco)
9Ejemplo modelos de regresión para T global
It(AMO, SOI, SOLAR, VOLCANO)
It(AMO, SOI)
Tt
µt
ut
It(AMO, SOI, TRF,)
It(AMO, SOI, SOLAR, VOLCANO, GHG)
10Cómo determinar la confiabilidad/calidad de un
modelo estadístico?
- Dos maneras comunes pero inadecuadas
- Teoría únicamente
11Cómo determinar la confiabilidad/calidad de un
modelo estadístico?
12Pasos en modelación empírica
Reespecificación
Tiene sentido?
13Recomendaciones para la modelación empírica
- Graficar datos es esencial
- No olvidar que un modelo estadístico es un
conjunto de suposiciones probabilísticas - Ningún resultado de inferencia estadística debe
ser utilizado para concluir algo a menos de que
se haya establecido que el modelo es
estadísticamente adecuado - Ninguna teoría, por sofisticada que sea, puede
arreglar o validar un modelos estadístico
inadecuado - Un buen modelo empírico debe sintetizar los
modelos estadístico y teórico sin que ninguno de
los dos quede mal representado
14Supuestos del modelo de regresión lineal
i.i.d
- Correcta especificación
- Forma funcional
- Permanencia estructural
- Normalidad
- No autocorrelación
- Homoscedasticidad
- Exogeneidad E(utXi,t)0 cov(utXi,t)0
- No multicolinealidad
- Varianza de variables (excepto a) es gt0
- T gtk
15Supuestos del modelo de regresión lineal
- Correcta especificación
- El componente sistemático propuesto es el
correcto, no hay variables de más ni de menos. - Variables omitidas
- Variables redundantes
16Correcta especificación el caso de variables
omitidas
- Modelo verdadero
- Modelo estimado
- Entonces
- donde
- El coeficiente es insesgado únicamente si
y/o son iguales a cero. - recoge parcialmente el efecto de Zt sobre
yt.
17Correcta especificación el caso de variables
redundantes
- Modelo verdadero
- Modelo estimado
es insesgado
Pero es mayor.
Porqué importa?
18Forma funcional
- Se asume que el modelo de regresión clásico es
lineal - Ojo lineal en los parámetros no en las variables
19Permanencia estructural
- Los parámetros de la regresión son estables y
válidos para toda la muestra - La relación entre las variables es estable
durante el periodo de muestra
20Normalidad
- Los errores de la regresión se distribuyen de
manera normal - Pruebas de hipótesis (t, chi-sq, F) requieren
normalidad
21Homoscedasticidad
- La varianza de ut es constante (no cambia ni con
t ni con los valores de Xt)
El coeficiente de regresión sigue siendo
insesgado pero no así los errores estándar de los
coeficientes. Estadísticos de prueba ya nos son
válidos
22No autocorrelación
- Los errores ut son independientes
Autocorrelación de primer orden
Autocorrelación de orden k
El coeficiente de regresión sigue siendo
insesgado. Los errores estándar y estadísticos
de prueba ya nos son válidos
23Exogeneidad
- ut y Xt son independientes.
Los residuales son ortogonales a las variables
explicativas y al los valores ajustados de yt
(por qué?)
Implica que xt y ut tienen una influencia
separada y aditiva sobre yt. Si xt y ut están
correlacionadas no es posible determinar sus
efectos individuales sobre yt. Si no se cumple,
las estimaciones no son validas.
24Por qué no habría exogeneidad?
donde
Ut contiene los efectos de un montón de variables
que afectan a yt (pero se supone que no de manera
sistemática). En este caso zt si afecta de forma
sistemática.
Para resolver este problema se necesita el método
de variables instrumentales (no lo vamos a ver)
25Multicolinealidad
- Los regresores no están correlacionados xt y zt
tienen una influencia separada y aditiva sobre yt
. Si xt y zt están correlacionadas no es posible
determinar sus efectos individuales sobre yt. - Multicolinealidad perfecta
- Alguna de las variables incluidas en el modelo es
una combinación lineal de otras variables. No se
puede estimar la regresión (XX no es invertible) - Multicolinealidad imperfecta
- Las variables explicativas están altamente
correlacionadas. - XX es cercana a no ser invertible problemas
numéricos. El modelo sí se puede estimar pero los
errores estándar están inflados y pequeños
cambios en la regresión modifican mucho los
valores de los coeficientes estimados.
26Repaso Supuestos del modelo de regresión lineal
i.i.d
- Correcta especificación
- Forma funcional
- Permanencia estructural
- Normalidad
- No autocorrelación
- Homoscedasticidad
- Exogeneidad E(utXi,t)0 cov(utXi,t)0
- No multicolinealidad
- Varianza de variables (excepto a) es gt0
- T gtk
27Estimación por Mínimos Cuadrados Ordinarios (MCO
o LS)
28Mínimos Cuadrados Ordinarios (MCO o LS)
- Así como para estimar la media y la varianza (por
ejemplo) encontramos estimadores con propiedades
deseables, lo mismo vamos a hacer para los
coeficientes de regresión. - A los estimadores de los coeficientes de
regresión les vamos a pedir que sean - 1) Insesgados
- 2) Mínima varianza
- 3) Consistentes
291) Insesgado
- Las estimaciones que se hagan del parámetro
pueden estar muy lejos parámetro real o
poblacional pero en promedio obtendremos el valor
verdadero
Sesgado
Insesgado
302) Mínima varianza (eficiente)
- Entre todos los estimadores insesgados se va a
escoger el de mínima varianza
31Consistencia
- Un estimador es consistente si según el tamaño de
la muestra aumente, más me voy a acercar al
verdadero valor del parámetro
32Teorema de Gauss-Markov
- Dados los supuestos anteriores los estimadores de
MCO son de mínima varianza dentro de la clase de
estimadores lineales insesgados. - MELI (BLUE) Mejores estimadores lineales
insesgados (también son consistentes) - Lineal, insesgado y de mínima varianza (eficiente)
33Mínimos cuadrados ordinarios
- Minimizar los errores al cuadrado
- No se cancelan positivos y negativos (E(ui)0)
- Función de pérdida MCO penaliza más por errores
más grandes que por errores más pequeños
34MCO regresión simple
Derivar parcialmente con respecto a los
parámetros, obtener las condiciones de primer
orden y resolver (TAREA)
Estimadores de Mínimos Cuadrados Ordinarios
35Regresión múltiple
donde
36(No Transcript)
37Estimador de MCO
38Es realmente un estimador insesgado?
39Es un estimador insesgado?
40 Es realmente de mínima varianza?
41 Es realmente de mínima varianza?
42 Es realmente de mínima varianza?
43Supuesto de normalidad
44Normalidad y pruebas de hipótesis
45Resumen MCO
Normalidad es necesaria para realizar pruebas de
hipótesis
46Medidas de bondad de ajuste
47Medidas de bondad de ajuste
48Problemas de la R2
- Si aumento el número de variables explicativas
forzosamente la R2 va a aumentar - R2(ajustada)1-(1- R2)(T-1)/(T-k) penaliza al
incluir más variables explicativas - Si regreso dos variables con tendencia la R2 va a
ser muy alta y probablemente la relación sea
espuria. - Regla de dedo Desconfiar de regresiones con R2
muy altas
49Problemas de la R2
- El tamaño de la R2 no es muy importante.
- La R2 por sí sola no da evidencias a favor o en
contra de un modelo (se quiere aproximar el
proceso generador de datos, no maximizar la R2) - La calidad estadística de un modelo y su utilidad
para inferencia depende de que se cumplan los
supuestos den los que el modelo descansa - Una vez que se cumplen los supuestos podemos ver
que tan bueno es el ajuste utilizando la R2 o R2
la ajustada. Solo así tiene sentido hablar de la
R2
50Evaluación de supuestos
- Principio de adición de variables
51Evaluación de supuestos
- Principio de adición de variables
52Evaluación de supuestos
53Pruebas para la evaluación de supuestos
54Ramsey RESET
- Es una prueba general para detectar errores de
especificación en el modelo - Además de detectar una forma funcional incorrecta
sirve para detectar - Errores por variables omitidas
- Correlación entre las variables explicativas y el
término de error (no exogeneidad)
55Ramsey RESET
56Ramsey RESET
57Ramsey RESET
58Correcta especificación
59Correcta especificación
60Correcta especificación
61No autocorrelación
62No autocorrelación Durbin-Watson
63No autocorrelación Durbin-Watson
64No autocorrelación Durbin-Watson
65No autocorrelación Durbin-Watson
66Autocorrelación Breusch-Godfrey
67Autocorrelación Ljung-Box
68Normalidad Q-Q plots
69Normalidad histograma y estadísticas descriptivas
Normal Asimetría 0 Curtosis 3
70Normalidad Jarque-Bera
S Asimetría K Curtosis
71Homoscedasticidad gráficas
Heteroscedasticidad
Homoscedasticidad
Heteroscedasticidad
72Homoscedasticidad White
73Homoscedasticidad ARCH
74Homoscedasticidad ARCH
75Permanencia estructural Chow
76Permanencia estructural Chow
77Permanencia estructural Chow
78Permanencia estructural Quandt-Andrews
79Permanencia estructural errores recursivos
80Permanecia estructural CUSUM
81Permanecia estructural CUSUMQ
82Multicolinealidad