Title: Diapositiva 1
1UNIVERSIDAD NACIONAL MAYOR DE SAN
MARCOS Facultad de Ciencias Económicas Unidad de
Postgrado MAESTRIA EN ECONOMIA CON MENCION EN
GESTION Y POLITICA PUBLICA
ANALISIS DE REGRESION APLICADO FRP FRM MLG
ESTIMACION DE PARAMETROS Y TERMINO DE
PERTURBACION INFERENCIA ESTADISTICA
CONSTRUCCION DE INTERVALOS
Mag. Renán Quispe LLanos
2PREDICCION
Fuentes de predicción estratégica
Visión conjunta del proceso de predicción
Construcción del Modelo
Análisis Estadístico
- Económicos
- Políticos
- Tecnológicos
- Sociales
- Conocimiento de la teoría Económica
- Especificación del Modelo
- Estimación de los parámetros
- Verificación
- Predicción
Estadística descriptiva
Estadística Inferencial
3ANALISIS DE REGRESION LINEAL
Conceptos generales
Modelos predictivos
Naturaleza de análisis de regresión
Elementos constitutivos
Construcción del Modelo
Estimación de parámetros
- Conocimiento de la teoría Económica
- Especificación del Modelo
- Estimación de los parámetros
- Verificación
- Predicción
Ecuaciones Variables Parámetros
Propiedad de los estimadores
4PROCESO DE CONSTRUCCIÓN DE UN MODELO
5 ANALISIS DE REGRESION La teoría de la regresión
pretende hacer un análisis sobre la relación que
existe entre las variables explicativas dentro de
un conjunto de valores observados. NATURALEZA
DEL ANALISIS DE REGRESION Está relacionado con el
estudio de la dependencia de una variable, la
var. dependiente, está en función de una o más
var. explicativas con la perspectiva de estimar
y/o predecir el valor (poblacional) medio o
promedio de la primera en términos de valores
conocidos o fijos (en muestreos repetidos) de las
segundas.
6Ejemplo Se efectuó una encuesta de ingresos y
gastos a 60 familias, que viven en un centro
poblado.
Ingreso de las Familias (X) Ingreso de las Familias (X) Ingreso de las Familias (X) Ingreso de las Familias (X) Ingreso de las Familias (X) Ingreso de las Familias (X) Ingreso de las Familias (X) Ingreso de las Familias (X) Ingreso de las Familias (X) Ingreso de las Familias (X)
Y 650 800 950 1100 1250 1400 1550 1700 1850 2000
Gasto de consumo Familiar por mes (S/.) 440 520 640 640 800 880 960 1080 1080 1240
Gasto de consumo Familiar por mes (S/.) 480 560 680 680 920 920 1080 1120 1200 1280
Gasto de consumo Familiar por mes (S/.) 520 560 720 760 840 960 1120 1080 1320 1320
Gasto de consumo Familiar por mes (S/.) 560 640 680 720 960 1040 1200 1200 1400 1400
Gasto de consumo Familiar por mes (S/.) 600 680 760 800 880 1080 1160 1240 1440 1440
Gasto de consumo Familiar por mes (S/.) 640 920 1000 1120 1320 1480
Gasto de consumo Familiar por mes (S/.) 960 1360 1560
Gasto de consumo Familiar por mes (S/.) 880 1480
E(y/x) 520 600 696 795 900 1000 1104 1200 1288 1400
7Diagrama de Dispersión
Gasto de Consumo Mensual S/.
8FUNCION DE REGRESION POBLACIONAL (FRP) La
regresión poblacional nos muestra cómo el valor
promedio de Y varía en relación a las variables
de X. En el ejemplo anterior se trata de los
valores promedios de consumo en cada valor fijo
del ingreso. FRP ? E(y/x) ?1 ?2x
Yi ß1 ß2xi µi Donde ?1 , ?2 son
parámetros desconocidos pero fijos que se
denominan coeficiente de regresión (intersección
y coeficiente de la pendiente) E(y/x 800)
600. Valor promedio de y para x 800
9FUNCION DE REGRESION POBLACIONAL (FRP) La
diferencia entre el valor promedio obtenido y
cada valor observado se debe al término de
perturbación (?i). La regresión poblacional para
un valor particular de la variable dependiente
es La FRP incluye al termino de
perturbación
10- FUNCION DE REGRESION MUESTRAL
- Se obtiene a partir de una muestra de
observaciones - Permite estimar los parámetros de una FRP, a
partir de la información proporcionada por la
muestra. - Su forma estocástica tiene la siguiente forma
- Diferencias con la FRP
- En la FRP los valores de los parámetros son de
los datos poblacionales - El término de perturbación está referido a
la diferencia de los valores promedios
poblacionales respecto a cada uno de los valores
mencionados.
11FUNCION DE REGRESION MUESTRAL Podemos afirmar lo
siguiente es un estimador de ?1
es un estimador de ?2 es un estimador de ?i
12SIGNIFICADO DEL TERMINO DE PERTURBACION
(?i) Sea modelo general Los valores de los
parámetros (?) son referidos a la población. Si
se tuviera los ?, faltaría contar el valor del
término de perturbación (ui). El ui se simboliza
como una bolsa donde están las otras variables
respectivas del modelo y que no están incluidas
en el mismo. Representa efectos aleatorios de la
misma naturaleza de las ui
13En el caso del consumo por ejemplo ui estaría
representando al efecto de otras variables
riqueza, tamaño de la familia,etc. El ui siempre
está a partir de los residuales. Sea el modelo
?110 ?22 ui?N(0, 25)
X2 Valor Teórico (Yi) Valor Empírico (Yi)
2 5 4 6 14 20 18 22 -2 5 0 -3 12 25 18 19
14MODELO LINEAL GENERAL
Para efectos del cálculo matricial
Yn1 Xnk?k1 ?n1
15SUPUESTOS DEL MODELO
- Forma funcional de la relación (supuesto de
lineal) - Correcta especificación del modelo (es decir, que
X es la única variable explicativa) - Las variable Xs no son estocásticas.
- Identificabilidad de los parámetros. (ß1, ß2,.
ßk) se podrán estimar de forma única) - La esperanza de las perturbaciones condicionada a
la información dada es nula - Las perturbaciones son esféricas
- Las perturbaciones recogidas se distribuyen de
forma normal ó Gaussiana
16ESTIMACION DE LOS PARAMETROS El principio básico
para estimar los parámetros es que se debe de
minimizar la suma de los cuadrados de cada uno de
los residuales.
17ˆ
ù
é
ù
é
b
ˆ
ù
é
ù
é
ù
é
ù
é
Y
Y
Y
µ
....x
x
x
1
1
1k
13
12
1
1
1
1
ú
ê
ú
ê
ú
ê
ú
ê
ú
ê
ú
ê
.
.
.
.
.
.
ú
ê
ú
ê
ú
ê
ú
ê
ú
ê
ú
ê
ú
ê
ú
ê
ú
ê
ú
ê
ú
ê
ú
ê
-
-
.
.
.
.
.
.
ú
ê
ú
ê
ú
ê
ú
ê
ú
ê
ú
ê
.
.
.
.
.
.
ú
ê
ú
ê
ú
ê
ú
ê
ú
ê
ú
ê
ú
ê
ú
ê
ú
ê
ú
ê
ú
ê
ú
ê
ˆ
ˆ
b
µ
....x
x
x
1
Y
Y
Y
û
ë
û
ë
û
ë
û
ë
û
ë
û
ë
n
nk
n3
n2
n
n
k
n
(
)
(
)
'
ˆ
ˆ
b
b
-
-
'
X
Y
X
Y
µ
µ
ˆ
ˆ
ˆ
ˆ
b
b
b
b
-
-
'
'
'
'
'
Y
X
X
Y
X
X
Y
Y
ˆ
ˆ
ˆ
b
b
b
-
'
'
'
'
'
2
Y
X
X
Y
X
Y
Derivando respecto a ? donde este es igual a
cero.
18ESTIMACION DE LA VARIANZA DEL TERMINO DE
PERTURBACION Un estimador del término de
perturbación sería el residual. La varianza
residual podría utilizarse como estimador de la
varianza del término de perturbación. Sin embargo
la esperanza del transpuesto µµ es insesgada. Se
expresa como la suma de las diferencias
cuadráticas entre el valor observado (Y) y el
estimado(Y).
19Ejercicio Ilustrativo de Estimación de Parámetros
en un Modelo Lineal Simple (MCO) Se dispone de
información de los ingresos totales y gastos en
alimentación de 12 familias
Familia Gasto alimentación (nuevos soles) Ingreso Total (nuevos soles)
1 830 2100
2 510 1100
3 420 900
4 560 1600
5 1250 3200
6 840 2300
7 720 1800
8 490 700
9 690 1300
10 850 2400
11 550 1200
12 780 1700
20Familia
1 830 2,100 1,743,000 4,410,000 830.22 -0.22
2 510 1,100 561,000 1,210,000 529.69 -19.69
3 420 900 378,000 810,000 469.58 -49.58
4 560 1,600 896,000 2,560,000 679.95 -119.95
5 1,250 3,200 4,000,000 10,240,000 1160.80 89.20
6 840 2,300 1,932,000 5,290,000 890.32 -50.32
7 720 1,800 1,296,000 3,240,000 740.06 -20.06
8 490 700 343,000 490,000 409.48 80.52
9 690 1,300 897,000 1,690,000 589.79 100.21
10 850 2,400 2,040,000 5,760,000 920.37 -70.37
11 550 1,200 660,000 1,440,000 559.74 -9.74
12 780 1,700 1,326,000 2,890,000 710.00 70.00
Totales 8,490 20,300 16,072,000 40,030,000 8,490 0
21Solución Como los parámetros a estimar son ?1 y
?2 se establece las ecuaciones normales
siguientes Y reemplazando, se tiene En
(1) En (2) Si se despeja de la
primera ecuación el intercepto y se reemplaza
dicho valor en le segunda se obtienen los
siguientes estimadores 199.108 0.301
22- La función de regresión muestral, es decir la
regresión de Y con respecto a X - Sustituyendo las observaciones muestrales de
X en la ecuación anterior se obtiene la columna 6
de la tabla. - Comparando estos valores con aquellos observados
para la variable dependiente hallamos los errores
correspondientes a cada observación de la
muestra. Se verifica que la suma de errores
estimados es 0. (Columna ?i)
23 MÉTODO MATRICIAL
Familia
1 830 2,100 1,743,000 4,410,000 830.22 -0.22
2 510 1,100 561,000 1,210,000 529.69 -19.69
3 420 900 378,000 810,000 469.58 -49.58
4 560 1,600 896,000 2,560,000 679.95 -119.95
5 1,250 3,200 4,000,000 10,240,000 1160.80 89.20
6 840 2,300 1,932,000 5,290,000 890.32 -50.32
7 720 1,800 1,296,000 3,240,000 740.06 -20.06
8 490 700 343,000 490,000 409.48 80.52
9 690 1,300 897,000 1,690,000 589.79 100.21
10 850 2,400 2,040,000 5,760,000 920.37 -70.37
11 550 1,200 660,000 1,440,000 559.74 -9.74
12 780 1,700 1,326,000 2,890,000 710.00 70.00
Totales 8,490 20,300 16,072,000 40,030,000 8,490 0
24La ecuación matricial se escribe de la siguiente
forma
O simplemente
25Para el caso de 2 variables
Los
son los mismos obtenidos que el método anterior.
26Ejercicio Ilustrativo de Estimación de Parámetros
en un Modelo Lineal General (MCO) El director de
una agencia de viajes quiere estudiar el sector
turístico en Perú. Para ello dispone de
información relativa al grado de ocupación
hotelera (Y), número medio de turistas (X2),
medido en miles de turistas, y estancia media
(X3), medida en días.
OBSERVACIÓNº Nº DE OCUPACIÓN HOTELERA TURISTAS (MILES) DÍAS DE ESTANCIA
1 5 2 3
2 8 3 4
3 8 5 6
4 9 4 5
5 9 6 7
6 13 2 6
7 6 3 4
8 9 4 5
9 4 5 4
10 3 6 3
27Solución En este caso se tienen 2 variables
independientes, por lo que será conveniente hacer
uso de la forma matricial, por lo tanto Modelo
Lineal General
, donde n 10 k3
28los coeficientes del modelo serán
Luego, el modelo estimado es
29OPERACIONES CON MATRICES
- En este sección se presentarán las nociones
básicas del álgebra matricial. - Dado los siguientes datos hipotéticos (Periodo
1991-1995)
AÑO Y X1 X2
1991 3 3 5
1992 1 1 4
1993 8 5 6
1994 3 2 4
1995 5 4 6
30- Se desea estimar el siguiente modelo de
regresión lineal - Yt ß1 ß2X1t ß3X2t µt
- Donde
- Yt es la variable dependiente o endógena.
- X1, X2 son variables independientes o exógenas.
- ß1, ß2 y ß3 son parámetros desconocidos. A ß1 se
le conoce con el nombre de intercepto, a los ß2
y ß3 se les llaman coeficientes de regresión. - µt es una variable aleatoria no correlacionada y
no observable.
31 - A partir de los datos se crean las siguientes
matrices -
- En este caso
- n 5 (numero de observaciones)
- k 3 (numero de parámetros del modelo)
32- Matriz.- es un arreglo de números o elementos en
filas y en columnas. Cuando se habla del orden de
una matriz se refiere a la cantidad de elementos
ordenados en filas y columnas, por ejemplo las
matrices X es una matriz de orden (3x5), mientras
que la matriz Y es de (5x1). - Para estimar el modelo se hará uso de
-
- Por lo que para encontrar esos valores será
necesario realizar ciertos cálculos matriciales
previos tales como
33TRANSPUESTA DE UNA MATRIZ
- La transpuesta de una matriz X de orden (5x3) la
cual se denota por X, es una matriz de orden
(3x5), la cual es obtenida a partir de cambiar
las filas por las columnas, es decir que por
ejemplo la primera fila de X se convierte la
primera columna de X. - Las transpuestas de X e Y serán
34MULTIPLICACIÓN DE MATRICES
- Cada elemento de esta nueva matriz se obtiene
sumando los valores que resultan de multiplicar
los elementos de una fila de la matriz (por
ejemplo de X) por su columna correspondiente de
la otra matriz (por ejemplo Y), lo que originará
que se forme una matriz de orden (3x1) la cual
proviene de que la primera matiz tenga 3 filas y
la segunda 5 columnas.
35- En el Excel
- Aplicar la función mmult(matriz1,matriz2)
- Sombrear el área de la matriz resultante y con
las teclas control ? (shif), posicionándose
en la barra de funciones, teclear ? (enter)
36- De manera similar se calcula
37INVERSA²
- La inversa de una matriz origina otra matriz la
cual se podrá calcular solamente cuando tenga la
misma cantidad de filas y columnas, además su
determinante debe ser diferente de cero. - Para el calculo de los parámetros se debe
calcular la inversa de
² La inversa de una matriz puede ser halla por
medio de calculadoras matriciales, esto resulta
útil para el ahorro de tiempo en los cálculos.
38- En el Excel
- Aplicar la función minv(matriz)
- Sombrar el área de la matriz resultante y con las
teclas control ? (shif), posicionándose en
la barra de funciones, teclear ? (enter)
39CALCULO DE LOS PARAMETROS
- Utilizando la fórmula , se
obtiene
40- Valor estimando de la varianza de los términos de
perturbación - En el modelo de regresión lineal se obtiene a
partir de -
41(No Transcript)
42- Estimación de la matriz de varianzas y
covarianzas de los B
43INFERENCIA ESTADISTICA
44INTERVALO DE CONFIANZA PARA LOS PARAMETROS A fin
de establecer los intervalos de confianza para
los coeficientes de regresión (?I) y teniendo la
varianza poblacional desconocida se construye un
intervalo asumiendo que esta variable tiene una
distribución estadística t a partir de las
estimaciones de los parámetros y sus varianzas
por ejemplo para ?n
45Multiplicando por 1
Despejando
Sumando
46Ejemplo
Número de familia Ingreso X Consumo Y
1 2 3 4 5 6 7 8 9 10 80 100 120 140 160 180 200 220 240 260 70 65 90 95 110 115 120 140 155 150
47Y
X
ß
48(No Transcript)
49ESTIMACION DE LA VARIANZA DEL TERMINO DE
PERTURBACION
132,100-131,764 10-2
50Reemplazando en la fórmula tenemos
Calculando Varianza
(
)
2
s
9209
.
40
975757
.
0
9375
.
41
b
1
(
)
2
s
00127
.
0
0000303
.
0
9375
.
41
b
2
s
3969
.
6
ˆ
b
1
0356
.
0
s
ˆ
b
2
51CONSTRUCCION DE INTERVALOS PARA ?I
Para un nivel de significación del 5 observando
en la tabla t de student t(n-k)?/2 t
(10-2)0.05/2 t(8)0.025 2.306
52Otra forma de expresarlo con prob.
P(0.4268??2 ?0.5919)1-0.050.95
Dado un coeficiente de confianza del 95 en el
I.p si se construye cien intervalos repetidos con
los límites siguientes 0.4268 y 0.919, en el 95
de ellos estarían verdadero parámetro poblacional.
53Objetivos del tema
- Conocer el proceso para contrastar hipótesis
- Diferenciar entre hipótesis nula y alternativa
- Nivel de significación
- Significación
- Toma de decisiones, tipos de error y
cuantificación del error.
54Contrastando una hipótesis
Son demasiados...
Creo que la edad media es 40 años...
Gran diferencia! Rechazo la hipótesis
Muestra aleatoria
55Identificación de hipótesis
- Hipótesis nula Ho
- La que contrastamos
- Los datos pueden refutarla
- No debería ser rechazada sin una buena razón.
- Hipótesis alternativa H1
- Niega a H0
- Los datos pueden mostrar evidencia a favor
- No debería ser aceptada sin una gran evidencia a
favor.
56Razonamiento básico
Si supongo que H0 es cierta...
qué hace un científico cuando su teoría no
coincide con sus predicciones?
... el resultado del experimento sería
improbable. Sin embargo ocurrió.
57Razonamiento básico
Si supongo que H0 es cierta...
Rechazo que H0 sea cierta.
... el resultado del experimento sería
improbable. Sin embargo ocurrió.
58Razonamiento básico
Si supongo que H0 es cierta...
- No hay evidencia contra H0
- No se rechaza H0
- El experimento no es concluyente
- El contraste no es significativo
Si una teoría hace predicciones con éxito, queda
probado que es cierta?
... el resultado del experimento es coherente.
59Región crítica y nivel de significación
- Nivel de significación a
- Número pequeño 1 , 5
- Fijado de antemano por el investigador
- Es la probabilidad de rechazar H0 cuando es cierta
- Región crítica
- Valores improbables si...
- Es conocida antes de realizar el experimento
resultados experimentales que refutarían H0
a5
Reg. Crit.
Reg. Crit.
No rechazo H0
H0 m40
Región aceptación (1-a)
60Contrastes unilateral y bilateral
La posición de la región crítica depende de la
hipótesis alternativa
H1 m¹40
Bilateral
Unilateral
Unilateral
H1 mlt40
H1 mgt40
61Significación p
a
H0 m40
62Significación p
No se rechaza H0 m40
a
H0 m40
63Significación p
El contraste es estadísticamente significativo
cuando plta Es decir, si el resultado
experimental discrepa más de lo tolerado a
priori.
El p-valor es el menor nivel de significación al
que rechazaríamos H0
a
P
Se rechaza H0 m40 Se acepta H1 mgt40
a
P
64Resumen a, p y criterio de rechazo
- Sobre a
- Es número pequeño, preelegido al diseñar el
experimento - Conocido a sabemos todo sobre la región crítica
- Sobre p
- Es conocido tras realizar el experimento
- Conocido p sabemos todo sobre el resultado del
experimento
- Sobre el criterio de rechazo
- Contraste significativo ? p menor que a
65Tipos de error al contrastar hipótesis
Realidad Realidad
H0 cierta H0 Falsa
No Rechazo H0 Correcto Probabilidad 1- ß Error de tipo II Probabilidad ß
Rechazo H0 Acepto H1 Error de tipo I Probabilidad a Correcto Probabilidad 1-a .
66Conclusiones
- Las hipótesis no se plantean después de observar
los datos. - En ciencia, las hipótesis nula y alternativa no
tienen el mismo papel - H0 Hipótesis científicamente más simple.
- H1 El peso de la prueba recae en ella.
- a debe ser pequeño
- Rechazar una hipótesis consiste en observar si
plta - Rechazar una hipótesis no prueba que sea falsa.
Podemos cometer error de tipo I - No rechazar una hipótesis no prueba que sea
cierta. Podemos cometer error de - tipo II
- Si decidimos rechazar una hipótesis debemos
mostrar la probabilidad de equivocarnos.