Title: CAPTULO 9 REGRESIN NOPARAMTRICA
1CAPÍTULO 9REGRESIÓN NOPARAMÉTRICA
- Edgar Acuña Fernández
- Departamento de Matemáticas
- Universidad de Puerto Rico
- Recinto Universitario de Mayagüez
2REGRESIÓN NOPARAMÉTRICA
- En regresión lineal g(Xi)???Xi y para
efectos de hacer inferencia se asume que ? se
distribuye normalmente. -
- g(x)E(Y/X) es una media condicional, es
decir el promedio de todas las Ys para un valor
dado de X, donde (X,Y) no necesariamente aparece
en la muestra. - En regresión noparamétrica, la forma de la
función g y la distribución de los errores es
determinada usando los datos que se han tomado.
3Maneras de Atacar el Problema
- Ajustar los datos localmente ( haciendo uso de
vecindades) a - través de modelos bien sencillos. Por ejemplo,
aproximar la - media condicional por un promedio de los valores
observados de - y que están en la vecindad del valor de x. La
suavización por - kernel es un ejemplo de este caso
- Ajustar un modelo que incluye una parte
paramétrica (tal como - un modelo polinomial) y otra parte noparamétrica
sujeta a una - penalidad por complejidad para prevenir el
overfitting. - Cuando ocurre overfitting es porque se ha
tratado de ajustar el - modelo más al noise que al signal. La
suavización por - splines es un ejemplo de este caso.
4Parámetro de Suavización
- Cuando se usa modelos locales se requiere estimar
el ancho - de banda (bandwidth) o ancho de ventana.
- Cuando se usa estimación penalizada hay que
tratar de - estimar la penalidad por complejidad, tratando de
balancear - la bondad de ajuste del modelo y la complejidad
del mismo - (la complejidad está relacionada al número de
paramétros - que hay que estimar en el modelo).
5Suavización Bivariada
- Entre los métodos más usados están
- i) El Regresorgrama (Tukey, 1961),
- ii) Running means(Promedios móviles),
- iii) Running line,
- iv) Suavización usando los k vecinos más
cercanos, K-nn smoothing . - v) Suavizacion por kernels, Nadaraya-Watson
(1964) - vi) Regresión local ponderada, LOWESS (Cleveland,
1979) - vii) Regresión polynomial,
- viii) Suavización por splines, (Wabba, 1975)
- ix) Regresión por splines, (Stone and Koo, 1985)
6El Regresorgrama
- Aquí se divide el intervalo de los valores de la
variable - predictora en varios subintervalos (usualmente
5). La - amplitud de los subintervalos se elige de tal
manera que - haya aproximadamente igual numero de datos en
cada uno - de ellos. Luego se promedia los valores de la
variable de - respuesta en cada subintervalo. Esto determina
varios - segmentos de línea que al unirselos forma el
regresorgrama. - La desventaja de este estimador es que no es
suave porque - hay saltos en cada punto de corte.
7Running Means, running Medians y Running
Lines
- Para cada valor xi se define una vecindad
simétrica N(xi) - que contenga a dicho punto. La simetria en el
número de - puntos k tanto a la derecha como izquierda del
punto dado, - en los extremos esto no se puede lograr, pero se
trata de - estar lo mas cerca posible.
- El conjunto de indices de la vecindad simétrica
para la - observación xi, varia entre max(i-k,1) hasta
min(ik,n).
8Running Means, running Medians y Running
Lines
- Calculo del suavizador por Running Means en el
punto xi - de la siguiente manera
- s(xi)promedio de las ys
en N(xi) - El suavizador por running medians en el punto
xi está definido - de la siguiente manera
- s(xi)mediana de las ys
en N(xi) - El suavizador por running lines se calcula por
- s(xi)valor estimado de la
regresión mínimo - cuadrática para
xxi que se obtiene - usando los puntos
(xi,yi) con xi que cae en - N(xi).
9Suavizador por los k vecinos más cercanos
- Aquí para cada valor de xi se define una vecindad
Nk(xi) que - contiene los k valores de x que están más
cercanos a xi. La - cercania se determina usando una función
distancia. - El valor de k generalmente es impar. Luego el
suavizador se - calcula por
- s(xi)promedio de las ys
en N(xi)
10Suavización por Kernels
- En la suavización por kernel la función de
densidad de x - y la función de densidad conjunta de (x,y) son
- estimadas usando los datos (xi,yi) de la muestra.
Más - específicamente
- y
11Suavización por Kernels
- K(t) es llamado el kernel y es una función
nonegativa, - simétrica con respecto a 0 y con valor máximo en
dicho - punto
- la estimación por el método de kernel para g
estará dado por - El parámetro h es llamado ancho de banda
bandwidth y es estimado usando los datos.
12Regresión local ponderada, LOWESS
- En este método,si xo es un punto donde se desea
hallar la suavización, entonces - primero se halla una vecindad usando los k
vecinos más cercanos y luego se - halla una regresión ponderada en dicha vecindad
el valor ajustado de y en xo será - el valor del suavizador.
- Más detalladamente el método trabaja así
- i) Se identifican los k vecinos mas cercanos de
xo y se denota la vecindad por - N(xo)
- ii) Se calcula la distancia a xo del punto más
alejado que está dentro de la - vecindad N(xo) y se lo representa por ?(xo).
- iii) Para cada punto xi en la vecindad N(xo) se
calcula los pesos wi usando la - función peso tri-cúbica definida por
-
-
siempre que t-xolt?(xo) - iv) Se define el suvizador s en xo por
13Regresión Polinomial
Aquí se ajustan los datos (xi,yi) para i1,n, a
un polinomio de la forma
- n debe ser mayor que k1
- de lo contrario se tendría
- un overfitting total como
- lo muestra la figura.
14Regresión por Splines
- Un spline (Schoemberg, 1964) de orden p con k
nudos, t1,tk en - el intervalo a,b es una función que se se
obtiene dividiendo - primero el intervalo a,b en los subintervalos
xo,x1),,xk,xk1, - con xoa y xk1b y usando luego un polinomio de
grado menor - o igual que p en cada uno de los subintervalos,
además estos - pedazos polinomiales deben unirse suavemente en
cada uno de - los nudos. Más formalmente, el spline s(x) está
definido por - donde ?0, ?1,?P1,.,?K son constantes a
determinar, y - la función potencia truncada de orden p esta
dada por
15Regresión por Splines
- Ejemplo de spline cubico
- Las funciones 1, x,x2,.,xp, forman una base de
funciones del - spline. Lamentablemente esta base tiende a crear
problemas de - multicolinealidad, por lo que se recomienda
explorar otras bases. - Una alternativa son los B-splines cuya base de
funciones son - calculadas recursivamente ( ver Boor, 1978).
16Suavización por Splines
- El suavizador por splines se obtiene minimizando
- El primer término es una media de la bondad de
ajuste del - modelo y el segundo término es una medida del
grado de - suavidad. El parámetro de suavidad ? es positivo
y gobierna el - intercambio entre la suavidad y la bondad de
ajuste del - suavizador. Cuando ?? se obtiene una
aproximación polinomial - y cuando ?0 se obtiene una regresión por spline.
Considerando - que
-
- y
17Suavización por Splines
- La expresión a minimizar sera
- donde ? es una matríz tal que
- Minimizando la expresión con respecto a ? se
obtiene que - que es un resultado bien similar a Regresión
Ridge - Recordando que se tendría que
- Aqui la matriz es
llamada la matriz HAT.
18Elección del parámetro ?
- a) Usando validación cruzada
- Sea el spline ajustado con
parámetro de suavización ? - Sea el spline ajustado con
parámetro de suavización ? - pero sin usar la observación (xi,yi) entonces se
define la función - de validación cruzada como
-
- el valor ? que minimiza CV(?) es el valor que se
escoge como - parámetro de suavización.
- El problema con CV es que es computacionalmente
caro - calcularlo. Una major alternativa es usar GCV.
19Elección del parámetro ?
- b) Usando validación cruzada generalizada (GCV)
- El GCV es una aproximación del CV.
- Se define por
- el valor ? que minimiza GCV(?) es el valor que se
- escoge como parámetro de suavización.
20Suavización multidimensional
- i) Modelos Aditivos generalizados, GAM (Hastie y
Tibshirani, 1985) - ii) Regresión por Projection Pursuit, PPR (
Friedman, Stuelze, 1981) - iii) Regresión por arboles, CART (Breiman,
Friedman, Olsen y Stone, 1984) - iv) Regresión multivariada adaptativa usando
Splines, MARS (Friedman, 1991) - v) Esperados Condicionales Alternantes, ACE
(Breiman y Friedman, 1985) - vi) Neural Networks (Barron
- vii) Wavelets smoothing (Donoho y Johnstone, 1995)
21Modelos Aditivos generalizados (GAM)
- Un modelo aditivo generalizado es de la forma
- yf1(x1)f2(x2)..fp(xp) e
- aqui las fj son estimadas usando cualquiera de
los suavizadores - bivariados.
- El modelo es ajustado usando el algoritmo local
scoring, el cual - iterativamente ajusta modelos aditivos ponderados
usando - backfitting. El algoritmo backfitting es un
método de - Gauss-Seidel para ajustar modelos aditivos usando
residuales - parciales de suavización iterativamente.
22Algoritmo Backfitting
- 1) En el paso inicial se define las funciones
- 2) En la i-ésima iteration, se estima por
- para j1,.p
- Cotejar si para todo j1,..,p, donde ? es una
constante - de tolerancia. Si no se cumple la condición
volver al - paso 2. En caso contrario parar y usar como
fj en el - modelo aditivo.
23Regresión usando árboles de decisión (CART)
- En este caso la superfice de regresión es
estimada usando el siguiente modelo aditivo - las ci son constantes y INi(x)1 si x ? Ni y es
igual 0 en - otro caso. Los Ni son hiperrectangulos disjuntos
con - lados paralelos a los ejes coordenados. Los
- hiperrectangulos son construidos por partición
recursiva - y pueden ser representados como un árbol.