CAPTULO 9 REGRESIN NOPARAMTRICA - PowerPoint PPT Presentation

1 / 23
About This Presentation
Title:

CAPTULO 9 REGRESIN NOPARAMTRICA

Description:

'Running Means', 'running Medians' y 'Running Lines' ... El suavizador por 'running medians' en el punto xi est definido. de la siguiente manera: ... – PowerPoint PPT presentation

Number of Views:463
Avg rating:3.0/5.0
Slides: 24
Provided by: Fri
Category:

less

Transcript and Presenter's Notes

Title: CAPTULO 9 REGRESIN NOPARAMTRICA


1
CAPÍTULO 9REGRESIÓN NOPARAMÉTRICA
  • Edgar Acuña Fernández
  • Departamento de Matemáticas
  • Universidad de Puerto Rico
  • Recinto Universitario de Mayagüez

2
REGRESIÓN NOPARAMÉTRICA
  • En regresión lineal g(Xi)???Xi y para
    efectos de hacer inferencia se asume que ? se
    distribuye normalmente.
  • g(x)E(Y/X) es una media condicional, es
    decir el promedio de todas las Ys para un valor
    dado de X, donde (X,Y) no necesariamente aparece
    en la muestra.
  • En regresión noparamétrica, la forma de la
    función g y la distribución de los errores es
    determinada usando los datos que se han tomado.

3
Maneras de Atacar el Problema
  • Ajustar los datos localmente ( haciendo uso de
    vecindades) a
  • través de modelos bien sencillos. Por ejemplo,
    aproximar la
  • media condicional por un promedio de los valores
    observados de
  • y que están en la vecindad del valor de x. La
    suavización por
  • kernel es un ejemplo de este caso
  • Ajustar un modelo que incluye una parte
    paramétrica (tal como
  • un modelo polinomial) y otra parte noparamétrica
    sujeta a una
  • penalidad por complejidad para prevenir el
    overfitting.
  • Cuando ocurre overfitting es porque se ha
    tratado de ajustar el
  • modelo más al noise que al signal. La
    suavización por
  • splines es un ejemplo de este caso.

4
Parámetro de Suavización
  • Cuando se usa modelos locales se requiere estimar
    el ancho
  • de banda (bandwidth) o ancho de ventana.
  • Cuando se usa estimación penalizada hay que
    tratar de
  • estimar la penalidad por complejidad, tratando de
    balancear
  • la bondad de ajuste del modelo y la complejidad
    del mismo
  • (la complejidad está relacionada al número de
    paramétros
  • que hay que estimar en el modelo).

5
Suavización Bivariada
  • Entre los métodos más usados están
  • i) El Regresorgrama (Tukey, 1961),
  • ii) Running means(Promedios móviles),
  • iii) Running line,
  • iv) Suavización usando los k vecinos más
    cercanos, K-nn smoothing .
  • v) Suavizacion por kernels, Nadaraya-Watson
    (1964)
  • vi) Regresión local ponderada, LOWESS (Cleveland,
    1979)
  • vii) Regresión polynomial,
  • viii) Suavización por splines, (Wabba, 1975)
  • ix) Regresión por splines, (Stone and Koo, 1985)

6
El Regresorgrama
  • Aquí se divide el intervalo de los valores de la
    variable
  • predictora en varios subintervalos (usualmente
    5). La
  • amplitud de los subintervalos se elige de tal
    manera que
  • haya aproximadamente igual numero de datos en
    cada uno
  • de ellos. Luego se promedia los valores de la
    variable de
  • respuesta en cada subintervalo. Esto determina
    varios
  • segmentos de línea que al unirselos forma el
    regresorgrama.
  • La desventaja de este estimador es que no es
    suave porque
  • hay saltos en cada punto de corte.

7
Running Means, running Medians y Running
Lines
  • Para cada valor xi se define una vecindad
    simétrica N(xi)
  • que contenga a dicho punto. La simetria en el
    número de
  • puntos k tanto a la derecha como izquierda del
    punto dado,
  • en los extremos esto no se puede lograr, pero se
    trata de
  • estar lo mas cerca posible.
  • El conjunto de indices de la vecindad simétrica
    para la
  • observación xi, varia entre max(i-k,1) hasta
    min(ik,n).

8
Running Means, running Medians y Running
Lines
  • Calculo del suavizador por Running Means en el
    punto xi
  • de la siguiente manera
  • s(xi)promedio de las ys
    en N(xi)
  • El suavizador por running medians en el punto
    xi está definido
  • de la siguiente manera
  • s(xi)mediana de las ys
    en N(xi)
  • El suavizador por running lines se calcula por
  • s(xi)valor estimado de la
    regresión mínimo
  • cuadrática para
    xxi que se obtiene
  • usando los puntos
    (xi,yi) con xi que cae en
  • N(xi).

9
Suavizador por los k vecinos más cercanos
  • Aquí para cada valor de xi se define una vecindad
    Nk(xi) que
  • contiene los k valores de x que están más
    cercanos a xi. La
  • cercania se determina usando una función
    distancia.
  • El valor de k generalmente es impar. Luego el
    suavizador se
  • calcula por
  • s(xi)promedio de las ys
    en N(xi)

10
Suavización por Kernels
  • En la suavización por kernel la función de
    densidad de x
  • y la función de densidad conjunta de (x,y) son
  • estimadas usando los datos (xi,yi) de la muestra.
    Más
  • específicamente
  • y

11
Suavización por Kernels
  • K(t) es llamado el kernel y es una función
    nonegativa,
  • simétrica con respecto a 0 y con valor máximo en
    dicho
  • punto
  • la estimación por el método de kernel para g
    estará dado por
  • El parámetro h es llamado ancho de banda
    bandwidth y es estimado usando los datos.

12
Regresión local ponderada, LOWESS
  • En este método,si xo es un punto donde se desea
    hallar la suavización, entonces
  • primero se halla una vecindad usando los k
    vecinos más cercanos y luego se
  • halla una regresión ponderada en dicha vecindad
    el valor ajustado de y en xo será
  • el valor del suavizador.
  • Más detalladamente el método trabaja así
  • i) Se identifican los k vecinos mas cercanos de
    xo y se denota la vecindad por
  • N(xo)
  • ii) Se calcula la distancia a xo del punto más
    alejado que está dentro de la
  • vecindad N(xo) y se lo representa por ?(xo).
  • iii) Para cada punto xi en la vecindad N(xo) se
    calcula los pesos wi usando la
  • función peso tri-cúbica definida por

  • siempre que t-xolt?(xo)
  • iv) Se define el suvizador s en xo por

13
Regresión Polinomial
Aquí se ajustan los datos (xi,yi) para i1,n, a
un polinomio de la forma
  • n debe ser mayor que k1
  • de lo contrario se tendría
  • un overfitting total como
  • lo muestra la figura.

14
Regresión por Splines
  • Un spline (Schoemberg, 1964) de orden p con k
    nudos, t1,tk en
  • el intervalo a,b es una función que se se
    obtiene dividiendo
  • primero el intervalo a,b en los subintervalos
    xo,x1),,xk,xk1,
  • con xoa y xk1b y usando luego un polinomio de
    grado menor
  • o igual que p en cada uno de los subintervalos,
    además estos
  • pedazos polinomiales deben unirse suavemente en
    cada uno de
  • los nudos. Más formalmente, el spline s(x) está
    definido por
  • donde ?0, ?1,?P1,.,?K son constantes a
    determinar, y
  • la función potencia truncada de orden p esta
    dada por

15
Regresión por Splines
  • Ejemplo de spline cubico
  • Las funciones 1, x,x2,.,xp, forman una base de
    funciones del
  • spline. Lamentablemente esta base tiende a crear
    problemas de
  • multicolinealidad, por lo que se recomienda
    explorar otras bases.
  • Una alternativa son los B-splines cuya base de
    funciones son
  • calculadas recursivamente ( ver Boor, 1978).

16
Suavización por Splines
  • El suavizador por splines se obtiene minimizando
  • El primer término es una media de la bondad de
    ajuste del
  • modelo y el segundo término es una medida del
    grado de
  • suavidad. El parámetro de suavidad ? es positivo
    y gobierna el
  • intercambio entre la suavidad y la bondad de
    ajuste del
  • suavizador. Cuando ?? se obtiene una
    aproximación polinomial
  • y cuando ?0 se obtiene una regresión por spline.
    Considerando
  • que
  • y

17
Suavización por Splines
  • La expresión a minimizar sera
  • donde ? es una matríz tal que
  • Minimizando la expresión con respecto a ? se
    obtiene que
  • que es un resultado bien similar a Regresión
    Ridge
  • Recordando que se tendría que
  • Aqui la matriz es
    llamada la matriz HAT.

18
Elección del parámetro ?
  • a) Usando validación cruzada
  • Sea el spline ajustado con
    parámetro de suavización ?
  • Sea el spline ajustado con
    parámetro de suavización ?
  • pero sin usar la observación (xi,yi) entonces se
    define la función
  • de validación cruzada como
  • el valor ? que minimiza CV(?) es el valor que se
    escoge como
  • parámetro de suavización.
  • El problema con CV es que es computacionalmente
    caro
  • calcularlo. Una major alternativa es usar GCV.

19
Elección del parámetro ?
  • b) Usando validación cruzada generalizada (GCV)
  • El GCV es una aproximación del CV.
  • Se define por
  • el valor ? que minimiza GCV(?) es el valor que se
  • escoge como parámetro de suavización.

20
Suavización multidimensional
  • i) Modelos Aditivos generalizados, GAM (Hastie y
    Tibshirani, 1985)
  • ii) Regresión por Projection Pursuit, PPR (
    Friedman, Stuelze, 1981)
  • iii) Regresión por arboles, CART (Breiman,
    Friedman, Olsen y Stone, 1984)
  • iv) Regresión multivariada adaptativa usando
    Splines, MARS (Friedman, 1991)
  • v) Esperados Condicionales Alternantes, ACE
    (Breiman y Friedman, 1985)
  • vi) Neural Networks (Barron
  • vii) Wavelets smoothing (Donoho y Johnstone, 1995)

21
Modelos Aditivos generalizados (GAM)
  • Un modelo aditivo generalizado es de la forma
  • yf1(x1)f2(x2)..fp(xp) e
  • aqui las fj son estimadas usando cualquiera de
    los suavizadores
  • bivariados.
  • El modelo es ajustado usando el algoritmo local
    scoring, el cual
  • iterativamente ajusta modelos aditivos ponderados
    usando
  • backfitting. El algoritmo backfitting es un
    método de
  • Gauss-Seidel para ajustar modelos aditivos usando
    residuales
  • parciales de suavización iterativamente.

22
Algoritmo Backfitting
  • 1) En el paso inicial se define las funciones
  • 2) En la i-ésima iteration, se estima por
  • para j1,.p
  • Cotejar si para todo j1,..,p, donde ? es una
    constante
  • de tolerancia. Si no se cumple la condición
    volver al
  • paso 2. En caso contrario parar y usar como
    fj en el
  • modelo aditivo.

23
Regresión usando árboles de decisión (CART)
  • En este caso la superfice de regresión es
    estimada usando el siguiente modelo aditivo
  • las ci son constantes y INi(x)1 si x ? Ni y es
    igual 0 en
  • otro caso. Los Ni son hiperrectangulos disjuntos
    con
  • lados paralelos a los ejes coordenados. Los
  • hiperrectangulos son construidos por partición
    recursiva
  • y pueden ser representados como un árbol.
Write a Comment
User Comments (0)
About PowerShow.com