CORRELACION Y REGRESION LINEAL: Introducci - PowerPoint PPT Presentation

1 / 48
About This Presentation
Title:

CORRELACION Y REGRESION LINEAL: Introducci

Description:

CORRELACION Y REGRESION LINEAL: Introducci n Mario Briones L. MV, MSc – PowerPoint PPT presentation

Number of Views:173
Avg rating:3.0/5.0
Slides: 49
Provided by: J3269
Category:

less

Transcript and Presenter's Notes

Title: CORRELACION Y REGRESION LINEAL: Introducci


1
CORRELACION Y REGRESION LINEAL Introducción
  • Mario Briones L.
  • MV, MSc

2
Correlación lineal de Pearson.
  • Medida de la estrechez de la asociación entre dos
    variables cuantitativas.
  • Asociación fluctuación en conjunto de dos
    variables

3
Correlación lineal de Pearson
  • Muchas veces en que se dispone de datos en pares,
    se desea conocer si ambas variables está
    relacionadas o son independientes

4
Considere los siguientes datos
  • Valores de pluviometría para once localidades a
    diferente altura sobre el nivel del mar

5
Gráfico de la asociación
Promedio de Y 530 mts
Promedio de X 959.2 mts
6
COVARIANZA Medida de la variación en conjunto de
dos variables
CONCEPTO
FORMULA DE CALCULO
Donde n es el número de pares de valores X Y
7
En el ejemplo
Atención! La función COVAR de Excel divide por
n...
8
Covarianza en el ejemplo
  • Cov(XY) 13.079,41
  • El signo positivo indica que valores por sobre el
    promedio de X tienden a estar asociados con
    valores por sobre el promedio de Y
  • Valores negativos indican que valores por sobre
    el promedio de X tienden a estar asociados con
    valores por debajo del promedio de Y

9
Estandarización de la medición
  • Pearson, matemático Inglés, desarrolló un índice,
    que divide la covarianza por el producto de las
    desviaciones estándares de X y de Y

En la población En la
muestra
10
Correlación lineal de Pearson
  • El índice r, fluctúa entre 1 y 1
  • Si la fluctuación en conjunto es estrecha, el
    valor de r se acerca a 1 o 1.
  • Si la fluctuación en conjunto es baja, el valor
    de r se acerca a cero.

11
Coeficiente de correlación de Pearson en el
ejemplo
12
Es la correlación observada diferente de cero?
(H0??)
Nlt 30
Ngt 30
N es la cantidad de pares XY
13
Es la correlación observada diferente de cero, en
el ejemplo?
En la tabla de t, con alfa 0.05 (dos colas) y 10
grados de libertad (n-1), el valor crítico es
2.22 Por lo tanto se puede rechazar H0
respecto del valor poblacional de rho Hay una
asociación significativa entre la altura sobre el
nivel del mar y la cantidad de precipitación (Plt0.
05) (en la población)
14
Otra opción es comparar el valor de r
calculado con el valor de r de la
tabla adjunta. Si el valor de r calculado es
mayor que el r del número de grados de libertad
de la correlación (n-1)10 valor crítico 0.632
15
Transformación de Fisher del coeficiente de
correlación
Z tiene distribución aproximadamente normal,
con media r y error estándar
16
Transformación de Fisher en el ejemplo
17
Intervalo de confianza del coeficiente de
correlación
Para obtener el intervalo de confianza en
unidades de correlación se transforman de modo
inverso usando el mismo método de r a z
En INTERNET http//faculty.vassar.edu/lowry/rho.h
tml?
18
Intervalo de confianza en el ejemplo
Según la página de Internet, el intervalo
de confianza de 95 para r0.856 límite
inferior0.527 límite superior0.961
19
Comparación de coeficientes de correlación
Se utilizan los coeficientes transformados
20
Correlación entre las líneas eléctricas y el
cáncer
  • Epidemiólogos del Instituto Karolinska de Suecia
    investigaron durante 25 años a 500.000 personas
    que vivían a menos de 300 metros de una línea
    eléctrica de alto voltaje.
  • Observaron que los niños tenían mayor incidencia
    de leucemia.

21
Correlación entre las líneas eléctricas y el
cáncer
  • Los hallazgos descritos obligaron al gobierno
    sueco a considerar reglamentos que reducirían la
    construcción de casas cercanas a las líneas
    eléctricas de alto voltaje.

22
Correlación entre las líneas eléctricas y el
cáncer
  • En un artículo acerca del estudio, la revista
    Time informó que aunque las investigaciones no
    demuestran una relación de causa y efecto, sí
    indican una inequívoca correlación entre el grado
    de exposición y el riesgo de leucemia infantil.

23
Errores comunes respecto a la correlación
  • Se debe tener cuidado de evitar concluir que la
    correlación implica causalidad
  • Variables ocultas
  • No utilizar tasas o promedios
  • Pérdida de variación entre individuos
  • Supuesto de linearidad de la relación

24
Correlación y regresión lineal
  • Si existe una conexión biológica (o de otro tipo)
    entre las variables X e Y, entonces puede
    formularse un modelo lineal que represente esta
    asociación.
  • El modelo se basa en la covarianza y en su forma
    más sencilla es una línea recta (Y a bX)

25
Ejemplo Rendimiento promedio de plantas de soya
(gr/planta) obtenidos en respuesta a los niveles
indicados de exposición al ozono en la la fase de
crecimiento.
X
Y ozono (ppm)
rendimiento (gr/pl) 0.02 242
0.07 237 0.11 231 0.15 201
SXi 0.35 SYi 911 X 0.0875 Y
227.75 SX2i 0.0399 SY2i 208495
SXiYi 76.99
26
MODELO
  • Asumiendo una relación lineal entre el
    rendimiento y el nivel del ozono, el modelo
    establece que la media verdadera de la variable
    dependiente cambia a una tasa constante en la
    medida que la variable dependiente aumenta o
    disminuye.
  • La relación funcional entre la media verdadera de
    Yi, E(Yi) y Xi es la ecuación de la línea recta

27
MODELO
  • Donde
  • a intercepto (valor de E(Y)cuando X es igual a
    cero
  • b pendiente de la línea (tasa de cambio de E(Y)
    ante un cambio unitario en X.

28
SUPUESTOS
  • Las observaciones de la variable dependiente Yi
    se asumen como observaciones aleatorias tomadas
    de poblaciones de variables aleatorias donde la
    media de cada población está dada por E(Yi).
  • La desviación de una observación Yi desde la
    media de su población, E(Yi) se considera
    añadiendo un término de error aleatorio ei para
    dar el siguiente modelo

29
SUPUESTOS
  • El subíndice indica cada unidad de observación en
    particular, i 1, 2, n. Los Xi son las n ésimas
    observaciones de la variable dependiente, que se
    supone son tomadas sin error.
  • Es decir, son constantes conocidas los Yi y los
    Xi son observaciones pareadas, tomadas en cada
    unidad observacional.

30
(No Transcript)
31
ESTIMACION DE MINIMOS CUADRADOS
  • Los parámetros en el modelo son b y a, a ser
    estimados desde los datos (muestra). Si no
    existiese error aleatorio en Yi, cualquier par de
    puntos podría ser utilizado para resolver los
    valores de los parámetros.
  • La variación aleatoria de Y, sin embargo, hace
    que cada par de valores de resultados diferentes
    (Todos los estimadores serían idénticos sólo si
    los datos observados cayeran exactamente sobre
    una línea recta.)

32
ESTIMACION DE MINIMOS CUADRADOS
  • Por lo tanto, el método de resolución debe
    combinar toda la información para dar una sola
    solución que sea la mejor en base a algún
    criterio.
  • El procedimiento de estimación de mínimos
    cuadrados utiliza el criterio de que la solución
    debe dar la suma más pequeña posible para las
    desviaciones al cuadrado desde los valores
    observados de Yi hasta sus medias verdaderas
    dadas por la solución.

33
ESTIMACION DE MINIMOS CUADRADOS
  • Sean b y a los estimadores numéricos de los
    parámetros b y a, respectivamente, y sea
  • el promedio estimado de Y para cada Xi, i 1,
    2,, n.
  • Se debe observar que Yi es obtenida sustituyendo
    los parámetros en la forma funcional del modelo
    que relaciona E(Yi) con Xi, dado por la ecuación
    de la recta.

34
El principio de los mínimos cuadrados escoge
valores de a y b que minimizan la suma de
cuadrados de los residuales, SC(Res) Dond
e es el valor residual
observado para la iésima observación. La suma
indicada por S es sobre todos los valores del
conjunto como lo indican los índices i 1 hasta
n Los estimadores de b y a se obtienen usando
cálculo para encontrar los valores que minimizan
SC(Res). Las derivadas de SC(Res) con respecto a
b y a son definidas iguales a cero.
35
Las ecuaciones normales son n(a) (SXi)b
SYi (SXi)a (SX2i)b SXiYi Resolviendo las
ecuaciones simultáneamente para a y b, da
los estimadores para a y b S(Xi-X)(Yi-Y)
Sxiyi b
S(Xi-X)2 Sx2i a Y - bX
36
Para facilidad de cálculo
(SXi)2 Sx2i SX2i - n
(SXi)(SYi) Sxiyi SXiYi -
n Lo que da la
siguiente fórmula de cálculo para la pendiente
37
Cálculo de la pendiente (b)
X
Y ozono (ppm)
rendimiento (gr/pl) 0.02 242
0.07 237 0.11 231 0.15 201
38
Cálculo de la constante (a)y ecuación
a 227.75 - (-293.531)(0.08875) 253.434
La ecuación de mínimo cuadrado que caracteriza el
efecto del ozono sobre el rendimiento promedio de
la soya en este estudio, asumiendo que el modelo
lineal es correcto es
39
Ejemplo Biomasa
40
Matriz de correlaciones del ejemplo
(obtenida con Herramientas para Análisis de
Excel, Correlación)
Valor crítico de r para alfa 0.05 y 43 grados de
libertad 0.3 appx
Las celdas en color contienen correlaciones
significativas Plt0.05)
41
Relación significativa (Plt0.05) entre pH y
Biomasa
42
Regresión lineal simple entre pH y biomasa
43
Relación no significativa (P?0.05) entre
salinidad y biomasa.
44
Relación significativa (Plt0.05) entre Zn y
Biomasa
45
Análisis de regresión pH vs Biomasa
significancia
IC 95 para coeficientes
ecuación
significancia
46
Gráfico de línea de regresión e intervalo de
confianza de 95 para la relación pH - biomasa
Observe que la pendiente no es cero, con un 95
de confianza
47
Análisis de regresión salinidad vs biomasa
48
Gráfico de línea de regresión e intervalo de
confianza de 95 para la relación salinidad -
biomasa
Observe que la pendiente puede ser igual a cero,
con un 95 de confianza
Write a Comment
User Comments (0)
About PowerShow.com