Title: Covariance
1Covariance
- X discrete random variable X
- Xi value of the ith outcome of X
- P(xiyi) probability of occurrence of the ith
outcome of X and ith outcome of Y - Y discrete random variable Y
- Yi value of the ith outcome of Y
- I 1, 2, , N
2Computing the Mean for Investment Returns
Return per 1,000 for two types of investments
Investment
P(XiYi) Economic condition Dow Jones fund
X Growth Stock Y .2
Recession -100 -200 .5
Stable Economy 100 50 .3
Expanding Economy 250 350
E(X) ?X (-100)(.2) (100)(.5) (250)(.3)
105 E(Y) ?Y (-200)(.2) (50)(.5)
(350)(.3) 90
3Computing the Variance for Investment Returns
Investment
P(XiYi) Economic condition Dow Jones fund
X Growth Stock Y .2
Recession -100 -200 .5
Stable Economy 100 50 .3
Expanding Economy 250 350
Var(X) (.2)(-100 -105)2 (.5)(100 -
105)2 (.3)(250 - 105)2 14,725,
?X 121.35 Var(Y)
(.2)(-200 - 90)2 (.5)(50 - 90)2 (.3)(350 -
90)2 37,900, ?Y
194.68
4Computing the Covariance for Investment Returns
Investment
P(XiYi) Economic condition Dow Jones fund
X Growth Stock Y .2
Recession -100 -200 .5
Stable Economy 100 50 .3
Expanding Economy 250 350
?XY (.2)(-100 - 105)(-200 - 90) (.5)(100 -
105)(50 - 90) (.3)(250 -105)(350 - 90)
23,300
The Covariance of 23,000 indicates that the two
investments are positively related and will vary
together in the same direction.
5Análisis multivariable Tema 3 Itziar
Aretxaga
6Búsqueda de correlaciones La salida de pesca
- Recomendaciones (Wall, 1996, QJRaS, 37, 719)
- Se ve a ojo alguna correlación? Si no es asÃ,
el cálculo formal de un coeficiente de
correlación es, probablemente, una pérdida de
tiempo. - Qué puntos crean la correlación? Si con el dedo
pulgar tapas el 10 de los puntos y la
correlación desaparece, cuidado!
Errores en los datos o efectos de selección
7Búsqueda de correlaciones La salida de pesca
- Recomendaciones (Wall, 1996, QJRaS, 37, 719)
- Puede estar causada por efectos de selección?
- Si 1. 2. 3. resultan negativos, calcúlese la
significancia de la correlación con alguno de los
métodos que se detallan a continuación.
LÃmite de detección de la densidad de flujo
radio del catálogo 3CR
8Búsqueda de correlaciones La salida de pesca
Recomendaciones (Wall, 1996, QJRaS, 37, 719) 5.
Tiene la lÃnea de regresión algún significado?
- Tiene sentido ajustar por mÃnimos cuadrados
alguna curva? (d) - Cuales son los errores en los parámetros del
ajuste? (c) - Por qué el ajuste tiene que ser lineal? (b)
- Si no sabemos qué variable actua como causa de
la correlación, cuál de las dos variables
debemos utilizar como independiente en el ajuste?
(a)
(véase lección sobre ajustes)
9Búsqueda de correlaciones La salida de pesca
- Recomendaciones (Wall, 1996, QJRaS, 37, 719)
- Existe alguna relación causal? Por qué? La
relación puede simplemente indicar la dependencia
de las dos variable, de una tercera, y eso crea
una correlación espuria.
Ejemplo diagramas L-L.
Sin embargo, el Statistical Consulting Center for
Astrophysics, recomienda utilizarlos siempre que
se utilice análisis de supervivencia. - GrafÃquense las variables de forma que la
correlación se vea de forma evidente en el
diagrama, si hace falta, recurriendo a encasillar
las variables y a realizar promedios.
Ejemplo la mediana del Ãndice de variabilidad
(?v) de QSOs ópticamente seleccionados para cada
intervalo MB muestra gráficamente la correlación
medida por métodos estadÃsticos. De otra forma,
los puntos del diagrama de dispersión muestran
una correlación cuanto menos cuestionable para el
lector novel.
mediana
(Hook et al. 1994)
10Correlaciones entre variables de tipo nominal
- Definiciones
- Variable nominal es aquella que conlleva
información sobre un conjunto de valores no
ordenado.
Ejemplo sistema de
clasificación morfológica de galaxias (E, S0, Sa,
Sb, ...). - Tabla de contingencia, recoge las incidencias Nij
entre dos variables nominales xi, yj.
11Correlaciones entre variables de tipo nominal
Ejemplo comparación de la determinación del tipo
espectral de estrellas, por métodos
espectroscópicos y fotométricos (Selman et al.
1999, AA).
12Correlaciones entre variables de tipo nominal
test ?2
? Método probar que es erronea la suposición
que las variables no están asociadas. Si es asÃ,
el número de incidencias esperado en el casillero
(i,j) será . Se define la
función La significancia de que ambas
distribuciones estén asociadas viene dada por
función de probabilidad ?2 con ? grados de
libertad ? Comparación de la intensidad de dos
correlaciones ? V de Cramer, tal que (no
corr.) 0 V 1 (corr. perfecta) ?
Coeficiente C, a utilizarse sólo cuando las
tablas de contingencia . . . . . tienen la misma
dimensión, tal que 0 C 1.
(Press et al., Numerical Recipes)
13Correlaciones entre variables de tipo ordinal o
continuo coeficiente de Pearson
? Definiciones se denomina variable ordinal
aquella cuyos valores discretos se pueden
ordenar, y variable continua, aquella cuyos
valores continuos se pueden ordenar.
Ejemplos orden de las galaxias más luminosas en
un cúmulo (1,2,3...), temperatura efectiva de una
nebulosa, ... ? Coeficiente de correlación lineal
de Pearson
? Suposición las variables están distribuidas
de forma gaussiana. Es un . test paramétrico.
? Método mide la
desviación de las variables respecto a una lÃnea
recta. Dados los puntos xi, yi i1,..,N se
define el coeficiente de correlación
tal que -1 r 1,
donde 1 indica correlación
perfecta, y 0 indica no correlación. La
significancia de que no exista una correlación
viene dada por la distribución
t-Student con N-2 grados de libertad, donde
r está relacionado con la
matriz de covariancia, que ofrece
también un test paramétrico si se utiliza
para buscar correlaciones
14Correlaciones entre variables de tipo ordinal o
continuo coeficiente de rangos de Spearman
? Suposiciones ninguna, es un test
no-paramétrico, y por lo tanto, muy utilizado en
AstrofÃsica. ? Método dados los puntos xi, yi
i1,..,N se definen las variables Ri , rango
cuando las xi están ordenadas ascendentemente, y
Si , rango cuando las yi están ordenadas
ascendentemente.
Si no se producen repeticiones
(ligas) en los
valores de xi, yi , se define el
coeficiente de Spearman
Si
se producen fk repeticiones entre las xi , y gm
repeticiones entre las yi que tiene la
propiedad ? 0 cuando no existe correlación.
La significancia de no asociación viene dada
aproximadamente por la distribución t-Student con
N-2 grados de libertad
siempre que se tengan más de 50 puntos, si no,
hay
que recurrir a tablas de significancias.
(Press et al. , Numerical Recipes)
15Correlaciones entre variables de tipo ordinal o
continuo coeficiente de Spearman
Tablas de significancias para N50
(Wall, 1996, QJRaS, 37, 719)
16Correlaciones entre variables de tipo ordinal o
continuo coeficiente de rangos de Kendall
? Suposiciones ninguna, es un test
no-paramétrico. De hecho, los resultados de los
tests de Spearman y Kendall están fuertemente
correlacionados. ? Método se crean todas las
combinaciones de puntos posibles
(xi, yi), (xj, yj) tal que i ? j y se
definen
c número de parejas concordantes (xigtxj y
yigtyj) o (xiltxj y yiltyj) d número de
parejas discordantes (xigtxj y yiltyj) o
(xiltxj y yigtyj) eynúmero de ligas en y, con
xi?xj
exnúmero de ligas en
x, con yi?yj El coeficiente de Kendall se
define
tal que -1 t 1 donde 1 indica
correlación perfecta, y 0 indica no correlación.
La significancia de no asociación viene dada por
una distribución normal
(Press et al. , Numerical Recipes)
17Correlaciones entre variables de tipo ordinal o
continuo coeficiente de rangos de Kendall
Ejemplo anticorrelación entre variabilidad (sv)
y luminosidad (MB) en QSOs. Nótese que incluso
para valores pequeños del coeficiente de rangos
de Kendall, la significancia de asociación es
grande. Por comparación, la variabilidad (sv) y
el redshift (z) no están significativamente
asociados.
(Hook et al. 1994, MNRAS, 268, 305)
18Correlaciones entre variables de tipo ordinal o
continuo coeficiente de rangos parciales
? Utilidad comprobar si la correlación
encontrada entre dos variables x,y está generada
por la asociación de ambas con una tercera
variable z. ? Método se pueden utilizar tanto
el coeficiente de rangos ? de Spearman como el t
de Kendall. Es un test no-paramétrico. Se
define el coeficiente de rangos parciales La
significancia de que la correlación entre x,y se
deba enteramente a la correlación de ambas con z
viene dada por
que se encuentra distribuida de forma normal, en
el caso de total dependencia (Macklin J.T.,
1982, MNRAS, 199, 1119). Ejemplo relación
entre tamaño angular (?), Ãndice espectral (a) y
redshift (z) de las fuentes del catálogo 3CR
19Análisis multivariable componentes principales
? Utilidad es muy potente para analizar las
relaciones entre muchas variables. ? Método
dadas p variables con n puntos cada una, se
define el sistema de componentes principales como
aquel sistema de referencia de p ejes ortogonales
en el que se maximiza la variancia de los n
puntos, de forma decreciente del primero de los
ejes, al último. Sea
el vector de p coordenadas, Y la matriz de pn
observaciones. La media de las observaciones se
puede expresar como
. , donde I es el vector unitario de
dimensión n, y la matriz de covariancia
, donde Y es una . .
matriz pn cuyas
files son todas iguales a y . Se puede demostrar
que define un sistema de elipsoides centrados
en el centro de gravedad de la nube de puntos
cuyos ejes trazan, de forma descendiente, la
máxima variancia.
Ejes propios de la matriz de covariancia
20Análisis multivariable componentes principales
Puesto que por definición C es simétrica, se
puede calcular la base ortogonal que minimiza la
variancia de la nube de puntos a través de sus
valores propios (?i ) y vectores propios (ai) o
eigenvalues y eigenvectors C ai ?i ai ,
i1, ..., p . Estos valores se pueden obtener
al resolver la ecuación caracterÃstica ?C ? ?I?
0 , donde I, ahora, es la matriz unidad de
orden igual al de la matriz C. Llamamos A a la
matriz generada por los vectores propios ai
arreglados como filas. Si transformamos el vector
de variables y, obtenemos z A(y?y) las
coordenadas sobre el sistema de ejes ortogonales
definido por los vectores propios de la matriz de
covariancia. Se puede reconstruir y de z
invirtiendo la ecuación anterior y Az y
en virtud de que A es una matriz ortogonal, A?1
A?.
21Análisis multivariable componentes principales
En el nuevo sistema de coordenadas, la nube de
puntos de las observaciones muestran una
variancia decreciente si se ordenan los ejes
según el orden decreciente de sus valores
propios. Asà el eje definido por a1, donde ?1 es
el valor propio más grande, es el eje principal
sobre cuya proyección los puntos tienen la mayor
variancia. Para evaluar la importancia de la
proyección sobre el eje j se compara el valor de
?j respecto de la suma de todos los valores
propios. Si un valor propio añade poco al valor
total de la suma, la variancia sobre el eje
correspondiente es pequeña, y por lo tanto, ésta
es una dimensión con muy poca información, que se
puede obviar. Si denotamos como AK la matriz
que contiene los primeros k vectores propios,
podemos comprimir los datos sin perder mucha
información mediante las transformaciones,
z AK(y?y) y
AKz y Por lo tanto PCA puede reducir la
dimensionalidad del problema.
22Análisis multivariable componentes principales
a1
Ejemplo PCA aplicado a la catalogación de 230
espectros de QSOs (Francis et al. 1992, ApJ,
398, 476)
BLR
pendiente, y lÃneas estrechas
a2
a3
bosque de absorción
a4
23- Ejem análisis multivariable de las propiedades
de supernovas (Patat et al. 1994, AA, 282, 731). - Correlaciones entre
- el decaimiento en banda B en los primeros 100
dÃas, ?B100 - el decaimiento del color B-V en los primeros 100
dÃas, ?B-V100 - la anchura de la lÃnea H?, vH?
- el cociente entre las intensidades de la emisión
y la absorción de H?, e/a - la magnitud absoluta en banda B en el máximo,
MBmax - el color B-V en el máximo de la curva de luz,
(B-V)max
Proyecciones de las variables a analizar sobre
los ejes definidos por los dos primeros
autovectores de su matriz de covariancia. Estas
proyecciones comprenden el 59 de la variancia
de los datos.
24Análisis multivariable redes neuronales
? Propiedades es una técnica muy potente para
analizar relaciones no necesariamente lineales en
problemas con un gran número de variables. No se
necesita formular un modelo, ya que la red
aprende de ejemplos, derivando las relaciones
entre las variables de forma heurÃstica a través
de un conjunto de datos de entrenamiento.
Aplicaciones en AstrofÃsica clasificación de
objetos (Storrie-Lombardi et al. 1992, MNRAS,
259, 8), detección de señales débiles
(Bacigaluppi et al. MNRAS 2000, 318, 769),
determinación de perÃodos de variabilidad
(Cornway 1998, NewAR, 42, 343, Tagliaferri et al.
1999, AAS, 137, 391), determinación de
corrimientos al rojo (Firth et al,
astro-ph/0203250), detección de frentes de onda
en sistemas con óptica adaptativa (Angel et al.
2000, Nat, 348,221 Sandler et al. 1991, Nat,
351, 300).
nodos de entrada
nodos de salida
(Figura de StatSoft www.statsoft.com/textbookstat
home.html)
25Análisis multivariable redes neuronales
Ejemplo clasificación de galaxias por una red
neuronal con retropropagación (Storrie-Lombardi
et al. 1992, MNRAS, 259, 8P) .
La entrada a la capa s de la red
es
donde los w
son pesos a ajustar y la salida es una señal
que depende de forma
no-lineal de las entradas.
Los pesos se determinan por un método de
mÃnimos cuadrados para un conjunto de datos de
entrenamiento. Se define una función de coste,
con las diferencias entre la salida
(clasificación) deseada y la obtenida
y se ajustan los pesos hacia
las capas de atrás (retropropagación) donde el
coeficiente de aprendizaje ? y el momento a se
prefijan para determinar la rapidez del
aprendizaje.
26Análisis multivariable redes neuronales
Ejemplo clasificación de galaxias por una red
neuronal con retropropagación (Storrie-Lombardi
et al. 1992, MNRAS, 259, 8P) . Una vez se ha
entrenada la red, se fijan los pesos, y se pasan
como entradas de la red neuronal el conjunto de
datos problema. Los nodos de salida dan la
probabilidad de que la clasificación sea C dada
el conjunto de datos x, es decir, el resultado es
bayesiano.