Title: ANALISIS MULTIVARIADOS Definiciones
1ANALISIS MULTIVARIADOS(Definiciones
- Dr. Roberto Mercado Hernández,
- Laboratorio de EstadÃstica,
- México
2ANALISIS MULTIVARIADOS (Definiciones)
Es la relación (función) entre más de dos
variables, donde una de ellas se asume como
dependiente de las demás. Es el grado de
asociación entre más de dos variables, donde no
hay una variable dependiente de las otras.
Regresión y Correlación
Es una técnica para estudiar las asociaciones
entre dos conjuntos de variables. Ccorrelacionar
simultaneamente varias variables dependientes y
varias var. independientes
Correlación canónica
Consiste en la extracción de relaciones entre
categorÃas y define similaridades
o disimilaridades entre ellas, lo que permitirá
su agrupamiento si se detecta que se corresponden.
Correspondencia (A F C)
Es una técnica estadÃstica de sÃntesis de la
información, o reducción de la dimensión (número
de variables). Es decir, ante un banco de datos
con muchas variables, el objetivo será reducirlas
a un menor número, perdiendo la menor cantidad de
información posible. Los nuevos componentes
principales o factores serán una combinación
lineal de las variables originales, y además
serán independientes entre sÃ.
Componentes principales
R M H
Es un conjunto de técnicas que se utilizan para
clasificar los objetos o casos en grupos
relativamente homogéneos llamados conglomerados
(clusters). Los objetos en cada grupo
(conglomerado) tienden a ser similares entre sÃ
(alta homogeneidad interna, dentro del cluster) y
diferentes a los objetos de los otros grupos
(alta heterogeneidad externa, ente clusters)
Análisis Cluster
Es una técnica multivariante de clasificación de
individuos, en la que se presupone la existencia
de dos o más grupos bien definidos a priori (por
ejemplo, ejemplares de la misma especie en dos
localidades diferentes, clientes solventes y no
solventes votantes de uno u otro partido
compradores y no compradores de un producto etc)
Análisis Discriminante
3ANALISIS MULTIVARIADOS (Condiciones)
En la relación de las variables independientes
(todas con distribución normal), con la variable
dependiente (también normal), se establece un
error.
Regresión
En este análisis se ordenan los datos en una
tabla disyuntiva completa (Z) que consta de un
conjunto de individuos I1,2,n (filas),
unconjunto de variables o caracteres cualitativos
JI, , JK,, JQ (columnas) y un conjunto de
modalidades excluyentes 1, , mk para cada
carácter cualitativo.
Correspondencias (A F C)
Los únicos requerimientos previos para la
aplicación del ACP son a) Continuidad en las
variables. b) El número n de individuos o
elementos observados debe ser mayor que el número
p de variables originales. Por otra parte, el
ACP tiene la ventaja de no exigir supuestos tales
como la normalidad u homoscedasticidad.
Componentes principales (ACP)
R M H
El AC es un objetivo metodológico para
cuantificar las caracterÃsticas de un conjunto de
observaciones. Por ello, tiene fuertes
propiedades matemáticas, pero no fundamentos
estadÃsticos. Los requisitos de normalidad,
linealidad y homocedasticidad (tan relevantes en
otras técnicas), tienen poca consistencia en el
AC.
Análisis Cluster (AC)
Es una técnica estadÃstica de la rama del
análisis multivariante, en la cual la variable
dependiente es indicadora y no numérica como en
el análisis de regresión. El modelo se construye
basado en un set de observaciones para las cuales
se conocen las clases. Este set de observaciones
es algunas veces conocido como el training set.
Análisis Discriminante
4ANALISIS MULTIVARIADOS (a considerar)
Regresión Correlación
Es importante analizar la magnitud, sigo y
significancia de los coeficientes. Su valor
indica el grado de asociación entre las variables.
Es centrado y el centro de gravedad de las
modalidades de una variable coincide con el del
conjunto J, y con el origen, las modalidades de
cada variable están centradas en torno al origen,
no pudiendo tener todas el mismo signo.
Correspondencias (A F C)
Un aspecto clave en ACP es la interpretación de
los factores, ya que ésta no viene dada a priori,
sino que será deducida tras observar la relación
de los factores con las variables iniciales
(habrá, pues, que estudiar tanto el signo como la
magnitud de las correlaciones).
Componentes Principales
Asignan los casos a grupos diferenciados que el
propio análisis configura, sin que unos dependan
de otros.
No jerárquicos
R M H
Análisis Cluster
Aquéllos que configuran grupos con estructura
arborescente, de forma que clusters de niveles
más bajos van siendo englobados en otros de
niveles superiores.
Jerárquicos
La pertenencia de cada caso del archivo patrón a
uno u otro grupo, en función de las variables de
su perfil, para comprobar su pertenencia.
Explicar
Análisis Discriminante
A qué grupo más probable habrá de pertenecer un
nuevo individuo del que únicamente se conoce su
perfil de variables.
Predecir
5ANALISIS MULTIVARIADOS (Ecuaciones)
Regresión
Regresión múltiple Y a0 a1X1 a2X2 .
apXp e
Correspondencias (Inercia variación explicada)
Inercia total
Inercia debida a la modalidad J
Inercia debida a una variable
Componentes principales
R M H
Primer componente principal Z1i u1iX1i
u2iX2i . u1pXpi
Análisis Cluster
Fórmula de Lance y Williams Dk(ij) aiDki
ajDkj ßDij ?Dki - Dkj
Análisis Discriminante
Función discriminante de Fisher D1i u1iX1
u2iX2 . ukiXk
6EJEMPLO DE REGRESION Y CORRELACION MULTIPLE
R M H
Variables no significativas
7EJEMPLO DE CORRELACION CANONICA
R M H
The canonical correlation measures the
association between the discriminant scores and
the groups.
8EJEMPLO DE CORRSPONDENCIAS
Frecuencias de pupas y larvas de dos
especies encontradas en cadáveres en dos
localidades.
Resultados del análisis de correspondencias
R M H
X2 19.11 gl 9 p lt 0.05
Inercia total 0.0028 Los primeros dos
eigenvalues comprenden el 95.5 de la inercia
90.2
7
2
0.05
4
0.01
Coordenada 2
3
0.0
8
R M H
5
-0.001
6
1
-0.002
-0.01
0.0
0.2
0.3
0.4
0.1
Coordenada 1
10EJEMPLO DE COMPONENTES PRINCIPALES
R M H
11EJEMPLO DE COMPONENTES PRINCIPALES (Localidad 1)
R M H
12R M H
of Variance 94.84 in Component 1
l. pico
Localidad 2
Localidad 3
13EJEMPLO DE ANALISIS CLUSTER
R M H
14EJEMPLO DE ANALISIS DISCRIMINANTE
R M H
15R M H
16LITERATURA
- Everitt, B. S. and Graham Dunn, 2001. Applied
Multivariate data Analysis, Edt. ARNOLD - Gnanadesikan, R., 1997. Methods for Statistical
Data Analysis of Multivariate Observations, JOHN
WILEY SONS, INC. - Johnson R. A. and Dean W. Wichern, 2002. Applied
Multivariate Statistical Analysis, PRENTICE HALL. - Kachigan, S. K., 1991. Multivariate Statistical
Analysis, RADIUS PRESS, NY. - Hair J. F., R. E. Anderson, R. L. Tatham y W. C.
Black, 1999. PRENTICE HALL. - Kleinbaum, D. G., L. L. Kupper, K. E. Muller and
A. Nizam, 1998. Applied Regression Analysis and
Other Multivariate Methods, DUXBURY PRESS.