Title: M
1 Métodos de clasificación aplicados en Biología
Molecular
- Alessandra Gallinari y Juan Miguel Marín
- Universidad Rey Juan Carlos
- 23 de Mayo, 2003
2 If the results disagree with informed opinion,
do not admit a simple logical interpretation, and
do not show up clearly in a graphical
presentation, they are probably wrong. There is
no magic about numerical methods, and many ways
in which they can break down. They are a valuable
aid to the interpretation of data, not sausage
machines automatically transforming bodies of
numbers into packets of scientific fact.
(F.H.C. Marriott)
3Indice
- Introducción
- Métodos de Clustering, distancias y ordenación
- SOM (Self Organizing Maps)
- Referencias
4Introducción
- Análisis Multivariante (multidimensional)
- Análisis estadístico de datos que requiere la
- medición simultánea de muchas variables.
- Modelos de probabilidades
- Distribución normal multivariante.
- Modelos ad hoc justificados por argumentos
- lógicos y de sentido común.
5 La investigación científica es un proceso
iterativo de conocimiento
Análisis de datos nueva interpretación
del fenómeno
Diseño del experimento y colección de datos
Reducción o ampliación del número de variables
6Primer problema de clasificación - Difícil de
clasificar las técnicas del Análisis
Multivariante diferentes herramientas para
resolver distintas clases de problemas. - La
elección del método y del tipo de
análisis depende de los objetivos de la
investigación. - Los métodos empleados tienen
que poderse implementar en un ordenador.
7Algunos objetivos típicos
- Reducción o simplificación estructural de los
- datos (con pérdida mínima de información).
- Clasificación y agrupamientos.
- Estudio de las dependencias entre variables.
- Predicción (las relaciones entre unas variables
- pueden ser la base de una predicción de los
- valores de otras).
- Formulación y evaluación de una hipótesis.
8Organización de los datos
- Tabulación, tablas de datos matrices.
- Descripción cuantitativa de algunas
características de los datos. - Representación gráfica.
9 - Matrices
- p gt 1 variables o caracteres para n unidades
experimentales. - Descripción de cálculos numéricos en términos de
operaciones con matrices (Álgebra Lineal).
V1 V2 V3 V4 V5
U1
p 5 n 4
U2
U3
U4
10Extracción de la información (Data Mining)
- Búsqueda de patrones y estructuras no aleatorias
- correlación entre variables o similitud entre
sujetos determinadas por sus perfiles (vectores) - análisis de confirmación
11Estadística descriptiva básica de una muestra de
tamaño n con p variables cuantitativas - Media
x ( x1, x2, ... , xp ) xk (1/n) Si xik
k 1, 2, ..., p - Varianza Sk2
Skk (1/n) Si (xik xik )2 k1,2, ..., p
(Sk2 Skk (1/(n 1)) Si (xik xk )2 si
n es pequeño) - Desviación estándar
(Sk2)1/2 k1,2, ..., p
12- - Covarianzas muestrales
- Sjk (1/n) Si (xij xj)(xik xk) (j, k
1, 2, ..., p) - Sjk es positiva si a valores grandes (pequeños)
de la variable j corresponden valores grandes
(pequeños) de la variable k. - Sjk es aproximadamente cero si no hay
asociación lineal entre los valores de las dos
variables (la implicación inversa no vale). - Sjk es negativa si a valores grandes de una
variable corresponden valores pequeños de la otra.
13Coeficiente de correlación muestral de
Pearson rjk Sjk / (Sjj)1/2(Skk)1/2 rkj
(j 1, 2, ..., p, k 1, 2, ..., p) Es una
versión estandardizada de la covarianza (coincide
con la covarianza de una muestra donde las
variables están estandardizadas zik (xik
xk)/(Skk1/2)) - Mide la asociación lineal entre
dos variables y no depende de las unidades de
medida. Tiene el mismo signo que Sjk 1lt
rjk lt 1
14- rjk 0 no asociación lineal entre las dos
variables. - rjk lt 0 tendencia de una variable a ser
mayor que su valor medio y de la otra a ser menor
que su valor medio. - rjk gt 0 tendencia de las dos variables a
ser grandes o pequeñas al mismo tiempo.
15- Limitaciones del concepto de covarianza y de
coeficiente de correlación - No es posible detectar relaciones no lineales
entre las variables - Son muy sensibles a observaciones anómalas
(outliers) y pueden indicar una asociación que no
existe.
16Técnicas gráficas
Gráfico de dispersión (scatterplot)
17 Gráfico de dispersión múltiple
18Diagrama de cajas
19Diagrama de Voronoi
20Caras de Chernoff
21Distancias
Una distancia en un espacio de dimensión p es
una función tal que si P, Q y R son puntos del
espacio, se verifica que
d(P,Q) gt 0 d(P,Q) gt 0 si P?Q d(P,Q)
d(Q,P) d(P,Q) ? d(P,R) d(R,Q) (desigualdad
triangular)
22- Distancia euclídea es la distancia geométrica
usual en espacios de dimensión p. - Si x (x1, x2, ..., xn) e y (y1, y2, ..., yn),
- d(x, y) (?i (xi yi)2)1/2
- - La distancia euclídea y la distancia euclídea
al cuadrado - d2(x, y) ?i (xi yi)2 (que amplifica el efecto
de objetos muy distantes) se calculan para datos
no estandarizados. - - Puede ser muy sensible a las diferencias en
unidades de medidas empleadas para las distintas
dimensiones (coordenadas).
23- Distancia de Minkowski
- d(x, y) (?i xi yim)1/m
- Si m 2 es la distancia euclídea. B1
- Si m 1 es la distancia city-block
(Manhattan). - d(x, y) ?i xi yi
-
B1
24- A menudo proporciona resultados parecidos a los
de la euclídea. - - El efecto de los outliers queda disminuido.
- Distancia de Chebychev
- d(x, y) Máximoxi yi
- - Se utiliza cuando se quiere resaltar si dos
objetos son muy distantes en una de las
dimensiones.
25Distancia de potencias d(x, y) (?i xi
yiq)1/r donde los parámetros q y r pueden
variar. - El parámetro q controla el peso de la
diferencias en las dimensiones individuales, el
parámetro r el peso de las diferencias entre
objetos.
Disimilitud porcentual d(x, y) (Número de xi
? yi)/p Esta distancia es útil para datos
categóricos.
26 Distancias estadísticas d(x, y) ( (x y)t
S-1(x y))1/2 B1 - Tienen en cuenta
diferencias en las varianzas y correlaciones
entre las variables. - Cuando las coordenadas (o
variables) presentan fluctuaciones aleatorias y
diferencias de magnitudes es preferible dar un
peso menor a las coordenadas que presentan más
variabilidad respecto a las coordenadas que
presentan menos.
27EJEMPLO
28Métodos de Clustering, distancias y ordenación
- El análisis Cluster (Tryon, 1939) es la
denominación de un grupo de técnicas
multivariantes cuyo principal propósito es
agrupar objetos basándose en las características
que poseen. - Se usa para hacer diseño de
tipologías, análisis de clasificación, taxonomía
numérica...
29- - Se intenta determinar una estructura natural de
división que proporcione herramientas para - evaluar el número de dimensiones e identificar
elementos aislados - sugerir hipótesis interesantes sobre relaciones
entre - los objetos
30- - Los conglomerados de objetos resultantes deben
- mostrar un alto grado de homogeneidad interna y
un alto grado de heterogeneidad externa. - Las variables representan las características
utilizadas para clasificar a los objetos y son
definidas por el investigador. - No hay restricciones a priori sobre la
estructura de cada clase.
31- El análisis Cluster encuentra
- la solución más significativa posible.
- También se pueden aplicar tests de contraste
considerando niveles de significación (como en
k-means), sobre la separabilidad y diferenciación
entre los clusters generados por el procedimiento.
32Clustering
- Medidas de similitud
- Métodos jerárquicos
- Métodos no jerárquicos (k-means)
- Multidimentional Scaling (MDS)
33Medidas de similitud
- La representación gráfica de los datos está
basada en distancias (similitudes) y algoritmos
que permiten dividir los datos en grupos. - Son (en general) medidas subjetivas del parecido
entre elementos de una base de datos compleja. - Para agrupar objetos se utiliza algún tipo de
distancia. - Para agrupar variables se utilizan coeficientes
de correlación o medidas similares de asociación.
34 - En ausencia de información previa sobre
cuáles son los grupos naturales, no se puede
utilizar una distancia estadística, ya que no es
posible calcular varianzas y covarianzas de la
muestra. Por tanto, en general, se prefiere
emplear otras distancias (por ejemplo la
euclídea).
35Objetos Cuando no es posible representar los
objetos por medio de medidas p-dimensionales
razonables, se comparan pares de objetos
simplemente en base a la presencia ó ausencia de
unas características se utilizan valores 0-1
para las variables cualitativas (variables
binarias)
Variables
p 5
3
4
0
1
1
0
0
Distancia euclídea al cuadrado d(Item i, Item k)
2 - Se tiene en cuenta sólo del número de
disimilitudes
36Para poder diferenciar el tratamiento de
similitudes del tipo 0-0 del tratamiento de
similitudes del tipo 1-1 se representan sus
frecuencias en una tabla de contingencia
a número de 1-1 b número de 1-0 c número
de 0-1 d número de 1-0
En nuestro caso a 2, b c d 1
37Se pueden definir varios coeficientes de
similitud
1) Mismo peso para los 0-0 y 1-1 2) Doble peso
para los 0-0 y 1-1 3) Doble peso para los 0-1 y
1-0 4) No se ponen los 0-0 en el numerador 5)
No se consideran los 0-0 6) No se consideran los
0-0 y doble peso para los 1-1 7) No se
consideran los 0-0 y doble peso para los 0-1 y
1-0 8) Solo se consideran los 1-1 en relación a
los 0-1 y 1-0 solo.
1) (ad)/p 2) 2(ad)/(2(ad)bc) 3)
(ad)/(ada(bc)) 4) a/p 5) a/(abc) 6)
2a/(2abc) 7) a/(a2(bc)) 8) a/(bc)
38- Se utiliza el coeficiente elegido para crear una
- matriz (simétrica) de similitudes.
- Para n 5 objetos hará falta calcular, en
total, - (n1)(n2)/2 10 tablas de contingencia
1 2 3 4 5
Item
1
1 2 3 4 5
1/6 1
4/6 3/6 1
4/6 3/6 2/6 1
0 5/6 2/6 2/6 1
39 - Si la matriz de similitud es definida no
negativa y los coeficientes de similitud están
normalizados de forma tal que los valores
diagonales sii son iguales a 1, la función d(i,
k) (2(1sik) )1/2 es una distancia (cumple
sus propiedades).
- Por otro lado, a partir de una distancia d(i,
k), es siempre posible recuperar la matriz de
similitud original sik 1/(1d(i, k))
40Variables para medir la similitud entre
variables se suelen emplean los coeficientes de
correlación muestrales. En algunas técnicas de
clustering se utilizan los valores absolutos de
estos coeficientes y, si las variables son
binarias, se escriben tablas de contingencia
donde para todo par de variables se consideran
los n objetos.
41Se define y se puede tomar como una medida de
similitud entre las dos variables. El
coeficiente r está relacionado con el estadístico
?², chi cuadrado, (r ?² /n) que se usa para
determinar la independencia entre las dos
variables. Para un valor fijado de n, el valor de
r es directamente proporcional a la ausencia de
independencia.
42Métodos Jerárquicos
- Los métodos jerárquicos consisten en la
construcción de estructuras rígidas en forma de
árbol a partir de una medida de similitud. - Se utilizan, básicamente, dos métodos
- métodos aglomerativos cada objeto se incluye en
un único grupo propio. En pasos sucesivos los
objetos, o grupos, más similares van juntándose
constituyendo nuevos conglomerados hasta llegar a
un único cluster final que los contiene todos.
43- métodos divisivos se empieza con un gran
conglomerado que contiene todos los objetos. - En los pasos siguientes, se van subdividiendo los
conglomerados más diferentes en clusters
sucesivamente más pequeños, hasta que cada objeto
queda situado en un grupo con ese elemento
únicamente.
44Un resultado típico de este tipo de clustering es
un árbol jerárquico (dendrograma)
45Métodos de encadenamiento (Linkage methods)
- Encadenamiento simple (single linkage)
distancia mínima o vecino más cercano. - Encadenamiento completo (complete linkage)
distancia máxima o vecino más lejano. - Encadenamiento medio (average linkage)
distancia media.
d(2,4)
d(1,5)
(?ikd(i, k))/6
46 Algoritmo n objetos
i) Empezar con n grupos de un solo elemento y
una matriz D (d(i, j)) de distancias. ii)
Determinar la distancia d(U, V) entre los grupos
más similares. iii) unir los grupos U y V en un
nuevo grupo UV y actualizar la matriz de
distancias remplazando las filas y columnas de U
y V por una fila y columna UV. iv) repetir (ii)
y (iii) n 1 veces, anotando el nivel y los
grupos que se han unido en cada paso.
47EJEMPLO Sea D una matriz de distancias entre 5
objetos.
Encadenamiento simple (single linkage)
distancia mínima o vecino más cercano (i) D es
nuestra matriz (ii) 3 y 5 son los objetos más
cercanos (d(3,5)2) (iii) nuevo cluster (35) y
nueva matriz D1 (iv) (35) y 1 son los grupos
más cercanos (d((35),1)3)
(35) 1 2 4
48 (135) 2 4
(v) nuevo cluster (135) y nueva matriz D2 (vi) 2
y 4 son los grupos más cercanos (d(2,4)5) (vii)
nuevo cluster (24) y nueva matriz D3 (viii) (135)
y (24) son los grupos más cercanos (ix) nuevo
cluster (12345)
(135) (24)
1 3 5 2 4
0
2
6
4
49Encadenamiento completo (complete linkage)
distancia máxima o vecino más lejano, las
matrices son
(35) 1 2 4
(35) (24) 1
(35) (124)
50Encadenamiento completo
1 2 4 3 5
2 4 6
8 10 12
51Observaciones sobre los Métodos Cluster
Jerárquicos
- Las fuentes de error y variación no se
consideran con los métodos jerárquicos. - Gran sensibilidad a observaciones anómalas o
outliers. - Si un objeto o elemento se ha colocado
erróneamente en un grupo al principio del
proceso, ya no se puede arreglar en una etapa
posterior.
52- Sería conveniente usar varias distancias o
similitudes con los mismos objetos y observar si
se mantienen los mismos clusters o grupos. Así,
se comprueba la existencia de grupos naturales. - Estos métodos se pueden usar para clasificar no
sólo observaciones, sino también variables,
usando como medida de similitud algún coeficiente
de correlación.
53Métodos no Jerárquicos
- Se usan para agrupar objetos y no variables en
un conjunto de k clusters ya predeterminado. - - No se tiene que especificar una matriz de
distancias ni se tienen que almacenar las
iteraciones. Todo esto permite trabajar con un
número de datos mucho mayor que en el caso de los
métodos jerárquicos.
IDEA BASICA
- Se parte de un conjunto inicial de clusters
elegidos al azar, que son los representantes de
todos ellos luego se van cambiando de modo
iterativo. - Se usa el método de las k-medias
(k-means).
54- Método de las k-medias
- Método que permite asignar a cada
observación el cluster que se encuentra más
próximo, en relación a un centroide (media). Se
puede resumir en los siguientes pasos - (i) Se toman al azar k clusters iniciales.
- (ii) Se calculan las distancias de todas las
observaciones a los centroides de los clusters y
las observaciones se asignan a los clusters que
estén más próximos. - Se vuelven a recalcular los centroides de los k
clusters después de las reasignaciones de los
elementos.
55- (iii) Se repiten los dos pasos anteriores hasta
que no se produzca ninguna reasignación, es
decir, hasta que los elementos se estabilicen en
algún grupo. - NOTAS
- Usualmente, se especifican k centroides
iniciales y se procede al paso (ii). - - En la práctica, se observa la mayor parte de
reasignaciones en el primer paso.
56Ejemplo supongamos dos variables x1 y x2, que
miden dos características y, por ejemplo, 4
objetos que se denominan A, B, C, D. Se tiene la
siguiente tabla - Se quiere dividir
estos objetos en dos grupos (k 2). - De modo
arbitrario, se dividen los elementos en dos
clusters (AB) y (CD) y se calculan los centroides
de estos dos clusters.
57Coordenadas del Centroide
58- En el paso (ii), calculamos las distancias
euclídeas de cada observación al grupo de
centroides y reasignamos cada una al grupo más
próximo. Si alguna observación se mueve de grupo,
hay que recalcular los centroides de los grupos.
Así, las distancias son d2(A, (AB)) (5 2)2
(3 2)2 10 d2(A, (CD)) (5 1)2 (3
2)2 61 - Como A está más próximo al cluster
(AB) que al cluster (CD), no se reasigna. Se hace
lo mismo para el elemento B d2(B, (AB)) (1
2)2 (1 2)2 10 d2(B, (CD)) (1 1)2
(1 2)2 9
59- Por lo cual, el elemento B se reasigna al
cluster (CD) dando lugar al cluster (BCD). A
continuación, se vuelven a calcular los
centroides
Coordenadas del centroide
60- Nuevamente, se recalculan las distancias para
cada observación y se ve si se producen cambios
con respecto a los nuevos centroides. - Se
calculan las distancias euclídeas al cuadrado a
los centroides de los grupos.
- Como no se producen cambios, entonces la
solución para k 2 clusters es A y (BCD).
61- - Si se quiere comprobar la estabilidad de los
grupos, es conveniente volver a correr el
algoritmo con otros clusters iniciales (una
nueva partición inicial). - Una vez obtenidos los clusters finales, es
conveniente interpretarlos para ello, se pueden
cruzar con otras variables categóricas o se
pueden ordenar de modo que los objetos del primer
cluster aparezcan al principio y los del último
cluster al final. - También es conveniente considerar gráficos
ilustrativos (por ejemplo, caras de Chernoff).
62- TABLAS DE ANALISIS DE LA VARIANZA
- El objetivo que se persigue al formar los
clusters, es que los centroides estén lo más
separados entre sí como sea posible, y que los
casos u observaciones que estén dentro de cada
cluster estén muy próximos al centroide. - Lo anterior se puede medir con el estadístico de
la F de Snedecor
- Equivale al cociente de dos distribuciones
chi-cuadrado divididas por sus grados de
libertad. Este estadístico aparece siempre que se
comparan distancias.
63- - El estadístico F se calcula como un cociente de
medias de cuadrados. - - En el caso del análisis de clusters
- F (medias de cuadrados entre clusters) /
(medias de cuadrados dentro de clusters). - Si F gt 1, las distancias entre los centroides de
los grupos son mayores que las distancias de los
elementos dentro de los grupos. Se realiza un
Test de Hipótesis. - - Esto es lo que se busca para que los clusters
estén suficientemente diferenciados entre sí.
64PROBLEMAS que surgen al fijar k clusters
iniciales (i) Si dos centroides iniciales caen
por casualidad en un único cluster (natural),
entonces los clusters que resultan están poco
diferenciados entre sí. (ii) Si aparecen
outliers, se obtiene, por lo menos, un cluster
con sus objetos muy dispersos. (iii) Si se
imponen previamente k clusters pueden originarse
grupos artificiales o bien se pueden juntar
grupos distintos. Una posible solución es
considerar varias elecciones de k (nº de
clusters) comparando luego sus coeficientes de la
F de Snedecor.
65Multidimentional Scaling (MDS)
- Las técnicas de MDS tratan sobre el siguiente
problema -
- - Para un conjunto de similitudes observadas (o
distancias) entre cualquier par de objetos de un
total de N objetos, encontrar una representación
gráfica de éstos en unas pocas dimensiones, de
modo que sus posiciones casi se ajusten a las
similitudes (o distancias) originales. - Con N objetos, se buscan configuraciones de q
dimensiones, de modo que el ajuste entre
posiciones originales y posiciones en las q
dimensiones sea el más preciso posible. Lo
anterior se mide mediante el stress.
66- Si se usan distancias (o similitudes), se tiene
el llamado escalamiento multidimensional métrico.
- Si se usan rangos (orden de las observaciones),
en vez de distancias, se tiene el MDS no métrico.
67- PROCEDIMIENTO BASICO
- Dados N objetos, existen M N(N1)/2
distancias (o similitudes) entre pares de
diferentes objetos. También se pueden usar rangos
ordenados. - - Las similitudes se ordenan en orden creciente
como - si1 k1 lt si2 k2 lt ... lt sim km ()
- - Aquí si1 k1 es la menor de las M similitudes,
donde i1 k1 es el par de observaciones que son
menos similares y, del mismo modo, im km, las más
similares.
68- Buscamos una configuración de dimensión q tal
que las distancias entre los N objetos mantengan
el orden expresado en (). Es decir, que
suceda di1 k1 gt di2 k2 gt ... gt di m km -
Lo importante es que se mantenga el orden, no las
magnitudes en sí.
69- - Kruskal (1964) dio una medida de la adecuación
de la representación en q dimensiones a las
similitudes originales dicha medida se denomina
stress - donde dij son las distancias entre los objetos y
hij son funciones monótonas de las distancias que
se determinan de modo que S sea mínimo.
70- Se buscan representaciones geométricas en q
dimensiones de modo que el stress sea mínimo. - Empíricamente, se considera que si el stress es
del 20 (0,2), la bondad del ajuste es pobre si
es del 5 (0,05), la bondad del ajuste es buena y
a partir del 2,5 es excelente. - - Se trata de minimizar el stress para un número
fijo q de dimensiones, mediante procesos
iterativos (Métodos del Gradiente).
71- Observaciones
- - Las técnicas MDS están relacionadas con el
Análisis de Componentes Principales y el Análisis
de Correspondencia - Estos usan una matriz en el primer caso, de
covarianzas o de correlaciones y en el segundo,
de similitudes, y generan un espacio con el
mínimo número de dimensiones posible donde se
representan los datos. -
- En general, el MDS necesita menos dimensiones
que el Análisis de Componentes Principales para
representar los datos o las variables.
72- El MDS proporciona una descripción dimensional
cuantitativa de las variables, mientras que el
Análisis de Componentes Principales permite,
además, una descripción de los objetos o
individuos en forma de sus puntuaciones
factoriales. - - Con respecto a las técnicas de Análisis de
Cluster, el MDS comparte con ellas las siguientes
características investiga la estructura de un
conjunto de variables, el punto de partida es una
matriz de proximidades y la representación
gráfica que se obtiene se puede interpretar como
distancias.
73SOM (Self Organizing Maps)
- El método de las SOM (redes auto-organizativas)
está relacionado con el métodos de las k-means y
ha sido aplicado, por ejemplo, a datos sobre la
expresión de mRNA de ciclos celulares. - Un SOM
es un conjunto de k nodos con una topología
sencilla (por ejemplo una retícula de dimensión
dos o una malla) y una distancia d(N1, N2) entre
nodos.
74- Es un método más estructurado que el método de
las k-means, ya que los centroides son nodos de
la retícula. - Los nodos se entrenan de forma
iterativa en un espacio de dimensión q (por
ejemplo un espacio de expresión de genes donde la
coordenada i-ésima representa el nivel de
expresión de la i-ésima muestra).
75Un ejemplo de SOM
http//www.neuroinformatik.ruhr-unibochum.de/ini/V
DM/research/contents.html
76- - La posición del nodo Nk en el paso i se denota
con fi(Nk). - La representación inicial de los nodos f0 es
aleatoria. - En cada paso, un punto P (vector original de
dimensión q) de los n datos, se selecciona al
azar y se identifica el centroide NP más cercano.
- El punto P atrae a ese centroide y a algunos
otros nodos vecinos por medio de un cambio de la
función f según la siguiente expresión
77fi1(N) fi(N) ? (d(N, NP), i) (P
fi(N)) donde la tasa de aprendizaje (learning
rate) ? es inversamente proporcional a la
distancia d(N, NP) y al número de iteraciones
i. - Después de un número de iteraciones
suficientemente grande, el proceso se para y los
datos se asignan al cluster correspondiente al
nodo más cercano.
78Problemas - El investigador tiene que
especificar a priori el número de clusters, la
topología del retículo, su dimensión y el número
de clusters en cada dimensión. La definición
artificial de la malla puede influir en la
formación de los clusters. - Las técnicas de
optimización para el método de la k-medias se
puede emplear para SOM.
79Referencias Bibliográficas
- P. DHaeseleer et al., Gene Network Inference
From Co-Expression Clustering to Reverse
Engineering, 2000, Bioinformatics 16 707-726 - B. S. Everitt and G. Dunn, Applied Multivariate
Data Analysis, Arnold, 2001 - Gower, J. C., Some Distances properties of
Latent Root and Vector Methods Used in
Multivariate Analysis, 1966, Biometrika, 53,
325-338 - Gower, J. C., Multivariate Analysis and
Multidimensional Geometry, 1967, The
Statistician, 17, 13-25 - J.A.Hartigan, Clustering Algorithms, 1975, John
Wiley Sons, Inc. - J.F.Hair Jr., R.E. Anderson, R.L. Tatham, W.C.
Black, - Análisis multivariante, 5ª ed., 1999, Prentice
Hall Iberia, S.R.L.
80- R.A. Johnson, D.W. Wichern, Applied Multivariate
Statistical Analysis, 1998, Prentice-Hall, Inc. - P. Tamayo et al., Interpretinmg Patterns of
Genes Expression with Self-Organizing Maps
Methods and Application to Hematopoietic
Differentiation, 1999, Proc Natl Acad Sci USA 96
2907
81Enlaces
http//www.Statsoft.com/textbook/stathome.html ht
tp//www.neuroinformatik.ruhr-unibochum.de/ini/VDM
/research/contents.html