M - PowerPoint PPT Presentation

1 / 81
About This Presentation
Title:

M

Description:

'If the results disagree with informed opinion, do not admit a simple logical ... (o variables) presentan fluctuaciones aleatorias y diferencias de magnitudes es ... – PowerPoint PPT presentation

Number of Views:117
Avg rating:3.0/5.0
Slides: 82
Provided by: Luis51
Category:
Tags: magnitudes

less

Transcript and Presenter's Notes

Title: M


1
Métodos de clasificación aplicados en Biología
Molecular
  • Alessandra Gallinari y Juan Miguel Marín
  • Universidad Rey Juan Carlos
  • 23 de Mayo, 2003

2
If the results disagree with informed opinion,
do not admit a simple logical interpretation, and
do not show up clearly in a graphical
presentation, they are probably wrong. There is
no magic about numerical methods, and many ways
in which they can break down. They are a valuable
aid to the interpretation of data, not sausage
machines automatically transforming bodies of
numbers into packets of scientific fact.
(F.H.C. Marriott)
3
Indice
  • Introducción
  • Métodos de Clustering, distancias y ordenación
  • SOM (Self Organizing Maps)
  • Referencias

4
Introducción
  • Análisis Multivariante (multidimensional)
  • Análisis estadístico de datos que requiere la
  • medición simultánea de muchas variables.
  • Modelos de probabilidades
  • Distribución normal multivariante.
  • Modelos ad hoc justificados por argumentos
  • lógicos y de sentido común.

5
La investigación científica es un proceso
iterativo de conocimiento
Análisis de datos nueva interpretación
del fenómeno
Diseño del experimento y colección de datos
Reducción o ampliación del número de variables
6
Primer problema de clasificación - Difícil de
clasificar las técnicas del Análisis
Multivariante diferentes herramientas para
resolver distintas clases de problemas. - La
elección del método y del tipo de
análisis depende de los objetivos de la
investigación. - Los métodos empleados tienen
que poderse implementar en un ordenador.
7
Algunos objetivos típicos
  • Reducción o simplificación estructural de los
  • datos (con pérdida mínima de información).
  • Clasificación y agrupamientos.
  • Estudio de las dependencias entre variables.
  • Predicción (las relaciones entre unas variables
  • pueden ser la base de una predicción de los
  • valores de otras).
  • Formulación y evaluación de una hipótesis.

8
Organización de los datos
  • Tabulación, tablas de datos matrices.
  • Descripción cuantitativa de algunas
    características de los datos.
  • Representación gráfica.

9
  • Matrices
  • p gt 1 variables o caracteres para n unidades
    experimentales.
  • Descripción de cálculos numéricos en términos de
    operaciones con matrices (Álgebra Lineal).


V1 V2 V3 V4 V5
U1
p 5 n 4
U2
U3
U4
10
Extracción de la información (Data Mining)
  • Búsqueda de patrones y estructuras no aleatorias
  • correlación entre variables o similitud entre
    sujetos determinadas por sus perfiles (vectores)
  • análisis de confirmación

11
Estadística descriptiva básica de una muestra de
tamaño n con p variables cuantitativas - Media
x ( x1, x2, ... , xp ) xk (1/n) Si xik
k 1, 2, ..., p - Varianza Sk2
Skk (1/n) Si (xik xik )2 k1,2, ..., p
(Sk2 Skk (1/(n 1)) Si (xik xk )2 si
n es pequeño) - Desviación estándar
(Sk2)1/2 k1,2, ..., p

12
  • - Covarianzas muestrales
  • Sjk (1/n) Si (xij xj)(xik xk) (j, k
    1, 2, ..., p)
  • Sjk es positiva si a valores grandes (pequeños)
    de la variable j corresponden valores grandes
    (pequeños) de la variable k.
  • Sjk es aproximadamente cero si no hay
    asociación lineal entre los valores de las dos
    variables (la implicación inversa no vale).
  • Sjk es negativa si a valores grandes de una
    variable corresponden valores pequeños de la otra.

13
Coeficiente de correlación muestral de
Pearson rjk Sjk / (Sjj)1/2(Skk)1/2 rkj
(j 1, 2, ..., p, k 1, 2, ..., p) Es una
versión estandardizada de la covarianza (coincide
con la covarianza de una muestra donde las
variables están estandardizadas zik (xik
xk)/(Skk1/2)) - Mide la asociación lineal entre
dos variables y no depende de las unidades de
medida. Tiene el mismo signo que Sjk 1lt
rjk lt 1
14
  • rjk 0 no asociación lineal entre las dos
    variables.
  • rjk lt 0 tendencia de una variable a ser
    mayor que su valor medio y de la otra a ser menor
    que su valor medio.
  • rjk gt 0 tendencia de las dos variables a
    ser grandes o pequeñas al mismo tiempo.

15
  • Limitaciones del concepto de covarianza y de
    coeficiente de correlación
  • No es posible detectar relaciones no lineales
    entre las variables
  • Son muy sensibles a observaciones anómalas
    (outliers) y pueden indicar una asociación que no
    existe.

16
Técnicas gráficas
Gráfico de dispersión (scatterplot)
17
Gráfico de dispersión múltiple
18
Diagrama de cajas
19
Diagrama de Voronoi
20
Caras de Chernoff
21
Distancias
Una distancia en un espacio de dimensión p es
una función tal que si P, Q y R son puntos del
espacio, se verifica que
d(P,Q) gt 0 d(P,Q) gt 0 si P?Q d(P,Q)
d(Q,P) d(P,Q) ? d(P,R) d(R,Q) (desigualdad
triangular)
22
  • Distancia euclídea es la distancia geométrica
    usual en espacios de dimensión p.
  • Si x (x1, x2, ..., xn) e y (y1, y2, ..., yn),
  • d(x, y) (?i (xi yi)2)1/2
  • - La distancia euclídea y la distancia euclídea
    al cuadrado
  • d2(x, y) ?i (xi yi)2 (que amplifica el efecto
    de objetos muy distantes) se calculan para datos
    no estandarizados.
  • - Puede ser muy sensible a las diferencias en
    unidades de medidas empleadas para las distintas
    dimensiones (coordenadas).

23
  • Distancia de Minkowski
  • d(x, y) (?i xi yim)1/m
  • Si m 2 es la distancia euclídea. B1
  • Si m 1 es la distancia city-block
    (Manhattan).
  • d(x, y) ?i xi yi

  • B1

24
  • A menudo proporciona resultados parecidos a los
    de la euclídea.
  • - El efecto de los outliers queda disminuido.
  • Distancia de Chebychev
  • d(x, y) Máximoxi yi
  • - Se utiliza cuando se quiere resaltar si dos
    objetos son muy distantes en una de las
    dimensiones.

25
Distancia de potencias d(x, y) (?i xi
yiq)1/r donde los parámetros q y r pueden
variar. - El parámetro q controla el peso de la
diferencias en las dimensiones individuales, el
parámetro r el peso de las diferencias entre
objetos.
Disimilitud porcentual d(x, y) (Número de xi
? yi)/p Esta distancia es útil para datos
categóricos.
26

Distancias estadísticas d(x, y) ( (x y)t
S-1(x y))1/2 B1 - Tienen en cuenta
diferencias en las varianzas y correlaciones
entre las variables. - Cuando las coordenadas (o
variables) presentan fluctuaciones aleatorias y
diferencias de magnitudes es preferible dar un
peso menor a las coordenadas que presentan más
variabilidad respecto a las coordenadas que
presentan menos.
27
EJEMPLO
28
Métodos de Clustering, distancias y ordenación
- El análisis Cluster (Tryon, 1939) es la
denominación de un grupo de técnicas
multivariantes cuyo principal propósito es
agrupar objetos basándose en las características
que poseen. - Se usa para hacer diseño de
tipologías, análisis de clasificación, taxonomía
numérica...
29
  • - Se intenta determinar una estructura natural de
    división que proporcione herramientas para
  • evaluar el número de dimensiones e identificar
    elementos aislados
  • sugerir hipótesis interesantes sobre relaciones
    entre
  • los objetos

30
  • - Los conglomerados de objetos resultantes deben
  • mostrar un alto grado de homogeneidad interna y
    un alto grado de heterogeneidad externa.
  • Las variables representan las características
    utilizadas para clasificar a los objetos y son
    definidas por el investigador.
  • No hay restricciones a priori sobre la
    estructura de cada clase.

31
  • El análisis Cluster encuentra
  • la solución más significativa posible.
  • También se pueden aplicar tests de contraste
    considerando niveles de significación (como en
    k-means), sobre la separabilidad y diferenciación
    entre los clusters generados por el procedimiento.

32
Clustering
  • Medidas de similitud
  • Métodos jerárquicos
  • Métodos no jerárquicos (k-means)
  • Multidimentional Scaling (MDS)

33
Medidas de similitud
  • La representación gráfica de los datos está
    basada en distancias (similitudes) y algoritmos
    que permiten dividir los datos en grupos.
  • Son (en general) medidas subjetivas del parecido
    entre elementos de una base de datos compleja.
  • Para agrupar objetos se utiliza algún tipo de
    distancia.
  • Para agrupar variables se utilizan coeficientes
    de correlación o medidas similares de asociación.

34
- En ausencia de información previa sobre
cuáles son los grupos naturales, no se puede
utilizar una distancia estadística, ya que no es
posible calcular varianzas y covarianzas de la
muestra. Por tanto, en general, se prefiere
emplear otras distancias (por ejemplo la
euclídea).
35
Objetos Cuando no es posible representar los
objetos por medio de medidas p-dimensionales
razonables, se comparan pares de objetos
simplemente en base a la presencia ó ausencia de
unas características se utilizan valores 0-1
para las variables cualitativas (variables
binarias)
Variables
p 5
3
4
0
1
1
0
0
Distancia euclídea al cuadrado d(Item i, Item k)
2 - Se tiene en cuenta sólo del número de
disimilitudes
36
Para poder diferenciar el tratamiento de
similitudes del tipo 0-0 del tratamiento de
similitudes del tipo 1-1 se representan sus
frecuencias en una tabla de contingencia
a número de 1-1 b número de 1-0 c número
de 0-1 d número de 1-0
En nuestro caso a 2, b c d 1
37
Se pueden definir varios coeficientes de
similitud
1) Mismo peso para los 0-0 y 1-1 2) Doble peso
para los 0-0 y 1-1 3) Doble peso para los 0-1 y
1-0 4) No se ponen los 0-0 en el numerador 5)
No se consideran los 0-0 6) No se consideran los
0-0 y doble peso para los 1-1 7) No se
consideran los 0-0 y doble peso para los 0-1 y
1-0 8) Solo se consideran los 1-1 en relación a
los 0-1 y 1-0 solo.
1) (ad)/p 2) 2(ad)/(2(ad)bc) 3)
(ad)/(ada(bc)) 4) a/p 5) a/(abc) 6)
2a/(2abc) 7) a/(a2(bc)) 8) a/(bc)
38
  • Se utiliza el coeficiente elegido para crear una
  • matriz (simétrica) de similitudes.
  • Para n 5 objetos hará falta calcular, en
    total,
  • (n1)(n2)/2 10 tablas de contingencia

1 2 3 4 5
Item
1
1 2 3 4 5

1/6 1
4/6 3/6 1
4/6 3/6 2/6 1

0 5/6 2/6 2/6 1
39
- Si la matriz de similitud es definida no
negativa y los coeficientes de similitud están
normalizados de forma tal que los valores
diagonales sii son iguales a 1, la función d(i,
k) (2(1sik) )1/2 es una distancia (cumple
sus propiedades).
- Por otro lado, a partir de una distancia d(i,
k), es siempre posible recuperar la matriz de
similitud original sik 1/(1d(i, k))
40
Variables para medir la similitud entre
variables se suelen emplean los coeficientes de
correlación muestrales. En algunas técnicas de
clustering se utilizan los valores absolutos de
estos coeficientes y, si las variables son
binarias, se escriben tablas de contingencia
donde para todo par de variables se consideran
los n objetos.
41
Se define y se puede tomar como una medida de
similitud entre las dos variables. El
coeficiente r está relacionado con el estadístico
?², chi cuadrado, (r ?² /n) que se usa para
determinar la independencia entre las dos
variables. Para un valor fijado de n, el valor de
r es directamente proporcional a la ausencia de
independencia.
42
Métodos Jerárquicos
  • Los métodos jerárquicos consisten en la
    construcción de estructuras rígidas en forma de
    árbol a partir de una medida de similitud.
  • Se utilizan, básicamente, dos métodos
  • métodos aglomerativos cada objeto se incluye en
    un único grupo propio. En pasos sucesivos los
    objetos, o grupos, más similares van juntándose
    constituyendo nuevos conglomerados hasta llegar a
    un único cluster final que los contiene todos.

43
  • métodos divisivos se empieza con un gran
    conglomerado que contiene todos los objetos.
  • En los pasos siguientes, se van subdividiendo los
    conglomerados más diferentes en clusters
    sucesivamente más pequeños, hasta que cada objeto
    queda situado en un grupo con ese elemento
    únicamente.

44
Un resultado típico de este tipo de clustering es
un árbol jerárquico (dendrograma)
45
Métodos de encadenamiento (Linkage methods)
  • Encadenamiento simple (single linkage)
    distancia mínima o vecino más cercano.
  • Encadenamiento completo (complete linkage)
    distancia máxima o vecino más lejano.
  • Encadenamiento medio (average linkage)
    distancia media.


d(2,4)

d(1,5)
(?ikd(i, k))/6
46
Algoritmo n objetos
i) Empezar con n grupos de un solo elemento y
una matriz D (d(i, j)) de distancias. ii)
Determinar la distancia d(U, V) entre los grupos
más similares. iii) unir los grupos U y V en un
nuevo grupo UV y actualizar la matriz de
distancias remplazando las filas y columnas de U
y V por una fila y columna UV. iv) repetir (ii)
y (iii) n 1 veces, anotando el nivel y los
grupos que se han unido en cada paso.
47
EJEMPLO Sea D una matriz de distancias entre 5
objetos.
Encadenamiento simple (single linkage)
distancia mínima o vecino más cercano (i) D es
nuestra matriz (ii) 3 y 5 son los objetos más
cercanos (d(3,5)2) (iii) nuevo cluster (35) y
nueva matriz D1 (iv) (35) y 1 son los grupos
más cercanos (d((35),1)3)
(35) 1 2 4
48
(135) 2 4
(v) nuevo cluster (135) y nueva matriz D2 (vi) 2
y 4 son los grupos más cercanos (d(2,4)5) (vii)
nuevo cluster (24) y nueva matriz D3 (viii) (135)
y (24) son los grupos más cercanos (ix) nuevo
cluster (12345)
(135) (24)
1 3 5 2 4
0
2
6
4
49
Encadenamiento completo (complete linkage)
distancia máxima o vecino más lejano, las
matrices son
(35) 1 2 4
(35) (24) 1
(35) (124)
50
Encadenamiento completo
1 2 4 3 5

2 4 6
8 10 12
51
Observaciones sobre los Métodos Cluster
Jerárquicos
  • Las fuentes de error y variación no se
    consideran con los métodos jerárquicos.
  • Gran sensibilidad a observaciones anómalas o
    outliers.
  • Si un objeto o elemento se ha colocado
    erróneamente en un grupo al principio del
    proceso, ya no se puede arreglar en una etapa
    posterior.

52
  • Sería conveniente usar varias distancias o
    similitudes con los mismos objetos y observar si
    se mantienen los mismos clusters o grupos. Así,
    se comprueba la existencia de grupos naturales.
  • Estos métodos se pueden usar para clasificar no
    sólo observaciones, sino también variables,
    usando como medida de similitud algún coeficiente
    de correlación.

53
Métodos no Jerárquicos
  • Se usan para agrupar objetos y no variables en
    un conjunto de k clusters ya predeterminado.
  • - No se tiene que especificar una matriz de
    distancias ni se tienen que almacenar las
    iteraciones. Todo esto permite trabajar con un
    número de datos mucho mayor que en el caso de los
    métodos jerárquicos.

IDEA BASICA
- Se parte de un conjunto inicial de clusters
elegidos al azar, que son los representantes de
todos ellos luego se van cambiando de modo
iterativo. - Se usa el método de las k-medias
(k-means).
54
  • Método de las k-medias
  • Método que permite asignar a cada
    observación el cluster que se encuentra más
    próximo, en relación a un centroide (media). Se
    puede resumir en los siguientes pasos
  • (i) Se toman al azar k clusters iniciales.
  • (ii) Se calculan las distancias de todas las
    observaciones a los centroides de los clusters y
    las observaciones se asignan a los clusters que
    estén más próximos.
  • Se vuelven a recalcular los centroides de los k
    clusters después de las reasignaciones de los
    elementos.

55
  • (iii) Se repiten los dos pasos anteriores hasta
    que no se produzca ninguna reasignación, es
    decir, hasta que los elementos se estabilicen en
    algún grupo.
  • NOTAS
  • Usualmente, se especifican k centroides
    iniciales y se procede al paso (ii).
  • - En la práctica, se observa la mayor parte de
    reasignaciones en el primer paso.

56
Ejemplo supongamos dos variables x1 y x2, que
miden dos características y, por ejemplo, 4
objetos que se denominan A, B, C, D. Se tiene la
siguiente tabla - Se quiere dividir
estos objetos en dos grupos (k 2). - De modo
arbitrario, se dividen los elementos en dos
clusters (AB) y (CD) y se calculan los centroides
de estos dos clusters.
57
Coordenadas del Centroide
58
- En el paso (ii), calculamos las distancias
euclídeas de cada observación al grupo de
centroides y reasignamos cada una al grupo más
próximo. Si alguna observación se mueve de grupo,
hay que recalcular los centroides de los grupos.
Así, las distancias son d2(A, (AB)) (5 2)2
(3 2)2 10 d2(A, (CD)) (5 1)2 (3
2)2 61 - Como A está más próximo al cluster
(AB) que al cluster (CD), no se reasigna. Se hace
lo mismo para el elemento B d2(B, (AB)) (1
2)2 (1 2)2 10 d2(B, (CD)) (1 1)2
(1 2)2 9
59
- Por lo cual, el elemento B se reasigna al
cluster (CD) dando lugar al cluster (BCD). A
continuación, se vuelven a calcular los
centroides
Coordenadas del centroide
60
- Nuevamente, se recalculan las distancias para
cada observación y se ve si se producen cambios
con respecto a los nuevos centroides. - Se
calculan las distancias euclídeas al cuadrado a
los centroides de los grupos.
- Como no se producen cambios, entonces la
solución para k 2 clusters es A y (BCD).
61
  • - Si se quiere comprobar la estabilidad de los
    grupos, es conveniente volver a correr el
    algoritmo con otros clusters iniciales (una
    nueva partición inicial).
  • Una vez obtenidos los clusters finales, es
    conveniente interpretarlos para ello, se pueden
    cruzar con otras variables categóricas o se
    pueden ordenar de modo que los objetos del primer
    cluster aparezcan al principio y los del último
    cluster al final.
  • También es conveniente considerar gráficos
    ilustrativos (por ejemplo, caras de Chernoff).

62
  • TABLAS DE ANALISIS DE LA VARIANZA
  • El objetivo que se persigue al formar los
    clusters, es que los centroides estén lo más
    separados entre sí como sea posible, y que los
    casos u observaciones que estén dentro de cada
    cluster estén muy próximos al centroide.
  • Lo anterior se puede medir con el estadístico de
    la F de Snedecor
  • Equivale al cociente de dos distribuciones
    chi-cuadrado divididas por sus grados de
    libertad. Este estadístico aparece siempre que se
    comparan distancias.

63
  • - El estadístico F se calcula como un cociente de
    medias de cuadrados.
  • - En el caso del análisis de clusters
  • F (medias de cuadrados entre clusters) /
    (medias de cuadrados dentro de clusters).
  • Si F gt 1, las distancias entre los centroides de
    los grupos son mayores que las distancias de los
    elementos dentro de los grupos. Se realiza un
    Test de Hipótesis.
  • - Esto es lo que se busca para que los clusters
    estén suficientemente diferenciados entre sí.

64
PROBLEMAS que surgen al fijar k clusters
iniciales (i) Si dos centroides iniciales caen
por casualidad en un único cluster (natural),
entonces los clusters que resultan están poco
diferenciados entre sí. (ii) Si aparecen
outliers, se obtiene, por lo menos, un cluster
con sus objetos muy dispersos. (iii) Si se
imponen previamente k clusters pueden originarse
grupos artificiales o bien se pueden juntar
grupos distintos. Una posible solución es
considerar varias elecciones de k (nº de
clusters) comparando luego sus coeficientes de la
F de Snedecor.
65
Multidimentional Scaling (MDS)
  • Las técnicas de MDS tratan sobre el siguiente
    problema
  • - Para un conjunto de similitudes observadas (o
    distancias) entre cualquier par de objetos de un
    total de N objetos, encontrar una representación
    gráfica de éstos en unas pocas dimensiones, de
    modo que sus posiciones casi se ajusten a las
    similitudes (o distancias) originales.
  • Con N objetos, se buscan configuraciones de q
    dimensiones, de modo que el ajuste entre
    posiciones originales y posiciones en las q
    dimensiones sea el más preciso posible. Lo
    anterior se mide mediante el stress.

66
  • Si se usan distancias (o similitudes), se tiene
    el llamado escalamiento multidimensional métrico.
  • Si se usan rangos (orden de las observaciones),
    en vez de distancias, se tiene el MDS no métrico.

67
  • PROCEDIMIENTO BASICO
  • Dados N objetos, existen M N(N1)/2
    distancias (o similitudes) entre pares de
    diferentes objetos. También se pueden usar rangos
    ordenados.
  • - Las similitudes se ordenan en orden creciente
    como
  • si1 k1 lt si2 k2 lt ... lt sim km ()
  • - Aquí si1 k1 es la menor de las M similitudes,
    donde i1 k1 es el par de observaciones que son
    menos similares y, del mismo modo, im km, las más
    similares.

68
- Buscamos una configuración de dimensión q tal
que las distancias entre los N objetos mantengan
el orden expresado en (). Es decir, que
suceda di1 k1 gt di2 k2 gt ... gt di m km -
Lo importante es que se mantenga el orden, no las
magnitudes en sí.
69
  • - Kruskal (1964) dio una medida de la adecuación
    de la representación en q dimensiones a las
    similitudes originales dicha medida se denomina
    stress
  • donde dij son las distancias entre los objetos y
    hij son funciones monótonas de las distancias que
    se determinan de modo que S sea mínimo.

70
  • Se buscan representaciones geométricas en q
    dimensiones de modo que el stress sea mínimo.
  • Empíricamente, se considera que si el stress es
    del 20 (0,2), la bondad del ajuste es pobre si
    es del 5 (0,05), la bondad del ajuste es buena y
    a partir del 2,5 es excelente.
  • - Se trata de minimizar el stress para un número
    fijo q de dimensiones, mediante procesos
    iterativos (Métodos del Gradiente).

71
  • Observaciones
  • - Las técnicas MDS están relacionadas con el
    Análisis de Componentes Principales y el Análisis
    de Correspondencia
  • Estos usan una matriz en el primer caso, de
    covarianzas o de correlaciones y en el segundo,
    de similitudes, y generan un espacio con el
    mínimo número de dimensiones posible donde se
    representan los datos.
  • En general, el MDS necesita menos dimensiones
    que el Análisis de Componentes Principales para
    representar los datos o las variables.

72
  • El MDS proporciona una descripción dimensional
    cuantitativa de las variables, mientras que el
    Análisis de Componentes Principales permite,
    además, una descripción de los objetos o
    individuos en forma de sus puntuaciones
    factoriales.
  • - Con respecto a las técnicas de Análisis de
    Cluster, el MDS comparte con ellas las siguientes
    características investiga la estructura de un
    conjunto de variables, el punto de partida es una
    matriz de proximidades y la representación
    gráfica que se obtiene se puede interpretar como
    distancias.

73
SOM (Self Organizing Maps)
- El método de las SOM (redes auto-organizativas)
está relacionado con el métodos de las k-means y
ha sido aplicado, por ejemplo, a datos sobre la
expresión de mRNA de ciclos celulares. - Un SOM
es un conjunto de k nodos con una topología
sencilla (por ejemplo una retícula de dimensión
dos o una malla) y una distancia d(N1, N2) entre
nodos.
74
- Es un método más estructurado que el método de
las k-means, ya que los centroides son nodos de
la retícula. - Los nodos se entrenan de forma
iterativa en un espacio de dimensión q (por
ejemplo un espacio de expresión de genes donde la
coordenada i-ésima representa el nivel de
expresión de la i-ésima muestra).
75
Un ejemplo de SOM
http//www.neuroinformatik.ruhr-unibochum.de/ini/V
DM/research/contents.html
76
  • - La posición del nodo Nk en el paso i se denota
    con fi(Nk).
  • La representación inicial de los nodos f0 es
    aleatoria.
  • En cada paso, un punto P (vector original de
    dimensión q) de los n datos, se selecciona al
    azar y se identifica el centroide NP más cercano.
  • El punto P atrae a ese centroide y a algunos
    otros nodos vecinos por medio de un cambio de la
    función f según la siguiente expresión

77
fi1(N) fi(N) ? (d(N, NP), i) (P
fi(N)) donde la tasa de aprendizaje (learning
rate) ? es inversamente proporcional a la
distancia d(N, NP) y al número de iteraciones
i. - Después de un número de iteraciones
suficientemente grande, el proceso se para y los
datos se asignan al cluster correspondiente al
nodo más cercano.
78
Problemas - El investigador tiene que
especificar a priori el número de clusters, la
topología del retículo, su dimensión y el número
de clusters en cada dimensión. La definición
artificial de la malla puede influir en la
formación de los clusters. - Las técnicas de
optimización para el método de la k-medias se
puede emplear para SOM.
79
Referencias Bibliográficas
  • P. DHaeseleer et al., Gene Network Inference
    From Co-Expression Clustering to Reverse
    Engineering, 2000, Bioinformatics 16 707-726
  • B. S. Everitt and G. Dunn, Applied Multivariate
    Data Analysis, Arnold, 2001
  • Gower, J. C., Some Distances properties of
    Latent Root and Vector Methods Used in
    Multivariate Analysis, 1966, Biometrika, 53,
    325-338
  • Gower, J. C., Multivariate Analysis and
    Multidimensional Geometry, 1967, The
    Statistician, 17, 13-25
  • J.A.Hartigan, Clustering Algorithms, 1975, John
    Wiley Sons, Inc.
  • J.F.Hair Jr., R.E. Anderson, R.L. Tatham, W.C.
    Black,
  • Análisis multivariante, 5ª ed., 1999, Prentice
    Hall Iberia, S.R.L.

80
  • R.A. Johnson, D.W. Wichern, Applied Multivariate
    Statistical Analysis, 1998, Prentice-Hall, Inc.
  • P. Tamayo et al., Interpretinmg Patterns of
    Genes Expression with Self-Organizing Maps
    Methods and Application to Hematopoietic
    Differentiation, 1999, Proc Natl Acad Sci USA 96
    2907

81
Enlaces
http//www.Statsoft.com/textbook/stathome.html ht
tp//www.neuroinformatik.ruhr-unibochum.de/ini/VDM
/research/contents.html
Write a Comment
User Comments (0)
About PowerShow.com