Title: An
1Análisis de conglomerados(Cluster analysis)
2- Métodos de partición
- Dividir los datos en grupos disjuntos
- Métodos jerárquicos
- Construir una jerarquía de los datos y deducir de
alli los grupos
3K medias
4Criterios
5Mismo criterio con vectores
6Justificación del criterio
- La justificación es el análisis de la varianza.
Para una variable escalar esto es la
descomposición
VTVNEVE
Y para vectores
Minimizar la variabilidad internar es maximizar
las diferencias entre grupos.
7Algoritmo de K medias
8Numero de grupos
9Problemas de estandarización
10Ejemplo Ruspini
11(No Transcript)
12(No Transcript)
13(No Transcript)
14(No Transcript)
15Problemas de k-medias
- Muy sensible a datos atípicos (k-medias
recortadas) - Distancias euclídeas. Mal para cluster esféricos
- No determinar el número de grupos que
- debe obtenerse por algúna medida de ajuste.
16Algoritmos jerárquicos
17Aglomerativos
18 vecino más proximo
19Vecino más alejado
20media
21centroide
22Método de Ward
23Dendogramas
24Ejemplo
25(No Transcript)
26(No Transcript)
27(No Transcript)
28(No Transcript)
29(No Transcript)
30(No Transcript)
31(No Transcript)
32Problemas cluster jerárquico
- Con muchos datos lento, cada vez n(n-1)/2
comparaciones. - Distancias euclideas pueden no ser apropiadas
- Con muchos datos dificil de interpretar el
dendograma
33Un nuevo enfoque para cluster (The SAR procedure,
Peña and Tiao, 2003)
Buscar para cada dato su discriminante. Definido
por el punto que maximiza
This is equivalent to
And for large samples
34(No Transcript)
35(No Transcript)
36We can split the sample in this way and
compute Some global statistic at each step as the
SCDG To see if more splitting is needed
37(No Transcript)
38Conglomerados por variables
Distancias entre variables cuantitativas
39Distancias entre variables cuantitativas (2)
40Distancias entre variables cualitativas
41Similaridad entre atributos cualitativos
42(No Transcript)
43(No Transcript)