Title: A1262738758maIBq
1Aprendizaje no Supervisado Clustering
Norberto Díaz Díaz Bioinformatics Group of
Seville (BIGS) Dpto. de Lenguajes y Sistemas
Informaticos Universidad de Sevilla
2Tabla de Contenidos
Introducción Clustering Jerárquico CobWeb,
FarthestFirst Basado en Particiones
K-means Algoritmo EM
3Introducción
Aprendizaje Supervisado (Clasificación) El
conjunto de datos contiene un atributo que guía
el aprendizaje (clase). Clasificadores K-NN
(IBk), C4.5 (J48)
Aprendizaje Semi-Supervisado Algunos ejemplos
tienen clase y otros no.
Aprendizaje No Supervisado (Clustering-Biclusterin
g) No existe atributo clase.
4 CLUSTERING
Objetivo crear conjunto de elementos los cuales
tengan alguna característica común.
Crear conjuntos de genes según su expresión bajo
condiciones experimentales.
Crear conjuntos de condiciones según la expresión
de los genes de un genoma.
El clustering solo actua bajo una dimensión.
5Clustering Jerárquico - Algoritmo
Se basa en descomponer jerárquicamente el
conjunto de datos de entrada
6Clustering Jerárquico - Ejemplo
Partición recursiva de los datos
5
1
4
2
3
7Clustering Jerárquico CobWeb (en Weka)
8Clustering Jerárquico FarthestFirst (en Weka)
9Clustering Basado en particiones K-Medias
Consiste en minimizar las distancias de los
elementos de la partición y el centroide de ésta.
10K-Medias Ejemplo 1
11K-Medias Ejemplo online
http//www.lsi.us.es/ndiaz/proyectosFinCarrera.ht
ml http//www.elet.polimi.it/upload/matteucc/Clust
ering/tutorial_html/AppletKM.html
12Kmedias SimpleKMeans (en Weka)
13Clustering EM (Expectation Maximization)
Se basa en el modelo estadístico de
Gauss Estima parámetros por máxima
verosimilitud Imputación de datos inexistentes
El proceso es similar a K-means Los parámetros
son recalculados hasta que los valores convergen
Suele utilizarse para estimar la distribución de
los datos a priori Esto puede verse en el
algoritmo de clustering CLICK
14Clustering EM - Weka
15 Ejercicio Supervisado vs NoSupervisado
Quién consigue el mejor resultado para la base
de datos zoo.arf, usando supervisado y
no-Supervisado?
16 FIN