Aprendizaje Automtico en Bioinformtica - PowerPoint PPT Presentation

1 / 22
About This Presentation
Title:

Aprendizaje Automtico en Bioinformtica

Description:

... como la m nima distancia entre pares de objetos pertenecientes a los mismos ... media entre las distancias de todos los pares de objetos cada uno de ellos de ... – PowerPoint PPT presentation

Number of Views:92
Avg rating:3.0/5.0
Slides: 23
Provided by: scE63
Category:

less

Transcript and Presenter's Notes

Title: Aprendizaje Automtico en Bioinformtica


1
Aprendizaje Automático en Bioinformática
  • Pedro Larrañaga
  • Intelligent Systems Group
  • Departamento de CCIA
  • UPV-EHU
  • Lejona, 12 de noviembre de 2003

2
Esquema
  • Introducción
  • Clustering
  • Clasificación Supervisada
  • Selección de Variables
  • Conclusiones

3
Introducción
  • Gran volumen de datos
  • Problemas de almacenamiento (bases de datos)
  • Problemas de tratamiento de imagen
  • Problemas de optimización
  • Sistemas de ayuda predicción de enfermedades,
    descubrimiento de conocimiento

4
Clustering
  • Tenemos caracterizados 50 pacientes, con su
    expresión génica en 2000 genes
  • Nos interesa
  • Grupos de pacientes con expresiones génicas
    parecidas
  • Grupos de genes que se comportan de la misma forma

5
Clustering
  • Objetivo agrupar objetos en grupos, homogeneidad
    dentro, heterogeneidad entre
  • Dos técnicas básicas
  • Clustering particional k-means (MacQueen, 1967)
  • Clustering jerárquico (McQuitty, 1962)

6
k-means
  • Paso 1 Seleccionar k centroides
  • Paso 2 Asignar cada objeto a agrupar al
    centroide más cercano
  • Paso 3 Iterar hasta convergencia
  • Paso 3.1 Recalcular los centroides como
    baricentros de los objetos de cada grupo
  • Paso 3.2 Reasignar cada objeto al centroide más
    cercano

7
k-means
  • Iteración 0
    Iteración 1

8
k-means
  • Iteración 1 Iteración
    2

9
k-means
  • Iteración 3 Iteración 4

10
Clustering ascendente jerárquico
  • Técnica aglomerativa
  • Fusiona objetos de forma sucesiva
  • Definición de distancia entre superobjetos
  • Visualización
  • Dendrograma (árbol)
  • Diagrama de Venn

11
Clustering ascendente jerárquico
  • Enlace simple (single linkage)
  • La distancia entre dos superobjetos se define
    como la mínima distancia entre pares de objetos
    pertenecientes a los mismos

x x x x
O O O O
12
Clustering ascendente jerárquico
  • Enlace medio (mean linkage)
  • La distancia entre dos superobjetos se define
    como la media entre las distancias de todos
    los pares de objetos cada uno de ellos de
    distintos superobjetos

x x x x
O O O O
13
Clustering ascendente jerárquico
  • Enlace completo (complete linkage)
  • La distancia entre dos superobjetos se define
    como el máximo entre las distancias de todos
    los pares de objetos cada uno de ellos de
    distintos superobjetos

x x x x
O O O O
14
(No Transcript)
15
Clasificación supervisada
  • Objetivo a partir de unas muestras etiquetadas,
    ser capaz de etiquetar nuevas muestras

16
Clasificación supervisada
  • Paradigmas clasificatorios
  • Clasificadores Bayesianos
  • Árboles de clasificación
  • K-NN
  • Inducción de reglas
  • Redes neuronales
  • Máquinas de soporte vectorial

17
Clasificación supervisada
  • Criterios de comparación de clasificadores
  • Tasa de acierto
  • Área bajo la curva ROC
  • Complejidad algorítmica del inductor
  • Interpretabilidad del modelo
  • Simplicidad del modelo

18
Clasificación supervisada
  • Clasificadores Bayesianos naïve Bayes

C
...
X1 X2 X3
Xn
19
Clasificación supervisada
  • Árboles de clasificación

gen_32
lt .34
gt .34
gen_27
gen_91
lt .72
gt .72
gt .59
lt .59
gen_40
gen_98
lt .29
gt .29
lt .63
gt .63
sano 26/2
sano 40/6
enfermo 3/17
enfermo 4/30
enfermo 2/40
sano 25/5
20
Selección de variables
  • Motivación
  • Mejora en el eficacia, eficiencia y rapidez de
    uso del modelo
  • Mejor comprensibilidad de los datos
  • Variables redundantes, variables irrelevantes
  • Dos tipos de aproximación
  • Filtrado
  • Envoltura

21
Selección de variables
Porcentaje de casos bien clasificados para la
base de datos Leukemia (Golub et al., 1999)
7129 genes, 72 casos (25 AML, 47 ALL) (Inza y
col., 2003)
22
Conclusiones
  • Biología molecular rica en datos
  • Técnicas de aprendizaje automático válidas para
  • descubrir conocimiento
  • sugerir nuevas hipótesis
  • crear modelos predictivos
  • estudiar la corregulación entre genes
  • resolver problemas de optimización
Write a Comment
User Comments (0)
About PowerShow.com